Date mare. Big data în lumea modernă La ce pot fi folosite big data?

S-a prezis că volumul total global de date create și replicate în 2011 ar putea fi de aproximativ 1,8 zettabytes (1,8 trilioane de gigaocteți) - de aproximativ 9 ori mai mult decât ceea ce a fost creat în 2006.

Definiție mai complexă

Totuși` Date mare` implică mai mult decât doar analiza unor cantități uriașe de informații. Problema nu este că organizațiile creează cantități uriașe de date, ci că majoritatea sunt prezentate într-un format care nu se potrivește bine cu formatul tradițional al bazei de date structurate - jurnalele web, videoclipurile, documente text, codul mașinii sau, de exemplu, date geospațiale. Toate acestea sunt stocate în multe depozite diferite, uneori chiar și în afara organizației. Drept urmare, corporațiile pot avea acces la cantități uriașe de date și nu au instrumentele necesare pentru a stabili relații între aceste date și a trage concluzii semnificative pe baza acestora. Adăugați la aceasta faptul că acum datele sunt actualizate din ce în ce mai frecvent și obțineți o situație în care metodele tradiționale de analiză a informațiilor nu pot ține pasul cu volumele uriașe de date actualizate constant, ceea ce deschide în cele din urmă calea tehnologiei. Date mare.

Cea mai bună definiție

În esență conceptul Date mare presupune lucrul cu informații de un volum uriaș și compoziție diversă, de foarte multe ori actualizate și localizate în surse diferite pentru a crește eficiența operațională, a crea noi produse și a crește competitivitatea. Firma de consultanta Forrester ofera o scurta formulare: ` Date mare reunește tehnici și tehnologii care extrag sens din date la limitele extreme ale caracterului practic.

Cât de mare este diferența dintre analiza de afaceri și big data?

Craig Bathy, director executiv de marketing și director de tehnologie al Fujitsu Australia, a subliniat că analiza de afaceri este un proces descriptiv de analiză a rezultatelor obținute de o afacere într-o anumită perioadă de timp, în timp ce viteza de procesare Date mare vă permite să faceți analiza predictivă, capabilă să ofere recomandări de afaceri pentru viitor. Tehnologiile de date mari vă permit, de asemenea, să analizați mai multe tipuri de date decât instrumentele de business intelligence, ceea ce face posibilă concentrarea asupra mai multor depozite structurate.

Matt Slocum de la O'Reilly Radar crede că, deși Date mareși business analytics au același scop (găsirea răspunsurilor la o întrebare), diferă între ele în trei aspecte.

Big data este conceput pentru a gestiona volume mai mari de informații decât analizele de afaceri și acest lucru se potrivește cu siguranță definiției tradiționale a datelor mari.
Big Data este conceput pentru a gestiona informații mai rapid, care se schimbă mai rapid, ceea ce înseamnă explorare profundă și interactivitate. În unele cazuri, rezultatele sunt generate mai repede decât se încarcă pagina web.
Big Data este conceput pentru a procesa date nestructurate pe care abia începem să le explorăm cum să le folosim odată ce le-am putut colecta și stoca și avem nevoie de algoritmi și capacități de conversație pentru a facilita găsirea tendințelor conținute în aceste seturi de date.

Conform cărții albe „Oracle Information Architecture: An Architect’s Guide to Big Data” publicată de Oracle, atunci când lucrăm cu date mari, abordăm informațiile diferit decât atunci când efectuăm analize de afaceri.

Lucrul cu big data nu este ca procesul obișnuit de business intelligence, unde simpla adunare a valorilor cunoscute produce un rezultat: de exemplu, adunarea facturilor plătite devine vânzări pentru anul. Când se lucrează cu date mari, rezultatul este obținut în procesul de curățare a acestora prin modelare secvențială: în primul rând, se emite o ipoteză, se construiește un model statistic, vizual sau semantic, pe baza acestuia se verifică acuratețea ipotezei propuse. , iar apoi este prezentat următorul. Acest proces necesită ca cercetătorul fie să interpreteze semnificațiile vizuale, fie să construiască interogări interactive bazate pe cunoștințe, fie să dezvolte algoritmi adaptativi de „învățare automată” care pot produce rezultatul dorit. Mai mult, durata de viață a unui astfel de algoritm poate fi destul de scurtă.

Tehnici de analiză a datelor mari

Există multe metode diferite de analiză a seturilor de date, care se bazează pe instrumente împrumutate din statistică și informatică (de exemplu, învățarea automată). Lista nu se pretinde a fi completă, dar reflectă cele mai populare abordări din diverse industrii. Trebuie înțeles că cercetătorii continuă să lucreze la crearea de noi tehnici și îmbunătățirea celor existente. În plus, unele dintre tehnicile enumerate nu se aplică neapărat exclusiv datelor mari și pot fi utilizate cu succes pentru matrice mai mici (de exemplu, testarea A/B, analiza de regresie). Desigur, cu cât matricea este mai voluminoasă și mai diversificată, cu atât pot fi obținute date mai precise și mai relevante ca rezultat.

Testare A/B. O tehnică în care o probă de control este comparată alternativ cu altele. Astfel, este posibil să se identifice combinația optimă de indicatori pentru a obține, de exemplu, cel mai bun răspuns al consumatorului la o ofertă de marketing. Date mare vă permit să efectuați un număr mare de iterații și să obțineți astfel un rezultat fiabil din punct de vedere statistic.

Învățarea regulilor de asociere. Un set de tehnici de identificare a relațiilor, de ex. reguli de asociere între variabilele din seturi mari de date. Folosit in extragerea datelor.

Clasificare. Un set de tehnici care vă permit să preziceți comportamentul consumatorului într-un anumit segment de piață (decizii de cumpărare, abandon, volumul de consum etc.). Folosit in extragerea datelor.

Analiza grupului. O metodă statistică de clasificare a obiectelor în grupuri prin identificarea caracteristicilor comune care nu sunt cunoscute în prealabil. Folosit in extragerea datelor.

Crowdsourcing. Metodologie de colectare a datelor dintr-un număr mare de surse.

Fuziunea și integrarea datelor. Un set de tehnici care vă permit să analizați comentariile utilizatorilor rețelelor sociale și să le comparați cu rezultatele vânzărilor în timp real.

Exploatarea datelor. Un set de tehnici care vă permit să determinați categoriile de consumatori cele mai sensibile la produsul sau serviciul promovat, să identificați caracteristicile celor mai de succes angajați și să preziceți modelul comportamental al consumatorilor.

Învățare prin ansamblu. Această metodă utilizează multe modele predictive, îmbunătățind astfel calitatea prognozelor făcute.

Algoritmi genetici. În această tehnică solutii posibile reprezentați ca „cromozomi” care se pot combina și muta. La fel ca în procesul de evoluție naturală, cel mai apt individ supraviețuiește.

Învățare automată. O direcție în informatică (în mod istoric i s-a dat numele de „inteligență artificială”), care urmărește scopul de a crea algoritmi de auto-învățare bazați pe analiza datelor empirice.

Procesarea limbajului natural (NLP). Un set de tehnici de recunoaștere a limbajului uman natural împrumutat din informatică și lingvistică.

Analiza rețelei. Un set de tehnici pentru analiza conexiunilor dintre nodurile din rețele. În legătură cu rețelele sociale, vă permite să analizați relațiile dintre utilizatorii individuali, companii, comunități etc.

Optimizare. Un set de metode numerice pentru reproiectarea sistemelor și proceselor complexe pentru a îmbunătăți una sau mai multe valori. Ajută la luarea deciziilor strategice, de exemplu, componența liniei de produse care urmează să fie lansată pe piață, efectuarea analizei investiționale etc.

Recunoasterea formelor. Un set de tehnici cu elemente de auto-învățare pentru prezicerea modelului comportamental al consumatorilor.

Modelare predictivă. Un set de tehnici care vă permit să creați un model matematic al unui scenariu probabil predeterminat pentru dezvoltarea evenimentelor. De exemplu, analiza bazei de date a sistemului CRM pentru posibilele condiții care vor determina abonații să schimbe furnizorii.

Regresia. Un set de metode statistice pentru identificarea unui model între modificările unei variabile dependente și una sau mai multe variabile independente. Adesea folosit pentru prognoză și previziuni. Folosit în data mining.

Analiza sentimentelor. Tehnicile de evaluare a sentimentului consumatorilor se bazează pe tehnologii de recunoaștere a limbajului natural. Acestea vă permit să izolați mesajele legate de subiectul de interes (de exemplu, un produs de consum) din fluxul de informații generale. Apoi, evaluați polaritatea judecății (pozitivă sau negativă), gradul de emoționalitate etc.

Procesare a semnalului. Un set de tehnici împrumutate din ingineria radio care urmărește recunoașterea unui semnal pe un fundal de zgomot și analiza ulterioară a acestuia.

Analiza spațială. Un set de metode de analiză a datelor spațiale, împrumutate parțial din statistici - topologia terenului, coordonatele geografice, geometria obiectului. Sursă Date mareîn acest caz apar adesea sisteme informatice geografice(GIS).

Revolution Analytics (bazat pe limbajul R pentru statistici matematice).

Un interes deosebit în această listă este Apache Hadoop - software cu sursa deschisa, care a fost testat ca analizor de date de majoritatea instrumentelor de urmărire a stocurilor în ultimii cinci ani. Imediat ce Yahoo a deschis codul Hadoop pentru comunitatea open source, o întreagă mișcare de creare a produselor bazate pe Hadoop a apărut imediat în industria IT. Aproape toate instrumentele moderne de analiză Date mare furniza instrumente de integrare Hadoop. Dezvoltatorii lor sunt atât startup-uri, cât și companii globale bine-cunoscute.

Piețe pentru soluții de management al datelor mari

Platformele Big Data (BDP, Big Data Platform) ca mijloc de combatere a hordingului digital

Abilitatea de a analiza Date mare, numită colocvial Big Data, este percepută ca un beneficiu și fără ambiguitate. Dar este chiar așa? La ce ar putea duce acumularea nestăpânită de date? Cel mai probabil la ceea ce psihologii domestici, în relație cu oamenii, numesc tezaurizare patologică, silogomanie sau, la figurat, „sindromul Plyushkin”. În engleză, pasiunea vicioasă de a colecta totul se numește hording (de la tezaurul englezesc - „stoc”). Conform clasificării bolilor mintale, hordingul este clasificat ca o tulburare mintală. În era digitală, tezaurizarea digitală se adaugă la acumularea tradițională de materiale; poate afecta atât indivizi, cât și întreprinderi și organizații întregi ().

Piața mondială și rusă

Big data Landscape - Principalii furnizori

Interes pentru instrumentele de colectare, prelucrare, management și analiză Date mare Aproape toate companiile IT de top au demonstrat acest lucru, ceea ce este destul de firesc. În primul rând, ei întâlnesc direct acest fenomen în propria afacere și, în al doilea rând, Date mare deschide oportunități excelente pentru dezvoltarea de noi nișe de piață și atragerea de noi clienți.

Pe piață au apărut multe startup-uri care fac afaceri prin prelucrarea unor cantități uriașe de date. Unele dintre ele folosesc infrastructură cloud gata făcută, furnizată de jucători mari precum Amazon.

Teoria și practica Big Data în industrii

Istoria dezvoltării

2017

Prognoza TmaxSoft: următorul „val” de Big Data va necesita modernizarea DBMS

Întreprinderile știu că marile cantități de date pe care le acumulează le conțin Informații importante despre afacerile și clienții lor. Dacă o companie poate aplica cu succes aceste informații, va avea un avantaj semnificativ față de concurenții săi și va putea oferi produse și servicii mai bune decât ale lor. Cu toate acestea, multe organizații încă nu reușesc să utilizeze eficient Date mare din cauza faptului că infrastructura lor IT moștenită nu este în măsură să ofere capacitatea necesară de stocare, procesele de schimb de date, utilitățile și aplicațiile necesare pentru a procesa și analiza cantități mari de date nestructurate pentru a extrage informații valoroase din acestea, a indicat TmaxSoft.

În plus, puterea crescută de procesare necesară pentru a analiza volume tot mai mari de date poate necesita investiții semnificative în infrastructura IT moștenită a unei organizații, precum și resurse suplimentare de întreținere care ar putea fi utilizate pentru a dezvolta noi aplicații și servicii.

Pe 5 februarie 2015, Casa Albă a lansat un raport care discuta despre modul în care companiile folosesc „ Date mare» de a percepe prețuri diferite către diferiți clienți, o practică cunoscută sub numele de „discriminare a prețurilor” sau „prețuri personalizate”. Raportul descrie beneficiile big data atât pentru vânzători, cât și pentru cumpărători, iar autorii săi concluzionează că multe dintre problemele ridicate de big data și prețurile diferențiate pot fi abordate prin legile și reglementările existente antidiscriminare care protejează drepturile consumatorilor.

Raportul notează că, în acest moment, există doar dovezi anecdotice ale modului în care companiile folosesc datele mari în contextul marketingului personalizat și al prețurilor diferențiate. Aceste informații arată că vânzătorii folosesc metode de stabilire a prețurilor care pot fi împărțite în trei categorii:

studiul curbei cererii;
Direcție și prețuri diferențiate pe baza datelor demografice; Și
marketing comportamental țintit (direcționare comportamentală) și prețuri individualizate.

Studierea curbei cererii: Pentru a determina cererea și a studia comportamentul consumatorilor, specialiștii în marketing efectuează adesea experimente în acest domeniu în care clienții sunt repartizați aleatoriu într-una dintre cele două categorii de preț posibile. „Din punct de vedere tehnic, aceste experimente sunt o formă de preț diferențial, deoarece au ca rezultat prețuri diferite pentru clienți, chiar dacă sunt „nediscriminatorii”, în sensul că toți clienții au aceeași probabilitate de a fi „trimiși” la un preț mai mare.”

Direcție: Este practica de a prezenta produse consumatorilor pe baza apartenenței acestora la un anumit grup demografic. De exemplu, site-ul web al unei companii de calculatoare poate oferi același laptop diferitelor tipuri de clienți la prețuri diferite, în funcție de informațiile pe care le oferă despre ei înșiși (de exemplu, în funcție de acest utilizator un reprezentant al agențiilor guvernamentale, al instituțiilor științifice sau comerciale sau al unei persoane fizice) sau din locația lor geografică (de exemplu, determinată de adresa IP a unui computer).

Marketing comportamental țintit și prețuri personalizate: În aceste cazuri, informațiile personale ale clienților sunt folosite pentru a viza publicitatea și pentru a personaliza prețurile pentru anumite produse. De exemplu, agenții de publicitate online folosesc colectate retele de publicitateși, prin cookie-uri de la terți, date despre activitatea utilizatorilor pe Internet pentru a trimite materiale publicitare vizate. Această abordare, pe de o parte, permite consumatorilor să primească reclame pentru bunuri și servicii de interes pentru aceștia, dar poate provoca îngrijorare pentru acei consumatori care nu doresc anumite tipuri de date personale (cum ar fi informații despre vizitele pe site-uri web). legate de chestiuni medicale și financiare) au fost colectate fără acordul acestora.

Deși marketingul comportamental țintit este larg răspândit, există relativ puține dovezi de stabilire a prețurilor personalizate în mediul online. Raportul speculează că acest lucru se poate datora faptului că metodele sunt încă în curs de dezvoltare sau pentru că companiile ezită să folosească prețuri personalizate (sau preferă să tacă) - poate temându-se de o reacție din partea consumatorilor.

Autorii raportului sugerează că „pentru consumatorul individual, utilizarea datelor mari prezintă în mod clar atât recompense, cât și riscuri potențiale”. Deși recunoaște că datele mari ridică probleme de transparență și discriminare, raportul susține că legile existente anti-discriminare și protecția consumatorilor sunt suficiente pentru a le rezolva. Cu toate acestea, raportul subliniază, de asemenea, necesitatea unei „supravegheri continue” atunci când companiile utilizează informații sensibile în moduri care nu sunt transparente sau în moduri care nu sunt acoperite de cadrele de reglementare existente.

Acest raport continuă eforturile Casei Albe de a examina utilizarea datelor mari și a prețurilor discriminatorii pe internet și consecințele care rezultă pentru consumatorii americani. S-a raportat anterior că grup de lucru Biroul Big Data de la Casa Albă și-a publicat raportul pe această problemă în mai 2014. Comisia Federală pentru Comerț (FTC) a abordat, de asemenea, aceste probleme în timpul atelierului său din septembrie 2014 privind discriminarea big data.

2014

Gartner risipește miturile despre Big Data

O notă de cercetare din toamna anului 2014 de la Gartner enumeră o serie de mituri comune despre Big Data în rândul liderilor IT și le oferă respingeri.

Toată lumea implementează sisteme de procesare Big Data mai rapid decât noi

Interesul pentru tehnologiile Big Data este la cote maxime: 73% dintre organizațiile chestionate de analiștii Gartner în acest an investesc deja sau plănuiesc să facă acest lucru. Dar majoritatea acestor inițiative sunt încă în faze foarte incipiente și doar 13% dintre respondenți au implementat deja astfel de soluții. Cel mai dificil lucru este să determinați cum să extrageți venituri din Big Data, să decideți de unde să începeți. Multe organizații rămân blocate în etapa pilot, deoarece nu se pot angaja tehnologie nouă la anumite procese de afaceri.

Avem atât de multe date încât nu trebuie să ne facem griji cu privire la erorile mici din ele

Unii manageri IT consideră că micile defecte ale datelor nu afectează rezultatele generale ale analizei unor volume uriașe. Când există o mulțime de date, fiecare eroare individuală are de fapt un impact mai mic asupra rezultatului, notează analiștii, dar erorile în sine devin și mai numeroase. În plus, majoritatea datelor analizate sunt externe, de structură sau origine necunoscută, astfel că probabilitatea erorilor crește. Deci, în lumea Big Data, calitatea este de fapt mult mai importantă.

Tehnologiile Big Data vor elimina necesitatea integrării datelor

Big Data promite capacitatea de a procesa datele în formatul său original, cu generarea automată a schemei pe măsură ce sunt citite. Se crede că acest lucru va permite ca informațiile din aceleași surse să fie analizate folosind mai multe modele de date. Mulți cred că acest lucru va permite și utilizatorilor finali să interpreteze orice set de date după cum consideră de cuviință. În realitate, majoritatea utilizatorilor doresc adesea modul tradițional cu o schemă gata făcută, în care datele sunt formatate corespunzător și există acorduri cu privire la nivelul de integritate al informațiilor și la modul în care acestea ar trebui să se raporteze la cazul de utilizare.

Nu are rost să folosiți depozitele de date pentru analize complexe

Mulți administratori de sisteme de management al informațiilor consideră că nu are rost să petrecem timp creând un depozit de date, având în vedere acest complex sisteme analitice utilizați noi tipuri de date. De fapt, multe sisteme de analiză complexe utilizează informații dintr-un depozit de date. În alte cazuri, noi tipuri de date trebuie pregătite suplimentar pentru analiză în sistemele de procesare Big Data; trebuie luate decizii cu privire la adecvarea datelor, principiile de agregare și nivelul necesar de calitate - o astfel de pregătire poate avea loc în afara depozitului.

Depozitele de date vor fi înlocuite cu lacuri de date

În realitate, vânzătorii induc în eroare clienții poziționând lacurile de date ca înlocuitor pentru stocare sau ca elemente critice ale infrastructurii analitice. Tehnologiilor care stau la baza lacurilor de date le lipsește maturitatea și amploarea funcționalității găsite în depozite. Prin urmare, managerii responsabili cu gestionarea datelor ar trebui să aștepte până când lacurile ating același nivel de dezvoltare, potrivit Gartner.

Accenture: 92% dintre cei care au implementat sisteme de big data sunt mulțumiți de rezultate

Printre principalele avantaje ale datelor mari, respondenții au numit:

„căutând noi surse de venit” (56%),
„îmbunătățirea experienței clienților” (51%),
„produse și servicii noi” (50%) și
„un aflux de clienți noi și menținerea loialității celor vechi” (47%).

La introducerea noilor tehnologii, multe companii se confruntă cu probleme tradiționale. Pentru 51%, piatra de poticnire a fost securitatea, pentru 47% - bugetul, pentru 41% - lipsa personalului necesar, iar pentru 35% - dificultăți de integrare cu sistem existent. Aproape toate companiile chestionate (aproximativ 91%) plănuiesc să rezolve în curând problema deficitului de personal și să angajeze specialiști în big data.

Companiile sunt optimiste cu privire la viitorul tehnologiilor de date mari. 89% cred că vor schimba afacerile la fel de mult ca internetul. 79% dintre respondenți au remarcat că companiile care nu se angajează în big data își vor pierde avantajul competitiv.

Cu toate acestea, respondenții nu au fost de acord cu privire la ce anume ar trebui să fie considerate date mari. 65% dintre respondenți cred că acestea sunt „fișiere de date mari”, 60% cred că aceasta este „analitică și analiză avansată”, iar 50% cred că acestea sunt „instrumente de vizualizare a datelor”.

Madrid cheltuiește 14,7 milioane de euro pe managementul datelor mari

În iulie 2014, a devenit cunoscut faptul că Madrid va folosi tehnologiile de date mari pentru a gestiona infrastructura orașului. Costul proiectului este de 14,7 milioane de euro, la baza soluțiilor implementate vor sta tehnologiile de analiză și gestionare a datelor mari. Cu ajutorul lor, administrația orașului va gestiona munca cu fiecare furnizor de servicii și va plăti corespunzător în funcție de nivelul serviciilor.

Vorbim de antreprenori administrației care monitorizează starea străzilor, iluminatului, irigațiilor, spațiilor verzi, curăță teritoriul și scot, precum și reciclarea deșeurilor. Pe parcursul proiectului au fost elaborați 300 de indicatori cheie de performanță ai serviciilor orașului pentru inspectorii special desemnați, în baza cărora se vor efectua zilnic 1,5 mii de verificări și măsurători diverse. În plus, orașul va începe să utilizeze o platformă tehnologică inovatoare numită Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Experți: Big Data este la modă

Fără excepție, toți furnizorii de pe piața de management al datelor dezvoltă în prezent tehnologii pentru managementul Big Data. Această nouă tendință tehnologică este discutată activ și de comunitatea profesională, atât dezvoltatorii, cât și analiștii din industrie și potențialii consumatori ai unor astfel de soluții.

După cum a aflat Datashift, din ianuarie 2013, a existat un val de discuții în jurul „ Date mare„a depășit toate dimensiunile imaginabile. După ce a analizat numărul de mențiuni ale Big Data pe rețelele de socializare, Datashift a calculat că în 2012 termenul a fost folosit de aproximativ 2 miliarde de ori în postări create de aproximativ 1 milion de autori diferiți din întreaga lume. Acest lucru este echivalent cu 260 de postări pe oră, cu un vârf de 3.070 de mențiuni pe oră.

Gartner: În fiecare secundă CIO este gata să cheltuiască bani pe Big Data

După câțiva ani de experimentare cu tehnologiile Big data și primele implementări în 2013, adaptarea unor astfel de soluții va crește semnificativ, prezice Gartner. Cercetătorii au chestionat liderii IT din întreaga lume și au descoperit că 42% dintre respondenți au investit deja în tehnologiile Big Data sau intenționează să facă astfel de investiții în următorul an (date din martie 2013).

Companiile sunt nevoite să cheltuiască bani pe tehnologii de procesare Date mare, deoarece peisajul informațional se schimbă rapid, necesitând noi abordări ale procesării informațiilor. Multe companii și-au dat deja seama că cantitățile mari de date sunt critice, iar lucrul cu acestea le permite să obțină beneficii care nu sunt disponibile folosind surse tradiționale de informații și metode de procesare a acestora. În plus, discuția constantă a subiectului „big data” în mass-media alimentează interesul pentru tehnologiile relevante.

Frank Buytendijk, un vicepreședinte la Gartner, a cerut chiar companiilor să-și diminueze eforturile, deoarece unii își fac griji că rămân în urmă concurenților în adoptarea Big Data.

„Nu este nevoie să vă faceți griji; posibilitățile de implementare a ideilor bazate pe tehnologiile de date mari sunt practic nelimitate”, a spus el.

Gartner prezice că până în 2015, 20% din companiile Global 1000 se vor concentra strategic pe „infrastructura informațională”.

În așteptarea noilor oportunități pe care le vor aduce tehnologiile de prelucrare a datelor mari, multe organizații organizează deja procesul de colectare și stocare a diferitelor tipuri de informații.

Pentru organizațiile educaționale și guvernamentale, precum și pentru companiile industriale, cel mai mare potențial de transformare a afacerii constă în combinarea datelor acumulate cu așa-numitele date întunecate (literalmente „date întunecate”), acestea din urmă includ mesaje. E-mail, multimedia și alte conținuturi similare. Potrivit Gartner, câștigătorii în cursa datelor vor fi cei care învață să se ocupe de o varietate de surse de informații.

Sondaj Cisco: Big Data va ajuta la creșterea bugetelor IT

Raportul Cisco Connected World Technology din primăvara anului 2013, realizat în 18 țări de firma independentă de cercetare InsightExpress, a chestionat 1.800 de studenți și un număr egal de tineri profesioniști cu vârste cuprinse între 18 și 30 de ani. Sondajul a fost realizat pentru a afla nivelul de pregătire al departamentelor IT de a implementa proiecte Date mareși obțineți o perspectivă asupra provocărilor implicate, a deficiențelor tehnologice și a valorii strategice a unor astfel de proiecte.

Majoritatea companiilor colectează, înregistrează și analizează date. Cu toate acestea, se arată în raport, multe companii se confruntă cu o serie de provocări complexe de afaceri și tehnologia informației cu Big Data. De exemplu, 60 la sută dintre respondenți admit că soluțiile Big Data pot îmbunătăți procesele de luare a deciziilor și pot crește competitivitatea, dar doar 28 la sută au spus că primesc deja beneficii strategice reale din informațiile acumulate.

Mai mult de jumătate dintre directorii IT intervievați consideră că proiectele Big Data vor contribui la creșterea bugetelor IT în organizațiile lor, deoarece vor exista cerințe sporite în ceea ce privește tehnologia, personalul și competențele profesionale. În același timp, mai mult de jumătate dintre respondenți se așteaptă ca astfel de proiecte să crească bugetele IT în companiile lor încă din 2012. 57% sunt încrezători că Big Data își va crește bugetele în următorii trei ani.

81% dintre respondenți au spus că toate (sau cel puțin unele) proiecte Big Data vor necesita utilizarea cloud computing. Astfel, răspândirea tehnologii cloud poate afecta rata de adoptare a soluțiilor Big Data și valoarea de afaceri a acestor soluții.

Companiile colectează și folosesc cele mai multe date tipuri diferite, atât structurate cât și nestructurate. Iată sursele din care participanții la sondaj își primesc datele (Raportul Cisco Connected World Technology):

Aproape jumătate (48%) dintre liderii IT prevăd că sarcina rețelelor lor se va dubla în următorii doi ani. (Acest lucru este valabil mai ales în China, unde 68 la sută dintre respondenți împărtășesc această părere, iar în Germania – 60 la sută). 23% dintre respondenți se așteaptă ca încărcarea rețelei să se tripleze în următorii doi ani. În același timp, doar 40% dintre respondenți și-au declarat că sunt pregătiți pentru o creștere explozivă a volumelor de trafic în rețea.

27% dintre respondenți au recunoscut că au nevoie de politici IT mai bune și măsuri de securitate a informațiilor.

21% au nevoie de mai multă lățime de bandă.

Big Data deschide noi oportunități pentru departamentele IT de a adăuga valoare și de a construi relații puternice cu unitățile de afaceri, permițându-le să crească veniturile și să consolideze poziția financiară a companiei. Proiectele Big Data fac din departamentele IT un partener strategic pentru departamentele de afaceri.

Potrivit a 73% dintre respondenți, departamentul IT va deveni principalul motor al implementării strategiei Big Data. În același timp, respondenții consideră că în implementarea acestei strategii vor fi implicate și alte departamente. În primul rând, aceasta se referă la departamentele de finanțe (numite de 24 la sută dintre respondenți), cercetare și dezvoltare (20 la sută), operațiuni (20 la sută), inginerie (19 la sută), precum și marketing (15 la sută) și vânzări ( 14 la sută).

Gartner: Sunt necesare milioane de noi locuri de muncă pentru gestionarea datelor mari

Cheltuielile globale pentru IT vor ajunge la 3,7 miliarde USD până în 2013, ceea ce este cu 3,8% mai mult decât cheltuielile pentru tehnologia informației în 2012 (prognoza de la sfârșitul anului este de 3,6 miliarde USD). Segment Date mare(datele mari) se vor dezvolta într-un ritm mult mai rapid, spune un raport Gartner.

Până în 2015, vor fi create 4,4 milioane de locuri de muncă în tehnologia informației pentru a deservi big data, dintre care 1,9 milioane de locuri de muncă vor fi în . Mai mult, fiecare la locul de muncă va presupune crearea a trei locuri de muncă suplimentare în afara sectorului IT, astfel încât doar în Statele Unite ale Americii în următorii patru ani 6 milioane de oameni vor lucra pentru susținerea economiei informaționale.

Potrivit experților Gartner, principala problemă este că nu există suficient talent în industrie pentru asta: atât sistemele de învățământ privat, cât și cele publice, de exemplu în Statele Unite, nu sunt capabile să furnizeze industriei un număr suficient de personal calificat. . Deci, dintre noile locuri de muncă IT menționate, doar unul din trei va fi angajat.

Analiștii consideră că rolul de a cultiva personal IT calificat ar trebui să fie preluat direct de companiile care au nevoie urgentă de ele, deoarece astfel de angajați vor fi biletul lor către noua economie informațională a viitorului.

2012

Primul scepticism cu privire la „Big Data”

Analiștii de la Ovum și Gartner sugerează că pentru un subiect la modă în 2012 Date mare Poate veni timpul să te eliberezi de iluzii.

Termenul „Big Data” în acest moment se referă în mod obișnuit la volumul tot mai mare de informații care circulă online din rețelele sociale, rețelele de senzori și alte surse, precum și la gama tot mai mare de instrumente utilizate pentru a procesa datele și a identifica datele relevante pentru afaceri. din ea.-tendinţe.

„Din cauza (sau în ciuda) hype-ului în jurul ideii de big data, producătorii în 2012 au privit această tendință cu mare speranță”, a spus Tony Bayer, analist la Ovum.

Bayer a raportat că DataSift a efectuat o analiză retrospectivă a mențiunilor de date mari în

Big data este un termen larg pentru strategiile și tehnologiile neconvenționale necesare pentru a colecta, organiza și procesa informații din seturi mari de date. Deși provocarea de a lucra cu date care depășesc capacitatea de procesare sau stocare a unui singur computer nu este nouă, sfera și valoarea acestui tip de calcul s-au extins semnificativ în ultimii ani.

Acest articol vă va prezenta conceptele de bază pe care le puteți întâlni în timp ce explorați datele mari. Se discută, de asemenea, unele dintre procesele și tehnologiile care sunt utilizate în prezent în acest domeniu.

Ce este big data?

O definiție precisă a „big data” este dificil de articulat, deoarece proiectele, furnizorii, practicienii și profesioniștii în afaceri o folosesc în moduri foarte diferite. Având în vedere acest lucru, big data poate fi definită ca:

Seturi mari de date.
O categorie de strategii și tehnologii de calcul care sunt utilizate pentru a procesa seturi mari de date.

În acest context, „set mare de date” înseamnă un set de date prea mare pentru a fi procesat sau stocat folosind instrumente tradiționale sau pe un singur computer. Aceasta înseamnă că scara generală a seturilor mari de date se schimbă constant și poate varia semnificativ de la caz la caz.

Sisteme de date mari

Cerințele de bază pentru lucrul cu date mari sunt aceleași ca pentru orice alt set de date. Cu toate acestea, scara masivă, viteza de procesare și caracteristicile datelor întâlnite la fiecare pas al procesului prezintă noi provocări semnificative pentru dezvoltarea instrumentelor. Scopul majorității sistemelor de date mari este de a înțelege și comunica cu volume mari de date eterogene, ceea ce nu ar fi posibil folosind metode convenționale.

În 2001, Doug Laney de la Gartner a introdus „cele trei V ale datelor mari” pentru a descrie unele dintre caracteristicile care disting procesarea datelor mari de alte tipuri de procesare a datelor:

Volum (volum de date).
Viteza (viteza de acumulare si procesare a datelor).
Varietate (varietate de tipuri de date prelucrate).

Volumul datelor

Amploarea absolută a informațiilor procesate ajută la definirea sistemelor de date mari. Aceste seturi de date pot fi ordine de mărime mai mari decât seturile de date tradiționale, necesitând o atenție mai mare în fiecare etapă de procesare și stocare.

Deoarece cererile depășesc capacitățile unui singur computer, se pune adesea problema punerii în comun, distribuirii și coordonării resurselor din grupuri de computere. Managementul clusterelor și algoritmii care pot împărți sarcinile în părți mai mici devin din ce în ce mai importanți în acest domeniu.

Viteza de acumulare și procesare

A doua caracteristică care distinge semnificativ datele mari de alte sisteme de date este viteza cu care informațiile se deplasează prin sistem. Datele intră adesea într-un sistem din mai multe surse și trebuie procesate în timp real pentru a actualiza starea curentă a sistemului.

Acest accent pe instantaneu părere i-a forțat pe mulți practicanți să abandoneze abordarea orientată pe pachete și să dea preferință unui sistem de streaming în timp real. Datele sunt adăugate, procesate și analizate în mod constant pentru a ține pasul cu afluxul informație nouăși obțineți informații prețioase din timp, atunci când este cel mai relevant. Acest lucru necesită sisteme robuste cu componente foarte disponibile pentru a proteja împotriva defecțiunilor de-a lungul conductei de date.

Varietate de tipuri de date prelucrate

Există multe provocări unice în big data datorită gamei largi de surse procesate și calității relative.

Datele pot proveni din sisteme interne, cum ar fi jurnalele de aplicații și server, de la canalele de social media și alte API-uri externe, de la senzori dispozitive fiziceși din alte surse. Scopul sistemelor de date mari este de a procesa date potențial utile, indiferent de origine, prin combinarea tuturor informațiilor într-un singur sistem.

De asemenea, formatele și tipurile media pot varia semnificativ. Fișierele media (imagini, video și audio) sunt combinate cu fișiere text, jurnalele structurate etc. Sistemele tradiționale de procesare a datelor se așteaptă ca datele să intre în conductă deja etichetate, formatate și organizate, dar sistemele de date mari de obicei ingerează și stochează date în încercarea de a le păstra starea initiala. În mod ideal, orice transformări sau modificări ale datelor brute vor avea loc în memorie în timpul procesării.

Alte caracteristici

De-a lungul timpului, practicienii și organizațiile au propus extinderi ale celor „trei V” inițiale, deși aceste inovații tind să descrie problemele mai degrabă decât caracteristicile datelor mari.

Veracitatea: varietatea surselor și complexitatea prelucrării pot duce la probleme în evaluarea calității datelor (și, prin urmare, a calității analizei rezultate).
Variabilitate: Modificările datelor duc la variații mari de calitate. Pot fi necesare resurse suplimentare pentru a identifica, procesa sau filtra datele de calitate scăzută pentru a îmbunătăți calitatea datelor.
Valoare: scopul final al datelor mari este valoarea. Uneori, sistemele și procesele sunt foarte complexe, ceea ce face dificilă utilizarea datelor și extragerea valorilor reale.

Ciclul de viață al datelor mari

Deci, cum sunt procesate de fapt datele mari? Sunt câteva abordări diferite la implementare, dar există puncte comune în strategii și software.

Introducerea datelor în sistem
Salvarea datelor în stocare
Calcularea și analiza datelor
Vizualizarea rezultatelor

Înainte de a privi în detaliu aceste patru categorii de fluxuri de lucru, să vorbim despre cluster computing, o strategie importantă folosită de multe instrumente de date mari. Configurarea unui cluster de calcul este tehnologia de bază utilizată în fiecare etapă a ciclului de viață.

Cluster computing

Datorită calității datelor mari, computerele individuale nu sunt potrivite pentru prelucrarea datelor. Clusterele sunt mai potrivite pentru aceasta, deoarece pot face față nevoilor de stocare și de calcul ale datelor mari.

Software-ul de grupare a datelor mari combină resursele multor mașini mici, urmărind să ofere o serie de beneficii:

Resurse Pooling: Procesarea unor seturi mari de date necesită cantități mari de CPU și resurse de memorie, precum și mult spațiu de stocare disponibil.
Disponibilitate ridicată: Clusterele pot oferi diferite niveluri de toleranță și disponibilitate la erori, astfel încât defecțiunile hardware sau software să nu afecteze accesul și procesarea datelor. Acest lucru este deosebit de important pentru analiza în timp real.
Scalabilitate: clusterele acceptă scalare orizontală rapidă (adăugarea de noi mașini la cluster).

Pentru a lucra într-un cluster, aveți nevoie de instrumente pentru a gestiona apartenența la cluster, pentru a coordona distribuirea resurselor și pentru a programa lucrul cu noduri individuale. Apartenența la cluster și alocarea de resurse pot fi gestionate folosind programe precum Hadoop YARN (Yet Another Resource Negotiator) sau Apache Mesos.

Un cluster de calcul prefabricat acționează adesea ca o coloană vertebrală cu care alte computere interacționează pentru a procesa date. software. Mașinile care participă la un cluster de calcul sunt, de asemenea, asociate de obicei cu gestionarea unui sistem de stocare distribuit.

Primirea datelor

Ingestia de date este procesul de adăugare a datelor brute în sistem. Complexitatea acestei operațiuni depinde în mare măsură de formatul și calitatea surselor de date și de măsura în care datele îndeplinesc cerințele de prelucrare.

Puteți adăuga date mari în sistem folosind instrumente speciale. Tehnologii precum Apache Sqoop pot prelua datele existente din bazele de date relaționale și le pot adăuga la un sistem de date mari. De asemenea, puteți utiliza Apache Flume și Apache Chukwa - proiecte concepute pentru agregarea și importarea jurnalelor de aplicații și server. Brokerii de mesaje precum Apache Kafka pot fi utilizați ca o interfață între diferiți generatori de date și un sistem de date mari. Framework-uri precum Gobblin pot combina și optimiza rezultatele tuturor instrumentelor la sfârșitul conductei.

În timpul ingerării datelor, de obicei se efectuează analiza, sortarea și etichetarea. Acest proces este uneori numit ETL (extract, transform, load), care înseamnă extrage, transformare și încărcare. Deși termenul se referă de obicei la procesele vechi de depozitare a datelor, uneori este aplicat sistemelor de date mari. Operațiunile tipice includ modificarea datelor primite pentru formatare, clasificare și etichetare, filtrare sau verificarea conformității datelor.

În mod ideal, datele primite sunt supuse unei formatări minime.

Stocare a datelor

Odată primite, datele se mută către componentele care gestionează stocarea.

De obicei, sistemele de fișiere distribuite sunt folosite pentru a stoca date brute. Soluții precum HDFS de la Apache Hadoop permit scrierea unor cantități mari de date pe mai multe noduri dintr-un cluster. Acest sistem oferă acces la resurse de calcul la date, poate încărca date în RAM de cluster pentru operațiuni de memorie și poate gestiona defecțiunile componentelor. Alte sisteme de fișiere distribuite pot fi utilizate în locul HDFS, inclusiv Ceph și GlusterFS.

Datele pot fi importate și în alte sisteme distribuite pentru un acces mai structurat. Bazele de date distribuite, în special bazele de date NoSQL, sunt potrivite pentru acest rol, deoarece pot gestiona date eterogene. Există multe tipuri diferite baze de date distribuite date, alegerea depinde de modul în care doriți să organizați și să prezentați datele.

Calcularea și analiza datelor

Odată ce datele sunt disponibile, sistemul poate începe procesarea. Stratul de calcul este poate cea mai liberă parte a sistemului, deoarece cerințele și abordările de aici pot diferi semnificativ în funcție de tipul de informații. Datele sunt adesea procesate în mod repetat, fie folosind un singur instrument, fie folosind un număr de instrumente pentru a procesa diferite tipuri de date.

Procesarea în loturi este una dintre metodele de calcul pe seturi mari de date. Acest proces implică împărțirea datelor în părți mai mici, programarea fiecărei piese pentru a fi procesată pe o mașină separată, rearanjarea datelor pe baza rezultatelor intermediare și apoi calcularea și colectarea rezultatului final. MapReduce de la Apache Hadoop folosește această strategie. Procesarea în lot este cea mai utilă atunci când lucrați cu seturi de date foarte mari care necesită destul de mult calcul.

Alte sarcini de lucru necesită procesare în timp real. Cu toate acestea, informațiile trebuie procesate și pregătite imediat, iar sistemul trebuie să răspundă în timp util pe măsură ce noi informații devin disponibile. O modalitate de a implementa procesarea în timp real este procesarea unui flux continuu de date constând din elemente individuale. Încă unul caracteristici generale Procesoarele în timp real calculează datele în memoria cluster, evitând nevoia de a scrie pe disc.

Oferta Apache Storm, Apache Flink și Apache Spark diferite căi implementarea procesării în timp real. Aceste tehnologii flexibile vă permit să alegeți cea mai bună abordare pentru fiecare problemă individuală. În general, procesarea în timp real este cea mai potrivită pentru analizarea unor bucăți mici de date care se modifică sau sunt adăugate rapid în sistem.

Toate aceste programe sunt cadre. Cu toate acestea, există multe alte moduri de a calcula sau analiza datele într-un sistem de date mari. Aceste instrumente se conectează adesea la cadrele de mai sus și oferă interfețe suplimentare pentru a interacționa cu straturile subiacente. De exemplu, Apache Hive oferă o interfață de depozit de date pentru Hadoop, Apache Pig oferă o interfață de interogare, iar interacțiunile de date SQL sunt furnizate de Apache Drill, Apache Impala, Apache Spark SQL și Presto. Învățarea automată folosește Apache SystemML, Apache Mahout și MLlib de la Apache Spark. Pentru programarea analitică directă, care este susținută pe scară largă de ecosistemul de date, sunt utilizate R și Python.

Vizualizarea rezultatelor

Adesea, recunoașterea tendințelor sau modificărilor datelor în timp este mai importantă decât valorile rezultate. Vizualizarea datelor este una dintre cele mai utile moduri de a identifica tendințele și de a organiza un număr mare de puncte de date.

Procesarea în timp real este utilizată pentru a vizualiza valorile aplicației și ale serverului. Datele se schimbă frecvent, iar variațiile mari ale valorilor indică de obicei un impact semnificativ asupra sănătății sistemelor sau organizațiilor. Proiecte precum Prometheus pot fi folosite pentru a procesa fluxuri de date și serii cronologice și pentru a vizualiza aceste informații.

O modalitate populară de a vizualiza datele este stiva elastică, cunoscută anterior ca stiva ELK. Logstash este folosit pentru colectarea datelor, Elasticsearch pentru indexarea datelor și Kibana pentru vizualizare. Stiva Elastic poate lucra cu date mari, poate vizualiza rezultatele calculelor sau poate interacționa cu valorile brute. O stivă similară poate fi obținută prin combinarea Apache Solr pentru indexare cu un furk de Kibana numit Banana pentru vizualizare. Acest teanc se numește Mătase.

O altă tehnologie de vizualizare pentru interacțiunea cu datele sunt documentele. Astfel de proiecte permit explorarea interactivă și vizualizarea datelor într-un format convenabil pentru partajareași prezentarea datelor. Exemple populare de acest tip de interfață sunt Jupyter Notebook și Apache Zeppelin.

Glosar de date mari

Big data este un termen larg pentru seturi de date care nu pot fi procesate corect calculatoare obișnuite sau instrumente datorită volumului, vitezei de sosire și varietății lor. Termenul este, de asemenea, aplicat în mod obișnuit tehnologiilor și strategiilor de lucru cu astfel de date.
Procesarea în loturi este o strategie de calcul care implică prelucrarea datelor în seturi mari. De obicei, această metodă este ideală pentru a lucra cu date non-urgente.
Calcularea în cluster este practica de a pune în comun resursele mai multor mașini și de a gestiona capacitățile lor partajate pentru a îndeplini sarcini. În acest caz, este necesar un nivel de management al clusterului care să gestioneze comunicarea între nodurile individuale.
Un lac de date este un depozit mare de date colectate într-o stare relativ brută. Termenul este adesea folosit pentru a se referi la date mari nestructurate și care se schimbă frecvent.
Exploatarea datelor este un termen larg pentru diferite practici de găsire a modelelor în seturi mari de date. Este o încercare de a organiza o masă de date într-un set de informații mai ușor de înțeles și mai coerent.
Un depozit de date este un depozit mare și organizat pentru analiză și raportare. Spre deosebire de un lac de date, un depozit este format din date formatate și bine organizate care sunt integrate cu alte surse. Depozitele de date sunt adesea menționate în legătură cu big data, dar sunt adesea componente ale sistemelor convenționale de prelucrare a datelor.
ETL (extragere, transformare și încărcare) – extragerea, transformarea și încărcarea datelor. Acesta este procesul de obținere și pregătire a datelor brute pentru utilizare. Este asociat cu depozitele de date, dar caracteristicile acestui proces se găsesc și în conductele sistemelor de date mari.
Hadoop este un proiect Apache open source pentru big data. Este alcătuit dintr-un distribuit Sistemul de fișiere numit HDFS și un cluster și planificator de resurse numit YARN. Posibilitati procesare în lot furnizate de motorul de calcul MapReduce. Implementările moderne Hadoop pot rula alte sisteme de calcul și analiză alături de MapReduce.
Calculul în memorie este o strategie care implică mutarea întregilor seturi de date de lucru în memoria clusterului. Calculele intermediare nu sunt scrise pe disc, ci sunt stocate în memorie. Acest lucru oferă sistemelor un avantaj uriaș de viteză față de sistemele legate de I/O.
Învățarea automată este studiul și practica de proiectare a sistemelor care pot învăța, ajusta și îmbunătăți pe baza datelor furnizate acestora. Aceasta înseamnă de obicei implementarea algoritmilor predictivi și statistici.
Map reduce (a nu se confunda cu MapReduce de la Hadoop) este un algoritm pentru programarea unui cluster de calcul. Procesul presupune împărțirea sarcinii între noduri și obținerea de rezultate intermediare, amestecarea și apoi eliberarea unei singure valori pentru fiecare set.
NoSQL este un termen larg care se referă la bazele de date concepute în afara celor tradiționale model relațional. Bazele de date NoSQL sunt potrivite pentru big data datorită flexibilității și arhitecturii lor distribuite.
Procesarea fluxului este practica de a calcula bucăți individuale de date pe măsură ce acestea se deplasează printr-un sistem. Acest lucru permite analiza datelor în timp real și este potrivit pentru procesarea tranzacțiilor sensibile la timp, folosind metrici de mare viteză.

Etichete: ,

Termenul „Big Data” poate fi recunoscut astăzi, dar există încă destulă confuzie în jurul lui cu privire la ceea ce înseamnă de fapt. Într-adevăr, conceptul evoluează în mod constant și este redefinit, deoarece rămâne forța motrice din spatele multor valuri de transformare digitală în curs, inclusiv inteligența artificială, știința datelor și Internetul obiectelor. Dar ce este tehnologia Big-Data și cum ne schimbă lumea? Să încercăm să înțelegem esența tehnologiei Big Data și ce înseamnă aceasta în cuvinte simple.

Creșterea uimitoare a Big Data

Totul a început cu o explozie a cantității de date pe care le-am creat încă de la începutul erei digitale. Acest lucru se datorează în mare parte dezvoltării computerelor, internetului și tehnologiilor care pot „smulge” date din lumea din jurul nostru. Datele în sine nu sunt o invenție nouă. Chiar înainte de era computerelor și bazelor de date, am folosit înregistrări ale tranzacțiilor pe hârtie, înregistrări ale clienților și fișiere de arhivă care constituie date. Calculatoarele, în special foile de calcul și bazele de date, ne-au facilitat stocarea și organizarea datelor la scară largă. Dintr-o dată, informațiile au fost disponibile cu un singur clic.

Cu toate acestea, am parcurs un drum lung de la tabelele și bazele de date originale. Astăzi, la fiecare două zile creăm atâtea date câte am primit de la început până în anul 2000. Așa e, la fiecare două zile. Iar cantitatea de date pe care o creăm continuă să crească exponențial; până în 2020, cantitatea de informații digitale disponibile va crește de la aproximativ 5 zettabytes la 20 zettabytes.

În zilele noastre, aproape fiecare acțiune pe care o întreprindem își lasă amprenta. Generăm date de fiecare dată când intrăm online, când purtăm smartphone-urile noastre echipate cu căutare, când vorbim cu prietenii noștri prin social media sau chat-uri etc. În plus, și cantitatea de date generate de mașini crește rapid. Datele sunt generate și partajate atunci când dispozitivele noastre inteligente de acasă comunică între ele sau cu serverele lor de acasă. Echipamentele industriale din fabrici și fabrici sunt din ce în ce mai dotate cu senzori care acumulează și transmit date.

Termenul „Big-Data” se referă la colectarea tuturor acestor date și la capacitatea noastră de a le folosi în avantajul nostru într-o gamă largă de domenii, inclusiv în afaceri.

Cum funcționează tehnologia Big-Data?

Big Data funcționează pe principiul: cu cât cunoașteți mai multe despre un anumit subiect sau fenomen, cu atât mai fiabil puteți obține o nouă înțelegere și puteți prezice ce se va întâmpla în viitor. În timpul comparației Mai mult puncte de date, apar relații care erau ascunse anterior, iar aceste relații ne permit să învățăm și să luăm decizii mai bune. Cel mai adesea, acest lucru se face printr-un proces care implică construirea de modele bazate pe datele pe care le putem colecta și apoi rularea de simulări care modifică de fiecare dată valorile punctelor de date și urmăresc modul în care acestea ne afectează rezultatele. Acest proces este automat - tehnologii moderne analiștii vor rula milioane de aceste simulări, modificând fiecare variabilă posibilă până când vor găsi un model – sau o idee – care rezolvă problema la care lucrează.

Bill Gates atârnă peste conținutul de hârtie al unui CD

Până de curând, datele erau limitate la foi de calcul sau baze de date - și totul era foarte organizat și îngrijit. Orice lucru care nu putea fi ușor organizat în rânduri și coloane a fost considerat prea complex pentru a fi lucrat și a fost ignorat. Cu toate acestea, progresele în stocare și analiză înseamnă că putem captura, stoca și procesa cantități mari de diferite tipuri de date. Ca rezultat, „date” astăzi poate însemna orice, de la baze de date la fotografii, videoclipuri, înregistrări audio, texte scrise și date senzorilor.

Pentru a înțelege toate aceste date dezordonate, proiectele bazate pe date mari folosesc adesea analize de ultimă oră, folosind inteligența artificială și instruire pe calculator. Învățând mașinile de calcul să determine ce date specifice sunt – prin recunoașterea modelelor sau procesarea limbajului natural, de exemplu – le putem învăța să identifice tipare mult mai rapid și mai fiabil decât putem noi înșine.

Cum se utilizează Big Data?

Acest flux din ce în ce mai mare de date senzorilor, text, voce, date foto și video înseamnă că acum putem folosi datele în moduri care ar fi fost de neimaginat cu doar câțiva ani în urmă. Acest lucru aduce schimbări revoluționare în lumea afacerilor în aproape fiecare industrie. Astăzi, companiile pot prezice cu o acuratețe incredibilă ce categorii specifice de clienți vor dori să facă o achiziție și când. Big Data ajută, de asemenea, companiile să-și desfășoare activitățile mult mai eficient.

Chiar și în afara afacerilor, proiectele legate de Big Data ajută deja la schimbarea lumii noastre în diferite moduri:

Îmbunătățirea asistenței medicale – Medicina bazată pe date are capacitatea de a analiza cantități mari de informații și imagini medicale în modele care pot ajuta la detectarea bolii într-un stadiu incipient și la dezvoltarea de noi medicamente.
Prezicerea și răspunsul la dezastrele naturale și provocate de om. Datele senzorilor pot fi analizate pentru a prezice unde pot avea loc cutremure, iar modelele de comportament uman oferă indicii care ajută organizațiile să ofere asistență supraviețuitorilor. Tehnologia Big Data este, de asemenea, utilizată pentru a urmări și proteja fluxul de refugiați din zonele de război din întreaga lume.
Prevenirea criminalității. Forțele de poliție folosesc din ce în ce mai mult strategii bazate pe date care încorporează propriile informații de informații și informații din acces deschis să utilizeze mai eficient resursele și să ia măsuri de descurajare acolo unde este necesar.

Cele mai bune cărți despre tehnologia Big-Data

Toată lumea minte. Motoarele de căutare, Big Data și Internetul știu totul despre tine.
DATE MARE. Toată tehnologia într-o singură carte.
Industria fericirii. Cum Big Data și noile tehnologii contribuie la adăugarea de emoție produselor și serviciilor.
Revoluție în analiză. Cum să-ți îmbunătățești afacerea în era Big Data folosind analiza operațională.

Probleme cu Big Data

Big Data ne oferă idei și oportunități fără precedent, dar ridică și probleme și întrebări care trebuie abordate:

Confidențialitatea datelor – Big Data pe care le generăm astăzi conține o mulțime de informații despre viața noastră personală, la care avem tot dreptul la confidențialitate. Din ce în ce mai mult, ni se cere să echilibrăm cantitatea de date personale pe care o dezvăluim cu comoditatea oferită de aplicațiile și serviciile bazate pe Big Data.
Securitatea datelor - Chiar dacă decidem că suntem mulțumiți de faptul că cineva are datele noastre pentru un anumit scop, putem avea încredere în ei pentru a ne păstra datele în siguranță?
Discriminarea datelor - odată ce toate informațiile sunt cunoscute, va fi acceptabilă discriminarea persoanelor pe baza datelor din viața lor personală? Folosim deja scorurile de credit pentru a decide cine poate împrumuta bani, iar asigurările sunt, de asemenea, bazate în mare măsură pe date. Ar trebui să ne așteptăm să fim analizați și evaluați mai detaliat, dar trebuie să avem grijă să ne asigurăm că acest lucru nu îngreunează viața celor cu mai puține resurse și cu acces limitat la informații.

Efectuarea acestor sarcini este o componentă importantă a Big Data și trebuie abordată de organizațiile care doresc să utilizeze astfel de date. Nerespectarea acestui lucru poate lăsa o afacere vulnerabilă, nu numai din punct de vedere al reputației sale, ci și din punct de vedere juridic și financiar.

Privind spre viitor

Datele ne schimbă lumea și viețile într-un ritm fără precedent. Dacă Big Data este capabil de toate acestea astăzi, imaginați-vă de ce va fi capabil mâine. Cantitatea de date disponibile pentru noi nu va face decât să crească, iar tehnologia de analiză va deveni și mai avansată.

Pentru companii, capacitatea de a aplica Big Data va deveni din ce în ce mai critică în următorii ani. Numai acele companii care privesc datele ca pe un activ strategic vor supraviețui și vor prospera. Cei care ignoră această revoluție riscă să rămână în urmă.

Date mare- Engleză "Date mare". Termenul a apărut ca o alternativă la DBMS și a devenit una dintre principalele tendințe în infrastructura IT atunci când majoritatea giganților din industrie - IBM, Microsoft, HP, Oracle și alții au început să folosească acest concept în strategiile lor. Big Data se referă la o gamă uriașă (sute de terabytes) de date care nu pot fi procesate folosind metode tradiționale; uneori – instrumente și metode de prelucrare a acestor date.

Exemple de surse Big Data: evenimente RFID, mesaje pe rețelele de socializare, statistici meteorologice, informații despre locația abonaților rețelelor celulare mobile și date de la dispozitivele de înregistrare audio/video. Prin urmare, „datele mari” sunt utilizate pe scară largă în producție, asistență medicală, administrație guvernamentală și afaceri pe internet - în special, atunci când se analizează publicul țintă.

Caracteristică

Semnele de date mari sunt definite ca „trei V”: Volum – volum (cu adevărat mare); varietate – eterogenitate, set; viteză – viteză (necesitatea unei procesări foarte rapide).

Big Data este cel mai adesea nestructurată și sunt necesari algoritmi speciali pentru a le procesa. Metodele de analiză a datelor mari includ:

(„data mining”) – un set de abordări pentru descoperirea cunoștințelor utile ascunse care nu pot fi obținute prin metode standard;
Crowdsourcing (crowd – „crowd”, sourcing – utilizare ca sursă) – rezolvarea unor probleme semnificative prin eforturile comune ale voluntarilor care nu se află într-un contract sau relație de muncă obligatorie, coordonând activități folosind instrumente informatice;
Fuziune și integrare a datelor („mixarea și implementarea datelor”) – un set de metode pentru conectarea mai multor surse ca parte a unei analize aprofundate;
Învățare automată („învățare automată”) este o subsecțiune a cercetării inteligenței artificiale care studiază metode de utilizare a analizei statistice și de a face predicții bazate pe modele de bază;
recunoașterea imaginii (de exemplu, recunoașterea fețelor în vizorul unei camere sau camere video);
analiza spațială - folosind topologia, geometria și geografia pentru a construi date;
vizualizarea datelor – producerea de informații analitice sub formă de ilustrații și diagrame folosind instrumente interactive și animații pentru a urmări rezultatele și pentru a construi fundația pentru monitorizarea ulterioară.

Informațiile sunt stocate și analizate pe un număr mare de servere de înaltă performanță. Tehnologia cheie este Hadoop, care este open source.

Deoarece cantitatea de informații va crește doar în timp, dificultatea nu constă în obținerea datelor, ci în modul de prelucrare a acestora cu beneficii maxime. În general, procesul de lucru cu Big Data include: colectarea informațiilor, structurarea acestora, crearea de perspective și contexte, elaborarea de recomandări de acțiune. Chiar și înainte de prima etapă, este important să se definească clar scopul lucrării: de ce exact datele sunt necesare, de exemplu, pentru a determina publicul țintă al produsului. În caz contrar, există riscul de a primi o mulțime de informații fără a înțelege cum exact poate fi folosită.

Doar leneșii nu vorbesc despre Big data, dar cu greu înțeleg ce este și cum funcționează. Să începem cu cel mai simplu lucru - terminologia. Vorbind în rusă, Big data reprezintă diverse instrumente, abordări și metode de prelucrare atât a datelor structurate, cât și a celor nestructurate, pentru a le utiliza pentru sarcini și scopuri specifice.

Datele nestructurate sunt informații care nu au o structură predeterminată sau nu sunt organizate într-o anumită ordine.

Termenul „big data” a fost introdus de editorul revistei Nature, Clifford Lynch, în 2008, într-un număr special dedicat creșterii explozive a volumelor de informații din lume. Deși, desigur, big data în sine a existat înainte. Potrivit experților, categoria Big data include majoritatea fluxurilor de date de peste 100 GB pe zi.

Citeste si:

Astăzi, acest termen simplu ascunde doar două cuvinte - stocarea și procesarea datelor.

Big data - în cuvinte simple

În lumea modernă, Big Data este un fenomen socio-economic care este asociat cu faptul că au apărut noi capabilități tehnologice pentru analizarea unei cantități uriașe de date.

Citeste si:

Pentru a fi mai ușor de înțeles, imaginați-vă un supermarket în care toate mărfurile nu sunt în ordinea cu care sunteți obișnuiți. Pâine lângă fructe, pastă de roșii lângă pizza congelată, lichid de brichetă în fața suportului pentru tampon, care conține, printre altele, avocado, tofu sau ciuperci shiitake. Big Data pune totul la locul lui și te ajută să găsești lapte de nuci, să afli costul și data de expirare, precum și cine, în afară de tine, cumpără acest lapte și de ce este mai bun decât laptele de vacă.

Kenneth Cukier: Datele mari sunt date mai bune

Tehnologia Big Data

Sunt procesate volume uriașe de date astfel încât o persoană să poată obține rezultate specifice și necesare pentru utilizarea lor eficientă ulterioară.

Citeste si:

De fapt, Big Data este o soluție la probleme și o alternativă la sistemele tradiționale de management al datelor.

Tehnici și metode de analiză aplicabile Big Data conform McKinsey:

Data Mining;
Crowdsourcing;
Mixarea și integrarea datelor;
Învățare automată;
Rețele neuronale artificiale;
Recunoasterea formelor;
Analize predictive;
Modelare prin simulare;
Analiza spatiala;
Analize statistice;
Vizualizarea datelor analitice.

Scalabilitatea orizontală care permite procesarea datelor este principiul de bază al procesării datelor mari. Datele sunt distribuite pe nodurile de calcul, iar procesarea are loc fără degradarea performanței. McKinsey a inclus și sisteme de management relațional și Business Intelligence în contextul aplicabilității.

Tehnologii:

NoSQL;
MapReduce;
Hadoop;
Soluții hardware.

Citeste si:

Pentru big data, există caracteristici definitorii tradiționale dezvoltate de Meta Group încă din 2001, care se numesc „ Trei V»:

Volum- cantitatea de volum fizic.
Viteză- rata de crestere si necesitatea procesarii rapide a datelor pentru a obtine rezultate.
varietate- capacitatea de a procesa simultan Tipuri variate date.

Big data: aplicații și oportunități

Este imposibil să procesezi volumele de informații digitale eterogene și care ajung rapid cu instrumente tradiționale. Analiza datelor în sine vă permite să vedeți anumite modele și imperceptibile pe care o persoană nu le poate vedea. Acest lucru ne permite să optimizăm toate domeniile vieții noastre - de la administrația publică la producție și telecomunicații.

De exemplu, unele companii în urmă cu câțiva ani și-au protejat clienții de fraudă, iar a avea grijă de banii clientului înseamnă a avea grijă de propriii bani.

Susan Etliger: Dar date mari?

Soluții bazate pe Big data: Sberbank, Beeline și alte companii

Beeline are o cantitate imensă de date despre abonați, pe care le folosesc nu numai pentru a lucra cu aceștia, ci și pentru a crea produse analitice, cum ar fi consultanță externă sau analize IPTV. Beeline a segmentat baza de date și a protejat clienții de fraudă financiară și viruși, folosind HDFS și Apache Spark pentru stocare și Rapidminer și Python pentru procesarea datelor.

Citeste si:

Sau să ne amintim de Sberbank cu vechiul lor caz numit AS SAFI. Acesta este un sistem care analizează fotografii pentru a identifica clienții băncii și pentru a preveni frauda. Sistemul a fost introdus încă din 2014, sistemul se bazează pe compararea fotografiilor din baza de date, care ajung acolo de la camerele web de pe standuri datorită vederii computerizate. Baza sistemului este o platformă biometrică. Datorită acestui fapt, cazurile de fraudă au scăzut de 10 ori.

Big data în lume

Până în 2020, conform previziunilor, omenirea va genera 40-44 zettabytes de informații. Iar până în 2025 va crește de 10 ori, potrivit raportului The Data Age 2025, care a fost întocmit de analiștii de la IDC. Raportul notează că majoritatea datelor vor fi generate de întreprinderi înseși, mai degrabă decât de consumatorii obișnuiți.

Analiștii de cercetare cred că datele vor deveni un activ vital, iar securitatea o bază esențială în viață. Autorii lucrării sunt, de asemenea, încrezători că tehnologia va schimba peisajul economic și utilizator obișnuit va comunica cu dispozitivele conectate de aproximativ 4800 de ori pe zi.

Piața de date mari din Rusia

În 2017, veniturile globale pe piața de date mari ar trebui să ajungă la 150,8 miliarde de dolari, ceea ce este cu 12,4% mai mult decât anul trecut. La nivel global piata ruseasca Serviciile și tehnologiile de date mari sunt încă foarte mici. În 2014, compania americană IDC a estimat-o la 340 de milioane de dolari.În Rusia, tehnologia este folosită în domeniul bancar, energie, logistică, sectorul public, telecomunicații și industrie.

Citeste si:

În ceea ce privește piața de date, aceasta este abia în curs de dezvoltare în Rusia. În cadrul ecosistemului RTB, furnizorii de date sunt proprietarii platformelor programatice de gestionare a datelor (DMP) și schimburile de date. Operatorii de telecomunicații fac schimb de informații despre consumatorii potențiali cu bănci în mod pilot.

Big Data provine de obicei din trei surse:

Internet (rețele sociale, forumuri, bloguri, media și alte site-uri);
Arhive de documente corporative;
Citirile de la senzori, instrumente și alte dispozitive.

Big data în bănci

Pe lângă sistemul descris mai sus, strategia Sberbank pentru 2014-2018 include: vorbește despre importanța analizei super-datelor pentru un serviciu de calitate pentru clienți, managementul riscurilor și optimizarea costurilor. Acum banca folosește Big Data pentru a gestiona riscurile, combate frauda, segmentează și evaluează bonitatea clienților, managementul personalului, prognoza cozile în sucursale, calculul bonusurilor pentru angajați și alte sarcini.

VTB24 utilizează date mari pentru a segmenta și a gestiona fluxurile de clienți, pentru a genera rapoarte financiare și pentru a analiza recenzii pe rețelele sociale și forumuri. Pentru a face acest lucru, el folosește soluții de la Teradata, SAS Visual Analytics și SAS Marketing Optimizer.