Veliki podaci. Veliki podaci u modernom svijetu Za što se mogu koristiti veliki podaci?

Predviđeno je da bi ukupna globalna količina podataka stvorenih i repliciranih 2011. mogla biti oko 1,8 zetabajta (1,8 bilijuna gigabajta) - oko 9 puta više od onoga što je stvoreno 2006.

Složenija definicija

Međutim` veliki podaci` uključuju više od puke analize ogromne količine informacija. Problem nije u tome što organizacije stvaraju ogromne količine podataka, već u tome što je većina njih predstavljena u formatu koji se ne uklapa dobro u tradicionalni strukturirani format baze podataka - web zapisi, video zapisi, tekstualni dokumenti, strojni kod ili, na primjer, geoprostorni podaci. Sve je to pohranjeno u mnogo različitih spremišta, ponekad čak i izvan organizacije. Kao rezultat toga, korporacije mogu imati pristup ogromnim količinama svojih podataka, a nemaju potrebni alati uspostaviti odnose između tih podataka i na temelju njih izvući smislene zaključke. Dodajte tome činjenicu da se podaci sada sve češće ažuriraju i dobivate situaciju u kojoj tradicionalne metode analize informacija ne mogu pratiti ogromne količine stalno ažuriranih podataka, što u konačnici otvara put tehnologiji veliki podaci.

Najbolja definicija

U biti koncept veliki podaci uključuje rad s informacijama ogromne količine i raznolikog sastava, vrlo često ažuriranim i smještenim u različitim izvorima u svrhu povećanja operativne učinkovitosti, stvaranja novih proizvoda i povećanja konkurentnosti. Konzultantska tvrtka Forrester daje kratku formulaciju: ` Veliki podaci spaja tehnike i tehnologije koje izvlače značenje iz podataka na krajnjim granicama praktičnosti.

Kolika je razlika između poslovne analitike i velikih podataka?

Craig Bathy, izvršni direktor marketinga i glavni tehnološki direktor Fujitsu Australia, istaknuo je kako je poslovna analiza deskriptivni proces analize rezultata koje je poslovanje postiglo u određenom vremenskom razdoblju, dok je brzina obrade veliki podaci omogućuje vam da analizu učinite prediktivnom, sposobnom ponuditi poslovne preporuke za budućnost. Tehnologije velikih podataka također vam omogućuju analizu više vrsta podataka od alata za poslovnu inteligenciju, što omogućuje fokusiranje na više od strukturiranih repozitorija.

Matt Slocum iz O'Reilly Radara smatra da iako veliki podaci i poslovne analitike imaju isti cilj (pronalaženje odgovora na pitanje), međusobno se razlikuju u tri aspekta.

Veliki podaci dizajnirani su za obradu većih količina informacija od poslovne analitike, a to svakako odgovara tradicionalnoj definiciji velikih podataka.
Veliki podaci dizajnirani su za bržu obradu informacija koje se brže mijenjaju, što znači duboko istraživanje i interaktivnost. U nekim slučajevima rezultati se generiraju brže nego što se web stranica učitava.
Veliki podaci dizajnirani su za obradu nestrukturiranih podataka koje tek počinjemo istraživati kako ih koristiti nakon što ih budemo mogli prikupiti i pohraniti, a potrebni su nam algoritmi i mogućnosti razgovora kako bismo lakše pronašli trendove sadržane u tim skupovima podataka.

Prema bijeloj knjizi "Oracle Information Architecture: An Architect's Guide to Big Data" koju je objavio Oracle, kada radimo s velikim podacima, informacijama pristupamo drugačije nego kada provodimo poslovnu analizu.

Rad s velikim podacima nije poput uobičajenog procesa poslovne inteligencije, gdje jednostavno zbrajanje poznatih vrijednosti daje rezultat: na primjer, zbrajanje plaćenih faktura postaje prodaja za godinu. Kada se radi s velikim podacima, rezultat se dobiva u procesu čišćenja sekvencijalnim modeliranjem: prvo se postavlja hipoteza, gradi se statistički, vizualni ili semantički model, na temelju čega se provjerava točnost postavljene hipoteze. , a zatim se postavi sljedeći. Ovaj proces zahtijeva od istraživača da tumači vizualna značenja ili konstruira interaktivne upite na temelju znanja ili razvije prilagodljive algoritme `strojnog učenja` koji mogu dati željeni rezultat. Štoviše, životni vijek takvog algoritma može biti prilično kratak.

Tehnike analize velikih podataka

Postoji mnogo različitih metoda za analizu skupova podataka, koje se temelje na alatima posuđenim iz statistike i računalnih znanosti (na primjer, strojno učenje). Popis ne pretendira biti potpun, ali odražava najpopularnije pristupe u različitim industrijama. Treba imati na umu da istraživači nastavljaju raditi na stvaranju novih tehnika i poboljšanju postojećih. Osim toga, neke od navedenih tehnika ne moraju se nužno primijeniti isključivo na velike podatke i mogu se uspješno koristiti za manje nizove (primjerice, A/B testiranje, regresijska analiza). Naravno, što se niz obimniji i raznolikiji analizira, točniji i relevantniji podaci mogu se dobiti kao rezultat.

A/B testiranje. Tehnika u kojoj se kontrolni uzorak naizmjenično uspoređuje s ostalima. Tako je moguće identificirati optimalnu kombinaciju pokazatelja za postizanje, primjerice, najboljeg odgovora potrošača na marketinšku ponudu. Veliki podaci omogućuju vam da provedete ogroman broj ponavljanja i tako dobijete statistički pouzdan rezultat.

Učenje pravila asocijacije. Skup tehnika za identificiranje odnosa, tj. pravila povezivanja između varijabli u velikim skupovima podataka. Korišteno u rudarenje podataka.

Klasifikacija. Skup tehnika koje vam omogućuju predviđanje ponašanja potrošača u određenom segmentu tržišta (odluke o kupnji, odljev, obujam potrošnje itd.). Korišteno u rudarenje podataka.

Klaster analiza. Statistička metoda za klasificiranje objekata u skupine identificiranjem zajedničkih značajki koje nisu unaprijed poznate. Korišteno u rudarenje podataka.

Crowdsourcing. Metodologija prikupljanja podataka iz velikog broja izvora.

Fuzija podataka i integracija podataka. Skup tehnika koje vam omogućuju analizu komentara korisnika društvenih mreža i njihovu usporedbu s rezultatima prodaje u stvarnom vremenu.

Rudarenje podataka. Skup tehnika koje vam omogućuju određivanje kategorija potrošača najosjetljivijih na promovirani proizvod ili uslugu, identificiranje karakteristika najuspješnijih zaposlenika i predviđanje modela ponašanja potrošača.

Učenje u ansamblu. Ova metoda koristi mnoge prediktivne modele, čime se poboljšava kvaliteta napravljenih prognoza.

Genetski algoritmi. U ovoj tehnici moguća rješenja predstavljeni kao 'kromosomi' koji se mogu kombinirati i mutirati. Kao iu procesu prirodne evolucije, preživljava najspremnija jedinka.

Strojno učenje. Pravac u računalnoj znanosti (povijesno je dobio naziv "umjetna inteligencija"), koji teži stvaranju samoučećih algoritama na temelju analize empirijskih podataka.

Obrada prirodnog jezika (NLP). Skup tehnika za prepoznavanje prirodnog ljudskog jezika posuđenih iz računalne znanosti i lingvistike.

Analiza mreže. Skup tehnika za analizu veza između čvorova u mrežama. U odnosu na društvene mreže, omogućuje analizu odnosa između pojedinih korisnika, tvrtki, zajednica itd.

Optimizacija. Skup numeričkih metoda za redizajniranje složenih sustava i procesa za poboljšanje jedne ili više metrika. Pomaže u donošenju strateških odluka, na primjer, sastavljanju proizvodne linije koja će se plasirati na tržište, provođenju investicijske analize itd.

Prepoznavanje uzorka. Skup tehnika s elementima samoučenja za predviđanje modela ponašanja potrošača.

Prediktivno modeliranje. Skup tehnika koje vam omogućuju stvaranje matematičkog modela unaprijed određenog vjerojatnog scenarija za razvoj događaja. Na primjer, analiza baze podataka CRM sustava za moguće uvjete koji će potaknuti pretplatnike da promijene pružatelja usluga.

Regresija. Skup statističkih metoda za identificiranje uzorka između promjena zavisne varijable i jedne ili više nezavisnih varijabli. Često se koristi za prognoze i predviđanja. Koristi se u rudarenju podataka.

Analiza sentimenta. Tehnike za procjenu raspoloženja potrošača temelje se na tehnologijama prepoznavanja prirodnog jezika. Omogućuju vam da iz općeg protoka informacija izdvojite poruke koje se odnose na predmet interesa (na primjer, potrošački proizvod). Zatim procijenite polaritet prosudbe (pozitivan ili negativan), stupanj emocionalnosti itd.

Procesiranje signala. Skup tehnika posuđenih iz radiotehnike čiji je cilj prepoznavanje signala u pozadini šuma i njegova daljnja analiza.

Analiza prostora. Skup metoda za analizu prostornih podataka, dijelom posuđenih iz statistike - topologija terena, geografske koordinate, geometrija objekta. Izvor veliki podaci u ovom slučaju često se pojavljuju geografski informacijski sustavi(GIS).

Revoluciona analitika (temeljena na R jeziku za matematičku statistiku).

Posebno zanimljiv na ovom popisu je Apache Hadoop - softver sa otvoreni izvor, koji je tijekom proteklih pet godina testiran kao analizator podataka od strane većine alata za praćenje dionica. Čim je Yahoo otvorio Hadoop kod zajednici otvorenog koda, u IT industriji se odmah pojavio cijeli pokret stvaranja proizvoda temeljenih na Hadoopu. Gotovo svi moderni alati za analizu veliki podaci pružiti Hadoop alate za integraciju. Njihovi programeri su i startupi i poznate svjetske tvrtke.

Tržišta za rješenja za upravljanje velikim podacima

Big Data Platforme (BDP, Big Data Platform) kao sredstvo borbe protiv digitalnog gomilanja

Sposobnost analize veliki podaci, kolokvijalno nazvan Big Data, percipira se kao korist, i to nedvosmisleno. Ali je li to stvarno tako? Do čega bi moglo dovesti neobuzdano gomilanje podataka? Najvjerojatnije onome što domaći psiholozi, u odnosu na ljude, nazivaju patološkim gomilanjem, silagomanijom ili slikovito “Pljuškinovim sindromom”. Na engleskom se zlobna strast za prikupljanjem svega naziva hording (od engleskog hoard - "stock"). Prema klasifikaciji psihičkih bolesti, hording se svrstava u psihičke poremećaje. U digitalnoj eri tradicionalnom gomilanju materijala dodaje se digitalno gomilanje; ono može utjecati kako na pojedince tako i na cijela poduzeća i organizacije ().

Svjetsko i rusko tržište

Big data Landscape - Glavni dobavljači

Zanimanje za prikupljanje, obradu, upravljanje i alate za analizu veliki podaci Pokazale su to gotovo sve vodeće IT tvrtke, što je sasvim prirodno. Prvo, oni se izravno susreću s ovom pojavom u vlastitom poslovanju, a drugo, veliki podaci otvaraju izvrsne mogućnosti za razvoj novih tržišnih niša i privlačenje novih kupaca.

Na tržištu su se pojavili mnogi startupovi koji posluju obrađujući ogromne količine podataka. Neki od njih koriste gotovu infrastrukturu u oblaku koju pružaju veliki igrači poput Amazona.

Teorija i praksa Big Data u industriji

Povijest razvoja

2017

TmaxSoft prognoza: sljedeći "val" Big Data zahtijevat će modernizaciju DBMS-a

Poduzeća znaju da ogromne količine podataka koje akumuliraju sadrže važna informacija o svom poslovanju i klijentima. Ako tvrtka može uspješno primijeniti ove informacije, imat će značajnu prednost u odnosu na konkurenciju i moći će ponuditi bolje proizvode i usluge od njihovih. Međutim, mnoge organizacije još uvijek ne uspijevaju učinkovito koristiti veliki podaci zbog činjenice da njihova naslijeđena IT infrastruktura ne može osigurati potreban kapacitet pohrane, procese razmjene podataka, pomoćne programe i aplikacije potrebne za obradu i analizu velikih količina nestrukturiranih podataka kako bi se iz njih izvukle vrijedne informacije, naznačio je TmaxSoft.

Uz to, povećana procesorska snaga potrebna za analizu stalno rastućih količina podataka može zahtijevati značajna ulaganja u naslijeđenu IT infrastrukturu organizacije, kao i dodatne resurse za održavanje koji bi se mogli koristiti za razvoj novih aplikacija i usluga.

Bijela kuća je 5. veljače 2015. objavila izvješće u kojem se govori o tome kako tvrtke koriste " veliki podaci» naplaćivati različite cijene različitim kupcima, što je praksa poznata kao "diskriminacija cijena" ili "personalizirano određivanje cijena". Izvješće opisuje prednosti velikih podataka i za prodavače i za kupce, a njegovi autori zaključuju da se mnoga pitanja koja pokreću veliki podaci i različite cijene mogu riješiti kroz postojeće zakone i propise protiv diskriminacije.

U izvješću se navodi da u ovom trenutku postoje samo anegdotski dokazi o tome kako tvrtke koriste velike podatke u kontekstu personaliziranog marketinga i diferenciranih cijena. Ove informacije pokazuju da prodavači koriste metode određivanja cijena koje se mogu podijeliti u tri kategorije:

proučavanje krivulje potražnje;
Upravljanje i diferencirano određivanje cijena na temelju demografskih podataka; I
ciljani bihevioralni marketing (bihevioralno ciljanje) i individualizirano određivanje cijena.

Proučavanje krivulje potražnje: Kako bi odredili potražnju i proučili ponašanje potrošača, marketinški stručnjaci često provode eksperimente u ovom području u kojima su kupci nasumično raspoređeni u jednu od dvije moguće cjenovne kategorije. "Tehnički, ovi eksperimenti su oblik različitog određivanja cijena jer rezultiraju različitim cijenama za kupce, čak i ako su "nediskriminirajući" u smislu da svi kupci imaju istu vjerojatnost da će biti "poslani" na višu cijenu."

Upravljanja: To je praksa predstavljanja proizvoda potrošačima na temelju njihove pripadnosti određenoj demografskoj skupini. Na primjer, web-mjesto računalne tvrtke može ponuditi isto prijenosno računalo različitim vrstama kupaca po različitim cijenama na temelju informacija koje daju o sebi (na primjer, ovisno o tome ovaj korisnik predstavnik državnih agencija, znanstvenih ili komercijalnih institucija ili privatna osoba) ili s njihove geografske lokacije (primjerice, određene IP adresom računala).

Ciljani bihevioralni marketing i prilagođene cijene: U tim se slučajevima osobni podaci kupaca koriste za ciljano oglašavanje i prilagođavanje cijena za određene proizvode. Na primjer, online oglašivači koriste prikupljene oglašivačke mreže te putem kolačića treće strane podatke o aktivnostima korisnika na Internetu u svrhu slanja ciljanih reklamnih materijala. Ovakav pristup, s jedne strane, omogućuje potrošačima primanje reklama za robu i usluge koje ih zanimaju, no može izazvati zabrinutost kod onih potrošača koji ne žele određene vrste svojih osobnih podataka (kao što su informacije o posjetima web stranicama povezani s medicinskim i financijskim pitanjima) prikupljeni su bez njihova pristanka.

Iako je ciljani bihevioralni marketing široko rasprostranjen, postoji relativno malo dokaza o personaliziranim cijenama u online okruženju. U izvješću se nagađa da bi to moglo biti zato što se metode još uvijek razvijaju ili zato što tvrtke oklijevaju koristiti prilagođene cijene (ili radije šute o tome) - možda se boje reakcije potrošača.

Autori izvješća sugeriraju da "za pojedinačnog potrošača korištenje velikih podataka jasno predstavlja potencijalne nagrade i rizike". Iako priznaje da veliki podaci pokreću pitanja transparentnosti i diskriminacije, izvješće tvrdi da su postojeći zakoni protiv diskriminacije i zaštite potrošača dovoljni za njihovo rješavanje. Međutim, izvješće također naglašava potrebu za "stalnim nadzorom" kada tvrtke koriste osjetljive informacije na načine koji nisu transparentni ili na načine koji nisu obuhvaćeni postojećim regulatornim okvirima.

Ovim izvješćem nastavljaju se napori Bijele kuće da ispita korištenje velikih podataka i diskriminirajuće cijene na Internetu te rezultirajuće posljedice za američke potrošače. Ranije je objavljeno da radna skupina Ured Bijele kuće za velike podatke objavio je svoje izvješće o ovom pitanju u svibnju 2014. Federalna komisija za trgovinu (FTC) također se pozabavila ovim pitanjima tijekom svoje radionice o diskriminaciji velikih podataka u rujnu 2014.

2014

Gartner razbija mitove o velikim podacima

Gartnerova istraživačka bilješka iz jeseni 2014. navodi niz uobičajenih mitova o velikim podacima među IT čelnicima i daje im opovrgnuća.

Svi implementiraju sustave obrade Big Data brže od nas

Zanimanje za Big Data tehnologije je na najvišoj razini svih vremena: 73% organizacija koje su ove godine ispitali analitičari Gartnera već ulažu ili planiraju to učiniti. No, većina tih inicijativa još uvijek je u vrlo ranim fazama, a samo 13% ispitanika već je implementiralo takva rješenja. Najteže je odrediti kako izvući prihod od Big Data, odlučiti odakle početi. Mnoge organizacije zapnu u pilot fazi jer se ne mogu obvezati nova tehnologija na specifične poslovne procese.

Imamo toliko podataka da se ne treba brinuti zbog malih grešaka u njima

Neki IT menadžeri vjeruju da mali nedostaci podataka ne utječu na ukupne rezultate analize velikih količina. Kad je podataka puno, svaka pojedinačna pogreška zapravo manje utječe na rezultat, napominju analitičari, ali i same pogreške postaju sve brojnije. Osim toga, većina analiziranih podataka je vanjska, nepoznate strukture ili porijekla, pa se povećava vjerojatnost pogrešaka. Dakle, u svijetu Big Data kvaliteta je zapravo puno važnija.

Big Data tehnologije će eliminirati potrebu za integracijom podataka

Big Data obećava mogućnost obrade podataka u izvornom formatu, s automatskim generiranjem sheme dok se čitaju. Vjeruje se da će to omogućiti analizu informacija iz istih izvora pomoću više modela podataka. Mnogi vjeruju da će to također omogućiti krajnjim korisnicima da interpretiraju bilo koji skup podataka kako im odgovara. U stvarnosti, većina korisnika često želi tradicionalni način s gotovom shemom, gdje su podaci prikladno formatirani i postoje dogovori o razini integriteta informacija i kako bi se one trebale odnositi na slučaj upotrebe.

Nema smisla koristiti skladišta podataka za složenu analitiku

Mnogi administratori sustava za upravljanje informacijama smatraju da nema smisla trošiti vrijeme na stvaranje skladišta podataka, s obzirom na njegovu složenost analitički sustavi koristiti nove tipove podataka. Zapravo, mnogi složeni analitički sustavi koriste informacije iz skladišta podataka. U ostalim slučajevima nove vrste podataka potrebno je dodatno pripremiti za analizu u sustavima za obradu Big Data; moraju se donijeti odluke o prikladnosti podataka, načelima združivanja i potrebnoj razini kvalitete - takva se priprema može dogoditi izvan skladišta.

Skladišta podataka bit će zamijenjena jezerima podataka

U stvarnosti, dobavljači obmanjuju kupce pozicioniranjem podatkovnih jezera kao zamjene za pohranu ili kao kritične elemente analitičke infrastrukture. Temeljnim tehnologijama podatkovnih jezera nedostaje zrelost i širina funkcionalnosti koja se nalazi u skladištima. Stoga bi menadžeri odgovorni za upravljanje podacima trebali pričekati dok jezera ne dostignu istu razinu razvoja, prema Gartneru.

Accenture: 92% onih koji su implementirali big data sustave zadovoljno je rezultatima

Među glavnim prednostima velikih podataka ispitanici su naveli:

“traženje novih izvora prihoda” (56%),
“poboljšanje korisničkog iskustva” (51%),
“novi proizvodi i usluge” (50%) i
“priljev novih kupaca i očuvanje lojalnosti starih” (47%).

Pri uvođenju novih tehnologija mnoge se tvrtke suočavaju s tradicionalnim problemima. Za 51% kamen spoticanja bila je sigurnost, za 47% - proračun, za 41% - nedostatak potrebnih kadrova, a za 35% - poteškoće u integraciji s postojeći sustav. Gotovo sve ispitane tvrtke (oko 91%) planiraju uskoro riješiti problem nedostatka osoblja i zaposliti stručnjake za velike podatke.

Tvrtke su optimistične u pogledu budućnosti tehnologija velikih podataka. 89% vjeruje da će promijeniti poslovanje jednako kao i Internet. 79% ispitanika navelo je da će tvrtke koje se ne bave velikim podacima izgubiti svoju konkurentsku prednost.

Međutim, ispitanici se nisu složili oko toga što bi se točno trebalo smatrati velikim podacima. 65% ispitanika vjeruje da se radi o “velikim podatkovnim datotekama”, 60% da se radi o “naprednoj analitici i analizi”, a 50% da se radi o “alatima za vizualizaciju podataka”.

Madrid troši 14,7 milijuna eura na upravljanje velikim podacima

U srpnju 2014. postalo je poznato da će Madrid koristiti tehnologije velikih podataka za upravljanje gradskom infrastrukturom. Vrijednost projekta je 14,7 milijuna eura, a temelj implementiranih rješenja bit će tehnologije za analizu i upravljanje velikim podacima. Uz njihovu pomoć gradska uprava će voditi posao sa svakim pružateljem usluga i plaćati prema razini usluge.

Riječ je o administrativnim izvođačima koji prate stanje ulica, rasvjete, navodnjavanja, zelenih površina, čiste teritorije i odvoze te recikliraju otpad. Tijekom projekta izrađeno je 300 ključnih pokazatelja rada gradskih službi za posebno određene inspektore, na temelju kojih će se dnevno provoditi 1,5 tisuća različitih provjera i mjerenja. Osim toga, grad će početi koristiti inovativnu tehnološku platformu pod nazivom Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Stručnjaci: Big Data je u modi

Bez iznimke, svi dobavljači na tržištu upravljanja podacima trenutno razvijaju tehnologije za upravljanje velikim podacima. O ovom novom tehnološkom trendu aktivno raspravlja i stručna zajednica, kako programeri, tako i industrijski analitičari te potencijalni potrošači takvih rješenja.

Kao što je Datashift otkrio, od siječnja 2013. došlo je do vala rasprava oko " veliki podaci"premašao je sve zamislive dimenzije. Nakon analize broja spominjanja Big Data na društvenim mrežama, Datashift je izračunao da je 2012. taj pojam korišten oko 2 milijarde puta u objavama koje je izradilo oko milijun različitih autora diljem svijeta. To je ekvivalentno 260 postova po satu, s vrhuncem od 3070 spominjanja po satu.

Gartner: Svaki drugi CIO spreman je potrošiti novac na velike podatke

Nakon nekoliko godina eksperimentiranja s Big data tehnologijama i prvih implementacija u 2013. godini, prilagodba takvih rješenja znatno će se povećati, predviđa Gartner. Istraživači su anketirali IT lidere diljem svijeta i otkrili da je 42% ispitanika već uložilo u Big data tehnologije ili planira napraviti takva ulaganja u idućoj godini (podaci iz ožujka 2013.).

Tvrtke su prisiljene trošiti novac na tehnologije obrade veliki podaci, budući da se informacijsko okruženje ubrzano mijenja, zahtijevajući nove pristupe obradi informacija. Mnoge tvrtke već su shvatile da su velike količine podataka kritične, a rad s njima omogućuje im postizanje prednosti koje nisu dostupne tradicionalnim izvorima informacija i metodama njihove obrade. Osim toga, stalna rasprava o temi “velikih podataka” u medijima potiče interes za relevantne tehnologije.

Frank Buytendijk, potpredsjednik Gartnera, čak je pozvao tvrtke da ublaže svoje napore jer se neke brinu da zaostaju za konkurencijom u usvajanju Big Data.

"Nema razloga za brigu; mogućnosti za implementaciju ideja temeljenih na tehnologijama velikih podataka gotovo su beskrajne", rekao je.

Gartner predviđa da će do 2015. godine 20% Globalnih 1000 tvrtki imati strateški fokus na "informacijsku infrastrukturu".

U iščekivanju novih mogućnosti koje će donijeti tehnologije obrade velikih podataka, mnoge organizacije već organiziraju procese prikupljanja i pohranjivanja raznih vrsta informacija.

Za obrazovne i vladine organizacije, kao i industrijske tvrtke, najveći potencijal za poslovnu transformaciju leži u kombinaciji akumuliranih podataka s takozvanim mračnim podacima (doslovno "mračni podaci"), potonji uključuju poruke E-mail, multimedijski i drugi slični sadržaji. Prema Gartneru, pobjednici u utrci podataka bit će oni koji nauče baratati s različitim izvorima informacija.

Cisco anketa: Big Data će pomoći u povećanju IT proračuna

Proljetno izvješće Cisco Connected World Technology Report iz 2013. godine, koje je u 18 zemalja provela neovisna istraživačka tvrtka InsightExpress, ispitalo je 1800 studenata i jednak broj mladih stručnjaka u dobi od 18 do 30 godina. Istraživanje je provedeno kako bi se utvrdila razina spremnosti IT odjela za provedbu projekata Veliki podaci te steći uvid u izazove, tehnološke nedostatke i stratešku vrijednost takvih projekata.

Većina tvrtki prikuplja, bilježi i analizira podatke. Međutim, navodi se u izvješću, mnoge se tvrtke suočavaju s nizom složenih izazova poslovanja i informacijske tehnologije s velikim podacima. Na primjer, 60 posto ispitanika priznaje da Big Data rješenja mogu poboljšati procese donošenja odluka i povećati konkurentnost, ali samo 28 posto je reklo da već imaju stvarne strateške koristi od prikupljenih informacija.

Više od polovice anketiranih IT rukovoditelja vjeruje da će Big Data projekti pomoći u povećanju proračuna za IT u njihovim organizacijama, jer će biti povećani zahtjevi za tehnologijom, osobljem i profesionalnim vještinama. Istodobno, više od polovice ispitanika očekuje da će takvi projekti povećati IT proračune u njihovim tvrtkama već 2012. godine. 57 posto uvjereno je da će Big Data povećati svoje proračune u sljedeće tri godine.

81 posto ispitanika reklo je da će svi (ili barem neki) Big Data projekti zahtijevati korištenje računalni oblak. Dakle, širenje tehnologije u oblaku može utjecati na stopu usvajanja Big Data rješenja i poslovnu vrijednost tih rješenja.

Tvrtke prikupljaju i koriste podatke od većine različiti tipovi, i strukturirane i nestrukturirane. Ovo su izvori iz kojih sudionici ankete dobivaju podatke (Cisco Connected World Technology Report):

Gotovo polovica (48 posto) IT čelnika predviđa da će se opterećenje njihovih mreža udvostručiti tijekom sljedeće dvije godine. (Posebno se to odnosi na Kinu, gdje to mišljenje dijeli 68 posto ispitanika, au Njemačkoj – 60 posto). 23 posto ispitanika očekuje da će se opterećenje mreže utrostručiti u sljedeće dvije godine. Istodobno, samo 40 posto ispitanika izjavilo je da je spremno za eksplozivan rast obujma mrežnog prometa.

27 posto ispitanika priznalo je da im trebaju bolje IT politike i mjere informacijske sigurnosti.

21 posto treba više propusnosti.

Big Data otvara nove mogućnosti IT odjelima za dodavanje vrijednosti i izgradnju čvrstih odnosa s poslovnim jedinicama, omogućujući im povećanje prihoda i jačanje financijske pozicije tvrtke. Big Data projekti čine IT odjele strateškim partnerima poslovnim odjelima.

Prema 73 posto ispitanika, IT odjel će postati glavni pokretač implementacije Big Data strategije. Istodobno, ispitanici smatraju da će se i drugi resori uključiti u provedbu ove strategije. Prije svega, to se odnosi na odjele financija (navelo ih je 24 posto ispitanika), istraživanja i razvoja (20 posto), operacija (20 posto), inženjeringa (19 posto), te marketinga (15 posto) i prodaje ( 14 posto).

Gartner: Milijuni novih poslova potrebni su za upravljanje velikim podacima

Globalna IT potrošnja dosegnut će 3,7 milijardi dolara do 2013., što je 3,8% više od potrošnje na informacijsku tehnologiju u 2012. (predviđanje na kraju godine je 3,6 milijardi dolara). Segment veliki podaci(veliki podaci) razvijat će se puno bržim tempom, kaže izvješće Gartnera.

Do 2015. otvorit će se 4,4 milijuna radnih mjesta u informacijskoj tehnologiji za servisiranje velikih podataka, od čega će 1,9 milijuna radnih mjesta biti u . Štoviše, svaki radno mjesto podrazumijevat će otvaranje tri dodatna radna mjesta izvan IT sektora, tako da će samo u Sjedinjenim Državama u sljedeće četiri godine 6 milijuna ljudi raditi na podršci informacijskoj ekonomiji.

Prema stručnjacima Gartnera, glavni problem je u tome što u industriji za to nema dovoljno talenta: ni privatni ni javni obrazovni sustavi, primjerice u Sjedinjenim Državama, nisu u stanju opskrbiti industriju dovoljnim brojem kvalificiranog osoblja . Dakle, od spomenutih novih informatičkih poslova samo će jedno od tri biti kadrovski popunjeno.

Analitičari smatraju da bi ulogu njegovanja kvalificiranog informatičkog kadra trebale izravno preuzeti tvrtke kojima su hitno potrebni, jer će im takvi zaposlenici biti ulaznica u novu informacijsku ekonomiju budućnosti.

2012

Prvi skepticizam prema "Big Data"

Analitičari iz Ovuma i Gartnera predlažu da će za modernu temu 2012 veliki podaci Možda će doći vrijeme da se oslobodite iluzija.

Izraz "veliki podaci" u ovom se trenutku obično odnosi na sve veću količinu informacija koje teku online s društvenih medija, mreža senzora i drugih izvora, kao i na sve veći raspon alata koji se koriste za obradu podataka i identifikaciju podataka važnih za poslovanje iz nje.-trendovi.

“Zbog (ili unatoč) pompe oko ideje velikih podataka, proizvođači su 2012. gledali na ovaj trend s velikom nadom”, rekao je Tony Bayer, analitičar u Ovumu.

Bayer je izvijestio da je DataSift proveo retrospektivnu analizu spominjanja velikih podataka u

Big data je širok pojam za nekonvencionalne strategije i tehnologije potrebne za prikupljanje, organiziranje i obradu informacija iz velikih skupova podataka. Iako izazov rada s podacima koji premašuju kapacitet obrade ili pohrane jednog računala nije nov, opseg i vrijednost ove vrste računalstva značajno su se proširili posljednjih godina.

Ovaj će vas članak provesti kroz osnovne pojmove na koje biste mogli naići dok istražujete velike podatke. Također se raspravlja o nekim procesima i tehnologijama koje se trenutno koriste u ovom području.

Što su veliki podaci?

Preciznu definiciju "velikih podataka" teško je artikulirati jer ih projekti, dobavljači, praktičari i poslovni profesionalci koriste na vrlo različite načine. Imajući ovo na umu, veliki podaci se mogu definirati kao:

Veliki skupovi podataka.
Kategorija računalnih strategija i tehnologija koje se koriste za obradu velikih skupova podataka.

U ovom kontekstu, "veliki skup podataka" znači skup podataka koji je prevelik da bi se mogao obraditi ili pohraniti pomoću tradicionalnih alata ili na jednom računalu. To znači da se ukupna skala velikih skupova podataka stalno mijenja i može značajno varirati od slučaja do slučaja.

Sustavi velikih podataka

Osnovni zahtjevi za rad s velikim podacima isti su kao i za bilo koji drugi skup podataka. Međutim, golemi razmjeri, brzina obrade i karakteristike podataka na koje se nailazi u svakom koraku procesa predstavljaju značajne nove izazove za razvoj alata. Cilj većine big data sustava je razumjeti i komunicirati s velikim količinama heterogenih podataka, što ne bi bilo moguće korištenjem konvencionalnih metoda.

Godine 2001. Doug Laney iz Gartnera predstavio je "tri V velikih podataka" kako bi opisao neke od karakteristika koje razlikuju obradu velikih podataka od drugih vrsta obrade podataka:

Volumen (količina podataka).
Brzina (brzina prikupljanja i obrade podataka).
Raznolikost (raznolikost vrsta obrađenih podataka).

Količina podataka

Sama veličina obrađenih informacija pomaže u definiranju sustava velikih podataka. Ovi skupovi podataka mogu biti reda veličine veći od tradicionalnih skupova podataka, zahtijevajući veću pozornost u svakoj fazi obrade i pohrane.

Budući da zahtjevi premašuju mogućnosti jednog računala, često se javlja problem udruživanja, distribucije i koordinacije resursa iz grupa računala. Upravljanje klasterom i algoritmi koji mogu rastaviti zadatke na manje dijelove postaju sve važniji u ovom području.

Akumulacija i brzina obrade

Druga karakteristika koja bitno razlikuje big data od ostalih podatkovnih sustava je brzina kojom se informacije kreću kroz sustav. Podaci često ulaze u sustav iz više izvora i moraju se obrađivati u stvarnom vremenu kako bi se ažuriralo trenutno stanje sustava.

Ovaj naglasak na trenutnom Povratne informacije natjeralo je mnoge praktičare da napuste pristup orijentiran na pakete i daju prednost sustavu strujanja u stvarnom vremenu. Podaci se neprestano dodaju, obrađuju i analiziraju kako bi išli u korak s priljevom nove informacije i rano steknite vrijedne uvide, kada je to najrelevantnije. To zahtijeva robusne sustave s visoko dostupnim komponentama za zaštitu od kvarova duž podatkovnog cjevovoda.

Različite vrste podataka koje se obrađuju

Mnogo je jedinstvenih izazova u velikim podacima zbog širokog raspona obrađenih izvora i njihove relativne kvalitete.

Podaci mogu dolaziti iz internih sustava kao što su zapisi aplikacija i poslužitelja, s kanala društvenih medija i drugih vanjskih API-ja, sa senzora fizičke uređaje i iz drugih izvora. Cilj big data sustava je obraditi potencijalno korisne podatke, bez obzira na porijeklo, kombiniranjem svih informacija u jedan sustav.

Formati i vrste medija također se mogu značajno razlikovati. Medijske datoteke (slike, video i audio) kombiniraju se s tekstualne datoteke, strukturirani dnevnici itd. Tradicionalniji sustavi obrade podataka očekuju da podaci uđu u cjevovod već označeni, formatirani i organizirani, ali sustavi velikih podataka obično gutaju i pohranjuju podatke u pokušaju da ih sačuvaju početno stanje. U idealnom slučaju, sve transformacije ili promjene neobrađenih podataka dogodit će se u memoriji tijekom obrade.

Ostale karakteristike

S vremenom su praktičari i organizacije predložili proširenja izvornih "tri V", iako te inovacije više opisuju probleme nego karakteristike velikih podataka.

Vjerodostojnost: Raznolikost izvora i složenost obrade mogu dovesti do problema u procjeni kvalitete podataka (a time i kvalitete rezultirajuće analize).
Varijabilnost: promjene u podacima dovode do velikih varijacija u kvaliteti. Dodatni resursi mogu biti potrebni za identifikaciju, obradu ili filtriranje podataka niske kvalitete radi poboljšanja kvalitete podataka.
Vrijednost: krajnji cilj velikih podataka je vrijednost. Ponekad su sustavi i procesi vrlo složeni, što otežava korištenje podataka i izdvajanje stvarnih vrijednosti.

Životni ciklus velikih podataka

Dakle, kako se zapravo obrađuju veliki podaci? Ima ih nekoliko različiti pristupi do implementacije, ali postoje zajedničke točke u strategijama i softveru.

Unos podataka u sustav
Spremanje podataka u pohranu
Računanje i analiza podataka
Vizualizacija rezultata

Prije nego što detaljno pogledamo ove četiri kategorije tijekova rada, razgovarajmo o klasterskom računalstvu, važnoj strategiji koju koriste mnogi alati za velike podatke. Postavljanje računalnog klastera temeljna je tehnologija koja se koristi u svakoj fazi životnog ciklusa.

Cluster computing

Zbog kvalitete velikih podataka, pojedinačna računala nisu prikladna za obradu podataka. Klasteri su prikladniji za to jer mogu podnijeti potrebe za pohranom i računalstvom velikih podataka.

Softver za klasteriranje velikih podataka kombinira resurse mnogih malih strojeva, s ciljem pružanja niza prednosti:

Udruživanje resursa: Obrada velikih skupova podataka zahtijeva velike količine procesora i memorijskih resursa, kao i puno dostupnog prostora za pohranu.
Visoka dostupnost: Klasteri mogu pružiti različite razine tolerancije grešaka i dostupnosti tako da kvarovi hardvera ili softvera ne utječu na pristup i obradu podataka. Ovo je posebno važno za analitiku u stvarnom vremenu.
Skalabilnost: klasteri podržavaju brzo horizontalno skaliranje (dodavanje novih strojeva u klaster).

Za rad u klasteru potrebni su vam alati za upravljanje članstvom u klasteru, koordiniranje distribucije resursa i raspored rada s pojedinačnim čvorovima. Članstvom u klasteru i raspodjelom resursa može se upravljati pomoću programa kao što su Hadoop YARN (Još jedan pregovarač resursa) ili Apache Mesos.

Prefabricirani računalni klaster često djeluje kao okosnica s kojom druga računala komuniciraju radi obrade podataka. softver. Strojevi koji sudjeluju u računskom klasteru također su obično povezani s upravljanjem distribuiranim sustavom pohrane.

Primanje podataka

Unos podataka je proces dodavanja neobrađenih podataka u sustav. Složenost ove operacije uvelike ovisi o formatu i kvaliteti izvora podataka te o tome u kojoj mjeri podaci zadovoljavaju zahtjeve za obradu.

Možete dodati velike podatke u sustav pomoću posebnih alata. Tehnologije kao što je Apache Sqoop mogu preuzeti postojeće podatke iz relacijskih baza podataka i dodati ih u sustav velikih podataka. Također možete koristiti Apache Flume i Apache Chukwa - projekte dizajnirane za prikupljanje i uvoz dnevnika aplikacija i poslužitelja. Brokeri poruka kao što je Apache Kafka mogu se koristiti kao sučelje između različitih generatora podataka i sustava velikih podataka. Okviri kao što je Gobblin mogu kombinirati i optimizirati izlaz svih alata na kraju cjevovoda.

Tijekom unosa podataka obično se provodi analiza, sortiranje i označavanje. Ovaj se proces ponekad naziva ETL (extract, transform, load), što je kratica za ekstrakt, transform i učitavanje. Iako se termin obično odnosi na naslijeđene procese skladištenja podataka, ponekad se primjenjuje na sustave velikih podataka. Tipične operacije uključuju modificiranje dolaznih podataka za formatiranje, kategoriziranje i označavanje, filtriranje ili provjeru usklađenosti podataka.

U idealnom slučaju, primljeni podaci prolaze minimalno formatiranje.

Pohrana podataka

Jednom primljeni podaci se premještaju u komponente koje upravljaju pohranom.

Obično se distribuirani datotečni sustavi koriste za pohranu neobrađenih podataka. Rješenja kao što je HDFS iz Apache Hadoopa omogućuju upisivanje velikih količina podataka u više čvorova u klasteru. Ovaj sustav pruža računalnim resursima pristup podacima, može učitati podatke u RAM klastera za memorijske operacije i rukovati kvarovima komponenti. Drugi distribuirani datotečni sustavi mogu se koristiti umjesto HDFS-a, uključujući Ceph i GlusterFS.

Podaci se također mogu uvesti u druge distribuirane sustave za strukturiraniji pristup. Distribuirane baze podataka, posebno NoSQL baze podataka, dobro su prikladne za ovu ulogu jer mogu rukovati heterogenim podacima. Postoji mnogo različitih vrsta distribuirane baze podataka podataka, izbor ovisi o tome kako želite organizirati i predstaviti podatke.

Računanje i analiza podataka

Nakon što su podaci dostupni, sustav može započeti s obradom. Računalni sloj je možda najslobodniji dio sustava, budući da se ovdje zahtjevi i pristupi mogu značajno razlikovati ovisno o vrsti informacija. Podaci se često obrađuju više puta, bilo pomoću jednog alata ili pomoću više alata za obradu različitih vrsta podataka.

Skupna obrada jedna je od metoda za računanje velikih skupova podataka. Ovaj proces uključuje rastavljanje podataka na manje dijelove, planiranje obrade svakog dijela na posebnom stroju, preuređivanje podataka na temelju međurezultata, a zatim izračunavanje i prikupljanje konačnog rezultata. MapReduce tvrtke Apache Hadoop koristi ovu strategiju. Skupna obrada je najkorisnija kada radite s vrlo velikim skupovima podataka koji zahtijevaju dosta računanja.

Ostala radna opterećenja zahtijevaju obradu u stvarnom vremenu. Međutim, informacije se moraju odmah obraditi i pripremiti, a sustav mora pravovremeno reagirati kada nove informacije postanu dostupne. Jedan od načina implementacije obrade u stvarnom vremenu je obrada kontinuiranog toka podataka koji se sastoji od pojedinačni elementi. Još jedan opće karakteristike Procesori u stvarnom vremenu izračunavaju podatke u memoriji klastera, izbjegavajući potrebu za pisanjem na disk.

Ponuda Apache Storm, Apache Flink i Apache Spark razne načine implementacija obrade u stvarnom vremenu. Ove fleksibilne tehnologije omogućuju vam odabir najboljeg pristupa za svaki pojedinačni problem. Općenito, obrada u stvarnom vremenu najprikladnija je za analizu malih dijelova podataka koji se mijenjaju ili se brzo dodaju u sustav.

Svi ovi programi su okviri. Međutim, postoji mnogo drugih načina za izračunavanje ili analizu podataka u sustavu velikih podataka. Ovi se alati često povezuju s gornjim okvirima i pružaju dodatna sučelja za interakciju s temeljnim slojevima. Na primjer, Apache Hive pruža sučelje skladišta podataka za Hadoop, Apache Pig pruža sučelje za upite, a interakcije SQL podataka pružaju Apache Drill, Apache Impala, Apache Spark SQL i Presto. Strojno učenje koristi Apache SystemML, Apache Mahout i MLlib iz Apache Spark. Za izravno analitičko programiranje, koje je široko podržano od strane podatkovnog ekosustava, koriste se R i Python.

Vizualizacija rezultata

Često je prepoznavanje trendova ili promjena u podacima tijekom vremena važnije od dobivenih vrijednosti. Vizualizacija podataka jedan je od najkorisnijih načina za prepoznavanje trendova i organiziranje velikog broja podatkovnih točaka.

Obrada u stvarnom vremenu koristi se za vizualizaciju metrike aplikacije i poslužitelja. Podaci se često mijenjaju, a velike varijacije u metrikama obično ukazuju na značajan utjecaj na zdravlje sustava ili organizacija. Projekti kao što je Prometheus mogu se koristiti za obradu tokova podataka i vremenskih serija i vizualizaciju tih informacija.

Jedan popularan način za vizualizaciju podataka je Elastic stack, prije poznat kao ELK stack. Logstash se koristi za prikupljanje podataka, Elasticsearch za indeksiranje podataka, a Kibana za vizualizaciju. Elastic stack može raditi s velikim podacima, vizualizirati rezultate izračuna ili komunicirati s neobrađenim metrikama. Sličan stog može se dobiti kombiniranjem Apache Solra za indeksiranje s viljuškom Kibane pod nazivom Banana za vizualizaciju. Ovaj skup se zove Svila.

Druga tehnologija vizualizacije za interakciju s podacima su dokumenti. Takvi projekti omogućuju interaktivno istraživanje i vizualizaciju podataka u formatu pogodnom za dijeljenje i prezentacija podataka. Popularni primjeri ove vrste sučelja su Jupyter Notebook i Apache Zeppelin.

Big Data Glosar

Big data je širok pojam za skupove podataka koji se ne mogu ispravno obraditi obična računala ili instrumente zbog njihove glasnoće, brzine dolaska i raznolikosti. Termin se također uobičajeno primjenjuje na tehnologije i strategije za rad s takvim podacima.
Skupna obrada je računalna strategija koja uključuje obradu podataka u velikim skupovima. Obično je ova metoda idealna za rad s podacima koji nisu hitni.
Grupirano računalstvo je praksa udruživanja resursa više strojeva i upravljanja njihovim zajedničkim mogućnostima za obavljanje zadataka. U ovom slučaju potreban je sloj upravljanja klasterom koji upravlja komunikacijom između pojedinačnih čvorova.
Podatkovno jezero veliko je spremište prikupljenih podataka u relativno sirovom stanju. Izraz se često koristi za označavanje nestrukturiranih velikih podataka koji se često mijenjaju.
Data mining je širok pojam za različite prakse pronalaženja uzoraka u velikim skupovima podataka. To je pokušaj organiziranja mase podataka u razumljiviji i koherentniji skup informacija.
Skladište podataka je veliko, organizirano spremište za analizu i izvješćivanje. Za razliku od podatkovnog jezera, skladište se sastoji od formatiranih i dobro organiziranih podataka koji su integrirani s drugim izvorima. Skladišta podataka često se spominju u vezi s velikim podacima, ali često su komponente konvencionalnih sustava za obradu podataka.
ETL (extract, transform, and load) – izdvajanje, transformiranje i učitavanje podataka. Ovo je proces dobivanja i pripreme neobrađenih podataka za korištenje. Povezan je sa skladištima podataka, ali karakteristike ovog procesa nalaze se iu cjevovodima big data sustava.
Hadoop je Apache projekt otvorenog koda za velike podatke. Sastoji se od raspodijeljenog sustav datoteka nazvan HDFS i klaster i planer resursa nazvan YARN. Mogućnosti skupna obrada pruža računalni mehanizam MapReduce. Moderne implementacije Hadoop-a mogu pokretati druge računalne i analitičke sustave uz MapReduce.
In-memory computing je strategija koja uključuje premještanje cijelih radnih skupova podataka u memoriju klastera. Međuizračuni se ne zapisuju na disk, već se pohranjuju u memoriju. To sustavima daje veliku prednost u brzini u odnosu na I/O-vezane sustave.
Strojno učenje je proučavanje i praksa dizajniranja sustava koji mogu učiti, prilagođavati se i poboljšavati na temelju podataka koji im se šalju. To obično znači implementaciju prediktivnih i statističkih algoritama.
Map reduce (ne smije se brkati s MapReduce iz Hadoopa) je algoritam za raspoređivanje računalnog klastera. Proces uključuje podjelu zadatka između čvorova i dobivanje međurezultata, miješanje i zatim ispisivanje jedne vrijednosti za svaki skup.
NoSQL je širok pojam koji se odnosi na baze podataka dizajnirane izvan tradicionalnih relacijski model. NoSQL baze podataka prikladne su za velike podatke zbog svoje fleksibilnosti i distribuirane arhitekture.
Stream obrada je praksa izračunavanja pojedinačnih dijelova podataka dok se kreću kroz sustav. To omogućuje analizu podataka u stvarnom vremenu i prikladno je za obradu vremenski osjetljivih transakcija korištenjem metrike velike brzine.

Oznake: ,

Izraz "Big Data" danas je možda prepoznatljiv, ali još uvijek postoji poprilična zabuna oko toga što on zapravo znači. Istina, koncept se neprestano razvija i redefinira budući da ostaje pokretačka snaga mnogih tekućih valova digitalne transformacije, uključujući umjetnu inteligenciju, podatkovnu znanost i Internet stvari. Ali što je Big-Data tehnologija i kako ona mijenja naš svijet? Pokušajmo jednostavnim riječima razumjeti bit Big Data tehnologije i što ona znači.

Nevjerojatan rast velikih podataka

Sve je počelo eksplozijom količine podataka koje smo stvorili od osvita digitalnog doba. Za to je uvelike zaslužan razvoj računala, interneta i tehnologija koje mogu “otimati” podatke iz svijeta oko nas. Podaci sami po sebi nisu novi izum. Čak i prije doba računala i baza podataka koristili smo papirnate zapise o transakcijama, zapise o kupcima i arhivske datoteke koje čine podatke. Računala, posebno proračunske tablice i baze podataka, olakšala su nam pohranjivanje i organiziranje podataka u velikim razmjerima. Odjednom su informacije bile dostupne samo jednim klikom.

Međutim, daleko smo odmakli od izvornih tablica i baza podataka. Danas svaka dva dana kreiramo onoliko podataka koliko smo dobili od samog početka do 2000. godine. Tako je, svaka dva dana. A količina podataka koje stvaramo nastavlja eksponencijalno rasti; do 2020. količina dostupnih digitalnih informacija povećat će se s otprilike 5 zetabajta na 20 zetabajta.

U današnje vrijeme gotovo svaka akcija koju poduzmemo ostavlja trag. Generiramo podatke svaki put kada smo na internetu, kada nosimo naše pametne telefone opremljene za pretraživanje, kada razgovaramo s prijateljima putem društveni mediji ili chatovi itd. Osim toga, količina strojno generiranih podataka također brzo raste. Podaci se generiraju i dijele kada naši pametni kućni uređaji komuniciraju jedni s drugima ili sa svojim kućnim poslužiteljima. Industrijska oprema u pogonima i tvornicama sve je više opremljena senzorima koji prikupljaju i prenose podatke.

Izraz "Big-Data" odnosi se na prikupljanje svih tih podataka i našu sposobnost da ih koristimo u svoju korist u širokom rasponu područja, uključujući poslovanje.

Kako funkcionira Big-Data tehnologija?

Big Data funkcionira na principu: što više znate o određenoj temi ili fenomenu, to pouzdanije možete postići novo razumijevanje i predvidjeti što će se dogoditi u budućnosti. Tijekom usporedbe više podatkovnih točaka, pojavljuju se odnosi koji su prije bili skriveni, a ti nam odnosi omogućuju učenje i donošenje boljih odluka. Najčešće se to radi kroz proces koji uključuje izradu modela na temelju podataka koje možemo prikupiti, a zatim pokretanje simulacija koje svaki put podešavaju vrijednosti podatkovnih točaka i prate kako one utječu na naše rezultate. Ovaj proces je automatiziran - moderne tehnologije analitičari će pokrenuti milijune ovih simulacija, ugađajući svaku moguću varijablu dok ne pronađu model—ili ideju—koja rješava problem na kojem rade.

Bill Gates visi iznad papirnatog sadržaja jednog CD-a

Donedavno su podaci bili ograničeni na proračunske tablice ili baze podataka - i sve je bilo vrlo organizirano i uredno. Sve što se nije moglo lako organizirati u retke i stupce smatralo se previše složenim za rad i bilo je zanemareno. Međutim, napredak u pohrani i analitici znači da možemo uhvatiti, pohraniti i obraditi velike količine različitih vrsta podataka. Kao rezultat toga, "podaci" danas mogu značiti bilo što, od baza podataka do fotografija, videa, zvučnih zapisa, pisanih tekstova i senzorskih podataka.

Kako bi shvatili sve ove neuredne podatke, projekti temeljeni na velikim podacima često koriste vrhunsku analitiku koristeći umjetnu inteligenciju i informatička obuka. Naučavajući računalne strojeve da određuju koji su to konkretni podaci - putem prepoznavanja uzoraka ili obrade prirodnog jezika, na primjer - možemo ih naučiti da identificiraju uzorke puno brže i pouzdanije nego što to možemo mi sami.

Kako se koriste Big Data?

Ovaj stalno rastući protok podataka senzora, teksta, glasa, fotografija i video podataka znači da sada možemo koristiti podatke na načine koji bi bili nezamislivi prije samo nekoliko godina. Ovo donosi revolucionarne promjene u poslovni svijet u gotovo svakoj industriji. Danas tvrtke mogu s nevjerojatnom točnošću predvidjeti koje će određene kategorije kupaca htjeti kupiti i kada. Big Data također pomaže tvrtkama da mnogo učinkovitije obavljaju svoje aktivnosti.

Čak i izvan poslovanja, projekti vezani uz Big Data već pomažu promijeniti naš svijet na razne načine:

Poboljšanje zdravstvene zaštite – Medicina vođena podacima ima sposobnost analiziranja golemih količina medicinskih informacija i slika u modele koji mogu pomoći u otkrivanju bolesti u ranoj fazi i razvoju novih lijekova.
Predviđanje i reagiranje na prirodne katastrofe i katastrofe uzrokovane ljudskim djelovanjem. Podaci senzora mogu se analizirati kako bi se predvidjelo gdje će se potresi vjerojatno dogoditi, a obrasci ljudskog ponašanja daju tragove koji pomažu organizacijama da pruže pomoć preživjelima. Tehnologija Big Data također se koristi za praćenje i zaštitu protoka izbjeglica iz ratnih zona diljem svijeta.
Sprječavanje zločina. Policijske snage sve više koriste strategije temeljene na podacima koje uključuju njihove vlastite obavještajne podatke i podatke iz otvoreni pristup kako bi učinkovitije koristili resurse i poduzeli mjere odvraćanja gdje je to potrebno.

Najbolje knjige o Big-Data tehnologiji

Svi lažu. Tražilice, Big Data i Internet znaju sve o vama.
VELIK PODATAK. Sva tehnologija u jednoj knjizi.
Industrija sreće. Kako Big Data i nove tehnologije pomažu dodati emocije robi i uslugama.
Revolucija u analitici. Kako unaprijediti svoje poslovanje u eri Big Data koristeći operativnu analitiku.

Problemi s velikim podacima

Big Data daje nam ideje i mogućnosti bez presedana, ali također postavlja probleme i pitanja kojima se treba pozabaviti:

Privatnost podataka – Veliki podaci koje danas stvaramo sadrže mnogo informacija o našim osobnim životima, na čiju privatnost imamo svako pravo. Sve više i više od nas se traži da uskladimo količinu osobnih podataka koje otkrivamo s pogodnošću koju nude aplikacije i usluge temeljene na velikim podacima.
Sigurnost podataka - Čak i ako odlučimo da smo sretni što netko ima naše podatke za određenu svrhu, možemo li mu vjerovati da će naše podatke čuvati sigurnima i sigurnima?
Diskriminacija podataka - kada se saznaju sve informacije, hoće li biti prihvatljivo diskriminirati ljude na temelju podataka iz njihovih osobnih života? Već koristimo kreditne rezultate kako bismo odlučili tko može posuditi novac, a osiguranje se također uvelike temelji na podacima. Treba očekivati detaljniju analizu i procjenu, ali treba paziti da to ne otežava život onima s manje resursa i ograničenim pristupom informacijama.

Obavljanje ovih zadataka važna je komponenta Big Data i moraju se time baviti organizacije koje žele koristiti takve podatke. Neuspjeh da se to učini može učiniti poduzeće ranjivim, ne samo u smislu njegovog ugleda, već i pravno i financijski.

Pogled u budućnost

Podaci mijenjaju naš svijet i naše živote neviđenom brzinom. Ako je Big Data sposoban za sve ovo danas, zamislite samo što će biti sposoban sutra. Količina podataka koji će nam biti dostupni samo će se povećavati, a analitička tehnologija postajat će još naprednija.

Za tvrtke će sposobnost primjene Big Data postati sve kritičnija u nadolazećim godinama. Samo će one tvrtke koje na podatke gledaju kao na stratešku imovinu preživjeti i napredovati. Oni koji ignoriraju ovu revoluciju riskiraju da budu izostavljeni.

Veliki podaci- Engleski "velikih podataka". Pojam se pojavio kao alternativa DBMS-u i postao je jedan od glavnih trendova u IT infrastrukturi kada je većina industrijskih divova - IBM, Microsoft, HP, Oracle i drugi počela koristiti ovaj koncept u svojim strategijama. Big Data odnosi se na ogroman (stotine terabajta) niz podataka koji se ne mogu obraditi tradicionalnim metodama; ponekad – alati i metode za obradu ovih podataka.

Primjeri izvora Big Data: RFID događaji, poruke na društvenim mrežama, meteorološke statistike, informacije o lokaciji pretplatnika mobilnih mobilnih mreža i podaci s uređaja za audio/video snimanje. Stoga se “veliki podaci” naširoko koriste u proizvodnji, zdravstvu, državnoj upravi i internetskom poslovanju - posebice pri analizi ciljane publike.

Karakteristično

Znakovi velikih podataka definirani su kao “tri V”: Volumen – volumen (stvarno velik); raznolikost – heterogenost, skup; velocity – brzina (potreba za vrlo brzom obradom).

Veliki podaci najčešće su nestrukturirani, a za njihovu obradu potrebni su posebni algoritmi. Metode analize velikih podataka uključuju:

(“data mining”) – skup pristupa za otkrivanje skrivenih korisnih znanja do kojih se ne može doći standardnim metodama;
Crowdsourcing (crowd – „gužva“, sourcing – korištenje kao izvor) – rješavanje značajnih problema zajedničkim naporima volontera koji nisu u obveznom radnom odnosu ili radnom odnosu, koordiniranje aktivnosti korištenjem informatičkih alata;
Data Fusion & Integration (“miješanje podataka i implementacija”) – skup metoda za povezivanje više izvora kao dio dubinske analize;
Strojno učenje ("strojno učenje") pododjeljak je istraživanja umjetne inteligencije koji proučava metode korištenja statističke analize i predviđanja na temelju osnovnih modela;
prepoznavanje slike (na primjer, prepoznavanje lica u tražilu fotoaparata ili video kamere);
prostorna analiza - korištenje topologije, geometrije i geografije za konstruiranje podataka;
vizualizacija podataka – izlaz analitičkih informacija u obliku ilustracija i dijagrama korištenjem interaktivnih alata i animacije za praćenje rezultata i izgradnju temelja za daljnje praćenje.

Informacije se pohranjuju i analiziraju na velikom broju poslužitelja visokih performansi. Ključna tehnologija je Hadoop, koji je otvorenog koda.

Budući da će se količina informacija s vremenom samo povećavati, teškoća nije u dobivanju podataka, već u tome kako ih obraditi uz maksimalnu korist. Općenito, proces rada s Big Data uključuje: prikupljanje informacija, njihovo strukturiranje, stvaranje uvida i konteksta, razvoj preporuka za djelovanje. Još prije prve faze važno je jasno definirati svrhu rada: koji su točno podaci potrebni za, primjerice, određivanje ciljane publike proizvoda. Inače, postoji rizik od primanja puno informacija bez razumijevanja kako se točno mogu koristiti.

Samo lijeni ne govore o Big data, ali jedva da razumiju što je to i kako funkcionira. Počnimo s najjednostavnijim – terminologijom. Govoreći na ruskom, veliki podaci su različiti alati, pristupi i metode za obradu strukturiranih i nestrukturiranih podataka kako bi se koristili za određene zadatke i svrhe.

Nestrukturirani podaci su informacije koje nemaju unaprijed određenu strukturu ili nisu organizirane određenim redoslijedom.

Pojam “veliki podaci” uveo je urednik časopisa Nature Clifford Lynch još 2008. godine u posebnom broju posvećenom eksplozivnom rastu količine informacija u svijetu. Iako su, naravno, veliki podaci postojali i prije. Prema stručnjacima, Big data kategorija uključuje većinu protoka podataka preko 100 GB dnevno.

Pročitajte također:

Danas se pod ovim jednostavnim pojmom kriju samo dvije riječi - pohrana i obrada podataka.

Big data - jednostavnim riječima

U suvremenom svijetu Big data je društveno-ekonomski fenomen koji se povezuje s činjenicom da su se pojavile nove tehnološke mogućnosti za analizu ogromne količine podataka.

Pročitajte također:

Radi lakšeg razumijevanja zamislite supermarket u kojem nije sva roba u redoslijedu na koji ste navikli. Kruh uz voće, pasta od rajčice uz smrznutu pizzu, tekućina za upaljače ispred stalka za tampone u kojoj se, između ostalog, nalaze avokado, tofu ili shiitake gljive. Veliki podaci stavljaju sve na svoje mjesto i pomažu vam da pronađete mlijeko od orašastih plodova, saznate cijenu i rok trajanja, ali i tko osim vas kupuje ovo mlijeko i zašto je bolje od kravljeg.

Kenneth Cukier: Veliki podaci su bolji podaci

Tehnologija velikih podataka

Obrađuju se ogromne količine podataka kako bi osoba dobila konkretne i potrebne rezultate za njihovu daljnju učinkovitu upotrebu.

Pročitajte također:

Zapravo, Big data je rješenje problema i alternativa tradicionalnim sustavima upravljanja podacima.

Tehnike i metode analize primjenjive na Big data prema McKinseyju:

rudarenje podataka;
Crowdsourcing;
Miješanje i integracija podataka;
Strojno učenje;
Umjetne neuronske mreže;
Prepoznavanje uzorka;
Prediktivna analitika;
Simulacijsko modeliranje;
Prostorna analiza;
Statistička analiza;
Vizualizacija analitičkih podataka.

Horizontalna skalabilnost koja omogućuje obradu podataka osnovni je princip obrade velikih podataka. Podaci se distribuiraju po računalnim čvorovima, a obrada se odvija bez degradacije performansi. McKinsey je također uključio sustave relacijskog upravljanja i Business Intelligence u kontekstu primjenjivosti.

Tehnologije:

NoSQL;
MapReduce;
Hadoop;
Hardverska rješenja.

Pročitajte također:

Za velike podatke postoje tradicionalne definirajuće karakteristike koje je razvila Meta Grupa još 2001. godine, a koje se nazivaju " Tri V»:

Volumen- količina fizičkog volumena.
Brzina- brzina rasta i potreba za brzom obradom podataka za dobivanje rezultata.
Raznolikost- sposobnost simultane obrade Različite vrste podaci.

Veliki podaci: primjene i mogućnosti

Tradicionalnim alatima nemoguće je obraditi količine heterogenih i brzo pristiglih digitalnih informacija. Sama analiza podataka omogućuje vam da vidite određene i neprimjetne obrasce koje osoba ne vidi. To nam omogućuje optimizaciju svih područja našeg života – od javne uprave do proizvodnje i telekomunikacija.

Primjerice, neke su tvrtke prije nekoliko godina zaštitile svoje klijente od prijevara, a brinuti se o novcu klijenta znači brinuti se o vlastitom novcu.

Susan Etliger: Što je s velikim podacima?

Rješenja temeljena na velikim podacima: Sberbank, Beeline i druge tvrtke

Beeline ima ogromnu količinu podataka o pretplatnicima, koje koriste ne samo za rad s njima, već i za izradu analitičkih proizvoda, poput vanjskog savjetovanja ili IPTV analitike. Beeline je segmentirao bazu podataka i zaštitio klijente od financijskih prijevara i virusa, koristeći HDFS i Apache Spark za pohranu, te Rapidminer i Python za obradu podataka.

Pročitajte također:

Ili se sjetimo Sberbanke s njihovim starim slučajem AS SAFI. Ovo je sustav koji analizira fotografije kako bi identificirao klijente banke i spriječio prijevaru. Sustav je uveden još 2014. godine, a temelji se na usporedbi fotografija iz baze podataka koje tamo stižu s web kamera na stalcima zahvaljujući računalnom vidu. Osnova sustava je biometrijska platforma. Zahvaljujući tome, slučajevi prijevara su se smanjili za 10 puta.

Veliki podaci u svijetu

Do 2020. godine, prema predviđanjima, čovječanstvo će generirati 40-44 zetabajta informacija. A do 2025. porast će 10 puta, navodi se u izvješću The Data Age 2025. koje su pripremili analitičari IDC-a. U izvješću se navodi da će većinu podataka generirati same tvrtke, a ne obični potrošači.

Istraživački analitičari vjeruju da će podaci postati vitalna imovina, a sigurnost ključni temelj u životu. Autori rada također su uvjereni da će tehnologija promijeniti ekonomski krajolik, i redoviti korisnik komunicirat će s povezanim uređajima oko 4800 puta dnevno.

Tržište velikih podataka u Rusiji

U 2017. bi globalni prihod na tržištu velikih podataka trebao doseći 150,8 milijardi dolara, što je 12,4% više nego prošle godine. Globalno rusko tržište Velike podatkovne usluge i tehnologije još su uvijek vrlo male. Američka tvrtka IDC 2014. procijenila ju je na 340 milijuna dolara, au Rusiji se tehnologija koristi u bankarstvu, energetici, logistici, javnom sektoru, telekomu i industriji.

Pročitajte također:

Što se tiče podatkovnog tržišta, ono je u Rusiji tek u nastajanju. Unutar RTB ekosustava, pružatelji podataka vlasnici su programskih platformi za upravljanje podacima (DMP) i razmjene podataka. Telekom operateri dijele informacije potrošača o potencijalnim zajmoprimcima s bankama u pilot načinu rada.

Veliki podaci obično dolaze iz tri izvora:

Internet (društvene mreže, forumi, blogovi, mediji i druge stranice);
Arhiva korporativnih dokumenata;
Očitavanja senzora, instrumenata i drugih uređaja.

Veliki podaci u bankama

Osim gore opisanog sustava, strategija Sberbanka za 2014.-2018. uključuje: govori o važnosti analize super podataka za kvalitetnu korisničku uslugu, upravljanje rizicima i optimizaciju troškova. Sada banka koristi Big data za upravljanje rizicima, borbu protiv prijevara, segmentiranje i procjenu kreditne sposobnosti klijenata, upravljanje osobljem, predviđanje redova u poslovnicama, izračun bonusa za zaposlenike i druge zadatke.

VTB24 koristi velike podatke za segmentiranje i upravljanje odljevima klijenata, generiranje financijskih izvješća i analizu recenzija na društvenim mrežama i forumima. U tu svrhu koristi rješenja Teradata, SAS Visual Analytics i SAS Marketing Optimizer.