Nagy adat. Big data a modern világban Mire használható a big data?

Az előrejelzések szerint a 2011-ben létrehozott és replikált adatok teljes globális mennyisége körülbelül 1,8 zettabájt (1,8 billió gigabájt) lehet – ez körülbelül 9-szer több, mint a 2006-ban keletkezett adat.

Bonyolultabb meghatározás

Azonban` nagy adat` többet jelent, mint hatalmas mennyiségű információ elemzését. A probléma nem az, hogy a szervezetek hatalmas mennyiségű adatot hoznak létre, hanem az, hogy ezek nagy része olyan formátumban jelenik meg, amely nem illeszkedik jól a hagyományos strukturált adatbázis-formátumhoz - webnaplók, videók, szöveges dokumentumok, gépi kód vagy például térinformatikai adatok. Mindezt sokféle adattárban tárolják, néha még a szervezeten kívül is. Ennek eredményeként a vállalatok hatalmas mennyiségű adathoz férhetnek hozzá, és nem szükséges eszközöket kapcsolatokat létesíteni ezen adatok között, és ezek alapján érdemi következtetéseket levonni. Ha ehhez hozzávesszük azt a tényt, hogy az adatokat egyre gyakrabban frissítik, akkor olyan helyzetet kapunk, amelyben az információelemzés hagyományos módszerei nem tudnak lépést tartani a folyamatosan frissülő hatalmas mennyiségű adattal, ami végső soron utat nyit a technológia előtt. nagy adat.

A legjobb meghatározás

Lényegében a koncepció nagy adat nagy mennyiségű és változatos összetételű, nagyon gyakran frissített és különböző forrásokból származó információkkal való munka a működési hatékonyság növelése, új termékek létrehozása és a versenyképesség növelése érdekében. A Forrester tanácsadó cég egy rövid megfogalmazást ad: ` Nagy adat olyan technikákat és technológiákat egyesít, amelyek értelmet vonnak ki az adatokból a gyakorlatiasság szélső határain.

Mekkora a különbség az üzleti elemzés és a big data között?

Craig Bathy, a Fujitsu Australia marketing ügyvezető igazgatója és technológiai igazgatója rámutatott, hogy az üzleti elemzés egy leíró folyamat, amely egy vállalkozás által meghatározott időn belül elért eredményeket, miközben a feldolgozási sebességet elemzi. nagy adat lehetővé teszi az elemzés előrejelzővé tételét, amely képes üzleti ajánlásokat kínálni a jövőre nézve. A big data technológiák több adattípus elemzését is lehetővé teszik, mint az üzleti intelligencia eszközök, ami lehetővé teszi, hogy a strukturált adattáraknál többre összpontosítsunk.

Matt Slocum az O'Reilly Radartól úgy véli, hogy bár nagy adatés az üzleti analitikának ugyanaz a célja (válasz keresése egy kérdésre), három szempontból különböznek egymástól.

A Big Data nagyobb mennyiségű információ kezelésére készült, mint az üzleti elemzés, és ez minden bizonnyal megfelel a big data hagyományos meghatározásának.
A Big Data gyorsabb, gyorsabban változó információk kezelésére készült, ami mélyreható feltárást és interaktivitást jelent. Egyes esetekben az eredmények gyorsabban generálódnak, mint a weboldal betöltése.
A Big Data olyan strukturálatlan adatok feldolgozására szolgál, amelyek felhasználásának módját csak akkor kezdjük felfedezni, ha már sikerült összegyűjteni és tárolni őket, és algoritmusokra és társalgási képességekre van szükségünk, hogy könnyebben megtaláljuk az ezekben az adatkészletekben található trendeket.

Az Oracle által kiadott "Oracle Information Architecture: An Architect's Guide to Big Data" című fehér könyv szerint a nagy adatokkal való munka során másképp közelítjük meg az információkat, mint az üzleti elemzések során.

A nagy adatokkal való munka nem olyan, mint a szokásos üzleti intelligencia folyamat, ahol az ismert értékek pusztán összeadása meghozza az eredményt: például a kifizetett számlák összeadásával az év értékesítése lesz. A nagy adatokkal való munka során az eredményt a szekvenciális modellezéssel történő tisztítás során kapjuk meg: először hipotézist állítunk fel, statisztikai, vizuális vagy szemantikai modellt építünk, amely alapján ellenőrizzük a feltett hipotézis pontosságát. , majd előkerül a következő. Ez a folyamat megköveteli a kutatótól, hogy vagy vizuális jelentéseket értelmezzen, vagy tudáson alapuló interaktív lekérdezéseket hozzon létre, vagy olyan adaptív "gépi tanulási" algoritmusokat dolgozzon ki, amelyek a kívánt eredményt hozhatják. Ráadásul egy ilyen algoritmus élettartama meglehetősen rövid is lehet.

Big data elemzési technikák

Számos különböző módszer létezik az adathalmazok elemzésére, amelyek statisztikából és számítástechnikából kölcsönzött eszközökön alapulnak (például gépi tanulás). A lista nem kíván teljesnek, de a különböző iparágak legnépszerűbb megközelítéseit tükrözi. Meg kell érteni, hogy a kutatók továbbra is új technikák létrehozásán és a meglévők javításán dolgoznak. Emellett a felsorolt technikák némelyike nem feltétlenül vonatkozik kizárólag nagy adatokra, és sikeresen alkalmazható kisebb tömbökhöz (például A/B tesztelés, regressziós elemzés). Természetesen minél terjedelmesebben és szerteágazóbban elemezzük a tömböt, annál pontosabb és relevánsabb adatok nyerhetők ezáltal.

A/B tesztelés. Olyan technika, amelyben a kontrollmintát felváltva hasonlítják össze másokkal. Így lehetséges a mutatók optimális kombinációja azonosítani, hogy például egy marketingajánlatra a fogyasztók a legjobb választ adják. Nagy adat lehetővé teszi nagyszámú iteráció végrehajtását, és így statisztikailag megbízható eredményt kaphat.

Társulási szabálytanulás. A kapcsolatok azonosításának technikáinak összessége, pl. nagy adathalmazok változói közötti asszociációs szabályokat. Használt adatbányászat.

Osztályozás. Olyan technikák összessége, amelyek lehetővé teszik a fogyasztói magatartás előrejelzését egy bizonyos piaci szegmensben (vásárlási döntések, lemorzsolódás, fogyasztási mennyiség stb.). Használt adatbányászat.

Klaszteranalízis. Statisztikai módszer az objektumok csoportokba sorolására olyan közös jellemzők azonosításával, amelyek előre nem ismertek. Használt adatbányászat.

Crowdsourcing. A nagyszámú forrásból származó adatgyűjtés módszertana.

Adatfúzió és adatintegráció. Olyan technikák készlete, amely lehetővé teszi a közösségi hálózatok felhasználóinak megjegyzéseinek elemzését, és valós időben történő összehasonlítását az értékesítési eredményekkel.

Adatbányászat. Olyan technikák összessége, amelyek lehetővé teszik a reklámozott termékre vagy szolgáltatásra leginkább fogékony fogyasztói kategóriák meghatározását, a legsikeresebb alkalmazottak jellemzőinek azonosítását és a fogyasztók viselkedési modelljének előrejelzését.

Együttes tanulás. Ez a módszer számos prediktív modellt használ, ezáltal javítva az előrejelzések minőségét.

Genetikai algoritmusok. Ebben a technikában lehetséges megoldások„kromoszómákként” ábrázolják, amelyek egyesülhetnek és mutálódnak. A természetes evolúció folyamatához hasonlóan a legrátermettebb egyén marad életben.

Gépi tanulás. Számítástechnikai irányzat (történelmileg „mesterséges intelligencia”), amely empirikus adatok elemzésén alapuló öntanuló algoritmusok létrehozását tűzi ki célul.

Természetes nyelvi feldolgozás (NLP). Az informatikából és a nyelvészetből kölcsönzött technikák összessége a természetes emberi nyelv felismerésére.

Hálózati elemzés. A hálózatok csomópontjai közötti kapcsolatok elemzésére szolgáló technikák halmaza. A közösségi hálózatokkal kapcsolatban lehetővé teszi az egyes felhasználók, vállalatok, közösségek stb. közötti kapcsolatok elemzését.

Optimalizálás. Numerikus módszerek készlete összetett rendszerek és folyamatok újratervezéséhez egy vagy több mérőszám javítása érdekében. Segíti a stratégiai döntések meghozatalát, például a piacra dobandó termékcsalád összetételét, befektetési elemzéseket stb.

Mintafelismerés. Öntanuló elemekkel rendelkező technikák összessége a fogyasztók viselkedési modelljének előrejelzésére.

Prediktív modellezés. Olyan technikák halmaza, amelyek lehetővé teszik az események előre meghatározott valószínű forgatókönyvének matematikai modelljének létrehozását. Például a CRM-rendszer adatbázisának elemzése olyan lehetséges feltételek után, amelyek szolgáltatóváltásra késztetik az előfizetőket.

Regresszió. Statisztikai módszerek halmaza egy függő változó változásai és egy vagy több független változó közötti minta azonosítására. Gyakran használják előrejelzésekhez és előrejelzésekhez. Adatbányászatban használják.

Érzelemelemzés. A fogyasztói hangulat felmérésének technikái a természetes nyelvfelismerő technológiákon alapulnak. Lehetővé teszik az érdeklődési témával (például fogyasztói termékkel) kapcsolatos üzenetek elkülönítését az általános információáramlástól. Ezután értékelje az ítélet polaritását (pozitív vagy negatív), az érzelmesség mértékét stb.

Jelfeldolgozás. A rádiótechnikától kölcsönzött technikák sorozata, amelynek célja egy jel felismerése a zaj háttérében és annak további elemzése.

Térbeli elemzés. Módszerkészlet téradatok elemzésére, részben statisztikából kölcsönzött - domborzati topológia, földrajzi koordináták, objektumok geometriája. Forrás nagy adat ilyenkor gyakran megjelennek földrajzi információs rendszerek(GIS).

Revolution Analytics (a matematikai statisztikák R nyelvén alapul).

Ebben a listában különösen érdekes az Apache Hadoop - szoftver nyílt forráskód, amelyet adatelemzőként tesztelt a legtöbb tőzsdekövető az elmúlt öt évben. Amint a Yahoo megnyitotta a Hadoop kódot a nyílt forráskódú közösség előtt, a Hadoop alapú termékek létrehozásának egész mozgalma azonnal megjelent az IT-iparban. Szinte minden modern elemző eszköz nagy adat Hadoop integrációs eszközöket biztosít. Fejlesztőik startupok és jól ismert világcégek egyaránt.

A Big Data Management Solutions piacai

Big Data Platformok (BDP, Big Data Platform) a digitális hording elleni küzdelem eszközeiként

Elemzési képesség nagy adat, köznyelvi nevén Big Data, előnyként érzékeljük, és egyértelműen. De ez tényleg így van? Mihez vezethet az adatok féktelen felhalmozása? Valószínűleg az, amit a hazai pszichológusok az emberekkel kapcsolatban kóros felhalmozásnak, szillogomániának vagy átvitt értelemben „Plyuskin-szindrómának” neveznek. Angolul a mindent összegyűjteni való ördögi szenvedélyt hordingnak nevezik (az angol hoard - „stock” szóból). A mentális betegségek osztályozása szerint a hordást a mentális zavarok közé sorolják. A digitális korszakban a digitális felhalmozás hozzáadódik a hagyományos anyaghordozáshoz, amely egyéneket és teljes vállalkozásokat és szervezeteket egyaránt érinthet ().

Világ- és orosz piac

Big data Landscape - Fő beszállítók

Érdeklődés a gyűjtési, feldolgozási, kezelési és elemzési eszközök iránt nagy adat Szinte az összes vezető IT-cég megmutatta ezt, ami teljesen természetes. Először is közvetlenül találkoznak ezzel a jelenséggel saját vállalkozásukban, másodszor nagy adat kiváló lehetőségeket nyit új piaci rések kialakítására és új ügyfelek vonzására.

Számos startup jelent meg a piacon, amelyek hatalmas mennyiségű adat feldolgozásával üzletelnek. Némelyikük kész felhőinfrastruktúrát használ olyan nagy szereplőktől, mint az Amazon.

A Big Data elmélete és gyakorlata az iparágakban

Fejlődéstörténet

2017

TmaxSoft előrejelzés: a Big Data következő „hulláma” megköveteli a DBMS korszerűsítését

A vállalatok tudják, hogy az általuk felhalmozott hatalmas mennyiségű adat tartalmaz fontos információüzletükről és ügyfeleikről. Ha egy vállalat sikeresen tudja alkalmazni ezeket az információkat, akkor jelentős előnnyel rendelkezik versenytársaival szemben, és jobb termékeket és szolgáltatásokat tud majd kínálni, mint az övék. Sok szervezet azonban még mindig nem tudja hatékonyan használni nagy adat amiatt, hogy örökölt informatikai infrastruktúrájuk nem tudja biztosítani a nagy mennyiségű strukturálatlan adat feldolgozásához és elemzéséhez szükséges tárolókapacitást, adatcsere-folyamatokat, segédprogramokat és alkalmazásokat, hogy azokból értékes információkat nyerjenek ki – jelezte a TmaxSoft.

Ezenkívül az egyre növekvő adatmennyiség elemzéséhez szükséges megnövekedett feldolgozási teljesítmény jelentős befektetést igényelhet a szervezet régi IT-infrastruktúrájába, valamint további karbantartási erőforrásokat igényelhet, amelyek új alkalmazások és szolgáltatások fejlesztésére használhatók fel.

2015. február 5-én a Fehér Ház kiadott egy jelentést, amely megvitatta, hogyan használják a vállalatok a " nagy adat» különböző árakat számítani fel a különböző ügyfeleknek, ez a gyakorlat „árdiszkrimináció” vagy „személyre szabott árképzés”. A jelentés leírja a big data előnyeit mind az eladók, mind a vevők számára, és a szerzők arra a következtetésre jutottak, hogy a big data és a differenciált árképzés által felvetett számos probléma megoldható a meglévő diszkriminációellenes törvényekkel és szabályozásokkal.

A jelentés megjegyzi, hogy jelenleg csak anekdotikus bizonyítékok vannak arra vonatkozóan, hogy a vállalatok hogyan használják fel a big data-okat a személyre szabott marketing és a differenciált árképzés összefüggésében. Ez az információ azt mutatja, hogy az eladók olyan árképzési módszereket alkalmaznak, amelyek három kategóriába sorolhatók:

a keresleti görbe tanulmányozása;
Demográfiai adatokon alapuló irányítás és differenciált árképzés; És
célzott viselkedési marketing (behavioral targeting) és személyre szabott árképzés.

A keresleti görbe tanulmányozása: A kereslet meghatározása és a fogyasztói magatartás tanulmányozása érdekében a marketingszakemberek gyakran végeznek kísérleteket ezen a területen, ahol a vásárlókat véletlenszerűen besorolják a két lehetséges árkategória valamelyikébe. „Technikailag ezek a kísérletek a differenciált árképzés egy formáját jelentik, mert eltérő árakat eredményeznek az ügyfelek számára, még akkor is, ha „nem diszkriminatívak” abban az értelemben, hogy minden vásárlónak azonos a valószínűsége, hogy magasabb árat „küldenek” rá.”

Kormányzás: Ez az a gyakorlat, amikor a termékeket egy adott demográfiai csoporthoz való tartozásuk alapján mutatják be a fogyasztóknak. Például egy számítástechnikai cég webhelye ugyanazt a laptopot kínálhatja különböző típusú ügyfeleknek különböző áron, attól függően, hogy milyen információkat adnak meg magukról (például attól függően, hogy ezt a felhasználót kormányzati szervek, tudományos vagy kereskedelmi intézmények képviselője vagy magánszemély) vagy földrajzi helyükről (például egy számítógép IP-címe alapján).

Célzott viselkedésalapú marketing és személyre szabott árképzés: Ezekben az esetekben az ügyfelek személyes adatait a hirdetések célzására és bizonyos termékek árának testreszabására használjuk. Például az online hirdetők összegyűjtik hirdetési hálózatok valamint harmadik féltől származó cookie-kon keresztül a felhasználói tevékenységre vonatkozó adatok az interneten, célzott reklámanyagok küldése érdekében. Ez a megközelítés egyrészt lehetővé teszi a fogyasztók számára, hogy az őket érdeklő áruk és szolgáltatások reklámjait kapják, ugyanakkor aggodalomra adhat okot azon fogyasztók számára, akik bizonyos típusú személyes adataikat (például a webhelyek látogatásával kapcsolatos információkat) nem akarják egészségügyi és pénzügyi ügyekhez kapcsolódó) hozzájárulásuk nélkül gyűjtötték össze.

Bár a célzott viselkedésalapú marketing elterjedt, az online környezetben viszonylag kevés bizonyíték van a személyre szabott árképzésre. A jelentés azt feltételezi, hogy ennek az lehet az oka, hogy a módszerek még kidolgozás alatt állnak, vagy azért, mert a vállalatok vonakodnak az egyedi árazástól (vagy inkább hallgatnak róla) – talán tartanak a fogyasztók visszahatásától.

A jelentés szerzői azt sugallják, hogy "az egyéni fogyasztó számára a big data használata egyértelműen potenciális hasznot és kockázatot jelent." A jelentés elismeri, hogy a big data átláthatósági és diszkriminációs problémákat vet fel, de amellett érvel, hogy a meglévő diszkriminációellenes és fogyasztóvédelmi törvények elegendőek ezek megoldására. A jelentés ugyanakkor rámutat a „folyamatos felügyelet” szükségességére is, amikor a vállalatok az érzékeny információkat nem átlátható módon vagy a meglévő szabályozási keretek által nem szabályozott módon használják fel.

Ez a jelentés folytatja a Fehér Ház arra irányuló erőfeszítéseit, hogy megvizsgálja a big data használatát és a diszkriminatív árakat az interneten, és ennek az amerikai fogyasztókra gyakorolt következményeit. Korábban arról számoltak be munkacsoport A Fehér Ház Big Data Office 2014 májusában tette közzé jelentését erről a kérdésről. A Szövetségi Kereskedelmi Bizottság (FTC) is foglalkozott ezekkel a kérdésekkel a big data diszkriminációval foglalkozó 2014. szeptemberi workshopján.

2014

A Gartner eloszlatja a Big Data-ról szóló mítoszokat

A Gartner 2014. őszi kutatási feljegyzése számos, az IT-vezetők körében elterjedt Big Data-mítoszt sorol fel, és cáfolatokkal szolgál ezekre.

Mindenki gyorsabban implementálja a Big Data feldolgozó rendszereket, mint mi

A Big Data technológiák iránti érdeklődés történelmi csúcson van: a Gartner elemzői által idén megkérdezett szervezetek 73%-a már befektet vagy tervez ilyeneket. A legtöbb ilyen kezdeményezés azonban még nagyon korai szakaszban van, és a válaszadók mindössze 13%-a vezetett már be ilyen megoldásokat. A legnehezebb eldönteni, hogyan lehet bevételt nyerni a Big Data-ból, és eldönteni, hol kezdjem. Sok szervezet elakad a kísérleti szakaszban, mert nem tud elköteleződni új technológia konkrét üzleti folyamatokhoz.

Annyi adatunk van, hogy nem kell aggódni az apró hibák miatt

Egyes IT-menedzserek úgy vélik, hogy a kis adathibák nem befolyásolják a hatalmas mennyiségek elemzésének általános eredményeit. Ha sok az adat, akkor minden egyes hiba valójában kevésbé befolyásolja az eredményt, jegyzik meg az elemzők, de maguk a hibák is egyre szaporodnak. Ráadásul az elemzett adatok nagy része külső, ismeretlen szerkezetű vagy eredetű, így nő a hibák valószínűsége. Tehát a Big Data világában a minőség valójában sokkal fontosabb.

A Big Data technológiák megszüntetik az adatintegráció szükségességét

A Big Data azt ígéri, hogy az adatokat az eredeti formátumban dolgozzák fel, az olvasás közbeni automatikus sémagenerálással. Úgy gondolják, hogy ez lehetővé teszi az azonos forrásból származó információk több adatmodell segítségével történő elemzését. Sokan úgy vélik, hogy ez lehetővé teszi a végfelhasználók számára, hogy bármilyen adatkészletet saját belátásuk szerint értelmezzenek. A valóságban a legtöbb felhasználó gyakran a hagyományos módszert szeretné egy kész sémával, ahol az adatok megfelelően vannak formázva, és megállapodások vannak az információ integritásának szintjéről és arról, hogy az hogyan kapcsolódjon a használati esethez.

Nincs értelme adattárházakat használni összetett elemzésekhez

Sok információkezelő rendszer-adminisztrátor úgy véli, hogy nincs értelme adattárház létrehozására fordítani az időt, tekintettel erre a komplexumra elemző rendszerekúj adattípusokat használjon. Valójában sok összetett analitikai rendszer adattárházból származó információkat használ fel. Más esetekben új típusú adatokat kell kiegészítőleg előkészíteni a Big Data feldolgozó rendszerekben történő elemzéshez; döntést kell hozni az adatok alkalmasságáról, az összesítés elveiről és a szükséges minőségi szintről - ilyen előkészítés a raktáron kívül is előfordulhat.

Az adattárházak helyébe adattók lépnek

A valóságban a szállítók félrevezetik az ügyfeleket azáltal, hogy az adatforrásokat a tárolás helyettesítőjeként vagy az elemzési infrastruktúra kritikus elemeiként helyezik el. Az alapul szolgáló Data Lake-technológiákból hiányzik a raktárakban található funkciók érettsége és szélessége. Ezért az adatkezelésért felelős vezetőknek meg kell várniuk, amíg a tavak azonos fejlettségi szintet érnek el a Gartner szerint.

Accenture: A big data rendszereket implementálók 92%-a elégedett az eredménnyel

A válaszadók a big data fő előnyei közé sorolták:

„új bevételi források keresése” (56%),
„ügyfélélmény javítása” (51%),
„új termékek és szolgáltatások” (50%) ill
„új ügyfelek beáramlása és a régiek hűségének megőrzése” (47%).

Az új technológiák bevezetésekor sok vállalat szembesül hagyományos problémákkal. 51%-nál a biztonság, 47%-nál a költségvetés, 41%-nál a szükséges munkaerő hiánya, 35%-uknál pedig a beilleszkedés nehézségei jelentették a buktatót. meglévő rendszer. Szinte minden megkérdezett cég (kb. 91%) azt tervezi, hogy hamarosan megoldja a létszámhiány problémáját, és big data szakembereket alkalmaz.

A vállalatok optimisták a big data technológiák jövőjét illetően. A válaszadók 89%-a úgy gondolja, hogy ugyanolyan mértékben megváltoztatja az üzletet, mint az internet. A válaszadók 79%-a megjegyezte, hogy azok a cégek, amelyek nem foglalkoznak big data-okkal, elveszítik versenyelőnyüket.

A válaszadók azonban nem értenek egyet azzal kapcsolatban, hogy pontosan mit is kell nagy adatnak tekinteni. A válaszadók 65%-a úgy gondolja, hogy ezek „nagy adatfájlok”, 60%-uk úgy véli, hogy ez „fejlett analitika és elemzés”, 50% pedig úgy véli, hogy ez „adatvizualizációs eszközök”.

Madrid 14,7 millió eurót költ big data kezelésére

2014 júliusában vált ismertté, hogy Madrid big data technológiákat használ a városi infrastruktúra kezelésére. A projekt költsége 14,7 millió euró, a megvalósított megoldások alapját a big data elemzésére és kezelésére szolgáló technológiák képezik. Segítségükkel a városvezetés az egyes szolgáltatókkal való munkát irányítja, és a szolgáltatások színvonalától függően ennek megfelelően fizet.

Adminisztrációs vállalkozókról van szó, akik figyelemmel kísérik az utcák, a világítás, az öntözés, a zöldfelületek állapotát, megtisztítják a területet és elszállítják, valamint a hulladék újrahasznosítását. A projekt során a városi szolgáltatások 300 kulcsfontosságú teljesítménymutatóját dolgozták ki a speciálisan kijelölt ellenőrök számára, amelyek alapján naponta 1,5 ezer különféle ellenőrzést és mérést végeznek el. Ezenkívül a város elkezdi használni a Madrid iNTeligente (MiNT) - Smarter Madrid nevű innovatív technológiai platformot.

2013

Szakértők: A Big Data divat

Kivétel nélkül az adatkezelési piac összes szállítója jelenleg fejleszti a Big Data kezeléséhez szükséges technológiákat. Ezt az új technológiai irányzatot a szakmai közösség is aktívan vitatja, mind a fejlesztők, mind az iparági elemzők és az ilyen megoldások potenciális fogyasztói.

Amint a Datashift megtudta, 2013 januárjától megbeszélések hulláma zajlott a „ nagy adat"meghaladt minden elképzelhető méretet. A közösségi hálózatokon a Big Data említések számának elemzése után a Datashift kiszámította, hogy 2012-ben a kifejezést körülbelül 2 milliárd alkalommal használták a világ mintegy 1 millió különböző szerzője által létrehozott bejegyzésekben. Ez óránként 260 bejegyzésnek felel meg, óránként 3070 megemlítéssel.

Gartner: Minden második informatikai igazgató kész pénzt költeni Big Data-ra

A Big data technológiákkal való több éves kísérletezés és a 2013-as első implementációk után az ilyen megoldások adaptációja jelentősen megnő majd – jósolja a Gartner. A kutatók felmérést végeztek az IT vezetőknél szerte a világon, és azt találták, hogy a válaszadók 42%-a már fektetett be Big Data technológiákba, vagy tervez ilyen beruházást a következő éven belül (2013 márciusi adatok).

A vállalatok kénytelenek pénzt költeni a feldolgozási technológiákra nagy adat, mivel az információs környezet gyorsan változik, ami új megközelítéseket igényel az információfeldolgozásban. Sok vállalat már felismerte, hogy a nagy mennyiségű adat kritikus fontosságú, és az ezekkel való munka lehetővé teszi számukra, hogy olyan előnyöket érjenek el, amelyek a hagyományos információforrások és feldolgozási módszerek segítségével nem érhetők el. Emellett a „big data” témájának folyamatos vita a médiában felkelti az érdeklődést a releváns technológiák iránt.

Frank Buytendijk, a Gartner alelnöke még arra is felszólította a vállalatokat, hogy mérsékeljék erőfeszítéseiket, mivel egyesek attól tartanak, hogy lemaradnak a versenytársaktól a Big Data alkalmazásában.

„Nem kell aggódni, a big data technológiákon alapuló ötletek megvalósításának lehetőségei gyakorlatilag végtelenek” – mondta.

A Gartner előrejelzése szerint 2015-re a Global 1000 vállalatainak 20%-a az „információs infrastruktúrára” fog összpontosítani.

A big data feldolgozó technológiák által kínált új lehetőségekre számítva sok szervezet már megszervezi a különféle típusú információk gyűjtésének és tárolásának folyamatát.

Az oktatási és kormányzati szervezetek, valamint az ipari vállalatok számára az üzleti átalakulás legnagyobb potenciálja a felhalmozott adatok és az úgynevezett sötét adatok (szó szerint „sötét adatok”) kombinációjában rejlik, ez utóbbi magában foglalja az üzeneteket. Email, multimédiás és más hasonló tartalom. A Gartner szerint az adatversenyben azok lesznek a győztesek, akik megtanulnak bánni a különféle információforrásokkal.

Cisco felmérés: A Big Data segít növelni az informatikai költségvetést

A 2013. tavaszi Cisco Connected World Technology Report, amelyet 18 országban készített az InsightExpress független kutatócég, 1800 főiskolai hallgatót és ugyanennyi 18 és 30 év közötti fiatal szakembert kérdeztek meg. A felmérést az informatikai részlegek projektmegvalósítási felkészültségének felmérésére végezték Nagy adatés betekintést nyerhet az ilyen projektek kihívásaiba, technológiai hiányosságaiba és stratégiai értékébe.

A legtöbb cég adatokat gyűjt, rögzít és elemzik. A jelentés szerint azonban sok vállalat számos összetett üzleti és információs technológiai kihívással néz szembe a Big Data kapcsán. A válaszadók 60 százaléka például elismeri, hogy a Big Data megoldások javíthatják a döntéshozatali folyamatokat és növelhetik a versenyképességet, de csak 28 százalékuk mondta azt, hogy a felhalmozott információkból már most is valódi stratégiai hasznot húz.

A megkérdezett informatikai vezetők több mint fele úgy gondolja, hogy a Big Data projektek hozzájárulnak szervezetük informatikai költségvetésének növeléséhez, mivel megnövekszik a technológiai, a személyzeti és a szakmai készségek iránti igény. Ugyanakkor a válaszadók több mint fele arra számít, hogy az ilyen projektek már 2012-től növelni fogják cégeik informatikai költségvetését. 57 százalékuk biztos abban, hogy a Big Data növelni fogja költségvetését a következő három évben.

A válaszadók 81 százaléka azt mondta, hogy minden (vagy legalábbis néhány) Big Data projekthez szükség lesz felhő alapú számítástechnika. Így a terjedés felhő technológiák hatással lehet a Big Data megoldások elterjedésének arányára és ezeknek a megoldásoknak az üzleti értékére.

A cégek a legtöbbről gyűjtenek és használnak adatokat különböző típusok, strukturált és strukturálatlan egyaránt. A felmérés résztvevői az alábbi forrásokból kapják adataikat (Cisco Connected World Technology Report):

Az informatikai vezetők közel fele (48 százaléka) azt jósolja, hogy hálózata terhelése megduplázódik a következő két évben. (Ez különösen igaz Kínára, ahol a válaszadók 68 százaléka osztja ezt a nézetet, Németországban pedig 60 százaléka). A válaszadók 23 százaléka arra számít, hogy a hálózat terhelése megháromszorozódik a következő két évben. Ugyanakkor a válaszadók mindössze 40 százaléka nyilatkozott úgy, hogy kész a hálózati forgalom robbanásszerű növekedésére.

A válaszadók 27 százaléka elismerte, hogy jobb IT-politikákra és információbiztonsági intézkedésekre van szüksége.

21 százalékának nagyobb sávszélességre van szüksége.

A Big Data új lehetőségeket nyit meg az IT-részlegek számára, hogy hozzáadott értéket és erős kapcsolatokat építsenek ki az üzleti egységekkel, lehetővé téve számukra a bevétel növelését és a vállalat pénzügyi helyzetének megerősítését. A Big Data projektek az IT-részlegeket az üzleti részlegek stratégiai partnerévé teszik.

A válaszadók 73 százaléka szerint az IT részleg lesz a Big Data stratégia megvalósításának fő mozgatórugója. A válaszadók ugyanakkor úgy vélik, hogy más osztályok is részt vesznek e stratégia megvalósításában. Ez mindenekelőtt a pénzügyi (a válaszadók 24 százaléka), a kutatás-fejlesztési (20 százalék), az üzemeltetési (20 százalék), a mérnöki (19 százalék), valamint a marketing (15 százalék) és az értékesítési osztályokat érinti. 14 százalék).

Gartner: Új munkahelyek millióira van szükség a big data kezeléséhez

A globális IT-kiadások 2013-ra elérik a 3,7 milliárd dollárt, ami 3,8%-kal több, mint 2012-ben az információtechnológiára fordított kiadások (az év végi előrejelzés 3,6 milliárd dollár). Szegmens nagy adat(big data) sokkal gyorsabb ütemben fog fejlődni, mondja a Gartner jelentés.

2015-re 4,4 millió munkahely jön létre az információtechnológiában a big data kiszolgálására, ebből 1,9 millió munkahely lesz . Ráadásul mindegyik munkahely az IT szektoron kívül további három munkahely létrehozását vonja maga után, így csak az Egyesült Államokban a következő négy évben 6 millió ember fog az információs gazdaság támogatásán dolgozni.

A Gartner szakértői szerint a fő probléma az, hogy ehhez nincs elég tehetség az iparágban: sem a magán-, sem az állami oktatási rendszer, például az Egyesült Államokban nem képes elegendő számú képzett munkaerővel ellátni az ipart. . Az említett új informatikai állások közül tehát csak minden harmadikban lesz alkalmazott.

Az elemzők úgy vélik, hogy a képzett IT-személyzet gondozásának szerepét közvetlenül azoknak a cégeknek kell vállalniuk, amelyeknek sürgősen szükségük van rájuk, hiszen az ilyen munkavállalók belépőjegyet jelentenek a jövő új információs gazdaságába.

2012

Az első szkepticizmus a "Big Data" kapcsán

Az Ovum és a Gartner elemzői azt sugallják, hogy egy divatos témához 2012-ben nagy adat Eljöhet az idő, hogy megszabadulj az illúzióktól.

A „Big Data” kifejezés jelenleg jellemzően a közösségi médiából, szenzorhálózatokból és más forrásokból online áramló információ egyre növekvő mennyiségére, valamint az adatok feldolgozására és az üzleti szempontból releváns adatok azonosítására használt eszközök egyre növekvő körére vonatkozik. -trendek.

„A big data ötlete körüli felhajtás miatt (vagy annak ellenére) a gyártók 2012-ben nagy reménnyel tekintettek erre a trendre” – mondta Tony Bayer, az Ovum elemzője.

A Bayer arról számolt be, hogy a DataSift retrospektív elemzést végzett a big data említéseiről

A big data tág fogalom a nem szokványos stratégiákra és technológiákra, amelyek a nagy adathalmazokból származó információk összegyűjtéséhez, rendszerezéséhez és feldolgozásához szükségesek. Bár az egyetlen számítógép feldolgozási vagy tárolási kapacitását meghaladó adatokkal való munka kihívása nem új keletű, az utóbbi években jelentősen bővült az ilyen típusú számítástechnika hatóköre és értéke.

Ez a cikk végigvezeti Önt azokon az alapfogalmakon, amelyekkel a big data feltárása során találkozhat. Ezenkívül tárgyal néhány olyan folyamatot és technológiát, amelyet jelenleg használnak ezen a területen.

Mi az a big data?

A „nagy adat” pontos meghatározását nehéz megfogalmazni, mivel a projektek, szállítók, gyakorlati szakemberek és üzleti szakemberek nagyon eltérő módon használják. Ezt szem előtt tartva a big data a következőképpen definiálható:

Nagy adathalmazok.
A nagy adathalmazok feldolgozására használt számítási stratégiák és technológiák kategóriája.

Ebben az összefüggésben a „nagy adatkészlet” olyan adathalmazt jelent, amely túl nagy ahhoz, hogy hagyományos eszközökkel vagy egyetlen számítógépen feldolgozható vagy tárolható legyen. Ez azt jelenti, hogy a nagy adatkészletek általános léptéke folyamatosan változik, és esetenként jelentősen változhat.

Big Data Systems

A big data kezelésének alapvető követelményei ugyanazok, mint bármely más adatkészlet esetében. A folyamat minden lépésében tapasztalható hatalmas méret, feldolgozási sebesség és adatjellemzők azonban jelentős új kihívások elé állítják az eszközfejlesztést. A legtöbb big data rendszer célja nagy mennyiségű heterogén adat megértése és kommunikációja, ami hagyományos módszerekkel nem lenne lehetséges.

2001-ben a Gartner munkatársa, Doug Laney bevezette a „big data három V-jét”, hogy leírjon néhány olyan jellemzőt, amelyek megkülönböztetik a nagy adatfeldolgozást az egyéb típusú adatfeldolgozásoktól:

Kötet (adatmennyiség).
Sebesség (adatgyűjtési és -feldolgozási sebesség).
Változatosság (a feldolgozott adatok különféle típusai).

Adatmennyiség

A feldolgozott információk puszta léptéke segít meghatározni a nagy adatrendszereket. Ezek az adatkészletek nagyságrendekkel nagyobbak lehetnek, mint a hagyományos adatkészletek, és nagyobb figyelmet igényelnek a feldolgozás és tárolás minden szakaszában.

Mivel az igények meghaladják egyetlen számítógép képességeit, gyakran felmerül a számítógépcsoportok erőforrásainak egyesítése, elosztása és koordinálása. A fürtkezelés és a feladatokat kisebb részekre bontó algoritmusok egyre fontosabbá válnak ezen a területen.

Felhalmozási és feldolgozási sebesség

A második jellemző, amely jelentősen megkülönbözteti a big data-ot a többi adatrendszertől, az a sebesség, amellyel az információ áthalad a rendszeren. Az adatok gyakran több forrásból kerülnek be a rendszerbe, és valós időben kell feldolgozni a rendszer aktuális állapotának frissítéséhez.

Ez a hangsúly az azonnali Visszacsatolás sok gyakorlót arra kényszerítettek, hogy felhagyjanak a csomagorientált megközelítéssel, és a valós idejű streaming rendszert részesítsék előnyben. Az adatok folyamatos hozzáadása, feldolgozása és elemzése történik, hogy lépést tudjunk tartani a beáramlással új információés értékes betekintést nyerhet korán, amikor az a legrelevánsabb. Ehhez robusztus rendszerekre van szükség nagy rendelkezésre állású komponensekkel, amelyek védelmet nyújtanak az adatfolyam mentén fellépő hibák ellen.

Különféle feldolgozott adattípusok

A feldolgozott források széles köre és viszonylagos minősége miatt számos egyedi kihívás áll a big data területén.

Az adatok származhatnak belső rendszerekből, például alkalmazás- és szervernaplókból, közösségi média csatornákból és más külső API-kból, érzékelőkből fizikai eszközökés más forrásokból. A big data rendszerek célja a potenciálisan hasznos adatok feldolgozása, származástól függetlenül, az összes információ egyetlen rendszerbe történő összevonásával.

A médiaformátumok és -típusok is jelentősen eltérhetnek. A médiafájlok (képek, videók és hangok) kombinálva vannak szöveges fájlok, strukturált naplók stb. A hagyományosabb adatfeldolgozó rendszerek elvárják, hogy az adatok már címkézve, formázottan és rendszerezve kerüljenek be a folyamatba, de a big data rendszerek jellemzően feldolgozzák és tárolják az adatokat, hogy megkíséreljék megőrizni azokat. a kezdeti állapot. Ideális esetben a nyers adatok bármilyen átalakítása vagy változása a memóriában történik a feldolgozás során.

Egyéb jellemzők

Idővel a szakemberek és a szervezetek az eredeti „három V” kiterjesztését javasolták, bár ezek az újítások inkább a problémákat írják le, semmint a big data jellemzőit.

Igazság: A források sokfélesége és a feldolgozás összetettsége problémákhoz vezethet az adatok minőségének (és így az eredményül kapott elemzés minőségének) értékelésében.
Változékonyság: Az adatok változásai nagy eltéréseket okoznak a minőségben. További erőforrásokra lehet szükség az alacsony minőségű adatok azonosításához, feldolgozásához vagy szűréséhez az adatminőség javítása érdekében.
Érték: A big data végső célja az érték. Néha a rendszerek és folyamatok nagyon összetettek, megnehezítve az adatok felhasználását és a tényleges értékek kinyerését.

Big Data életciklus

Tehát valójában hogyan dolgozzák fel a nagy adatokat? Több is van különböző megközelítések megvalósításához, de vannak közös vonások a stratégiákban és a szoftverekben.

Adatok bevitele a rendszerbe
Adatok mentése a tárhelyre
Adatszámítás és -elemzés
Az eredmények vizualizálása

Mielőtt részletesen megvizsgálnánk a munkafolyamatok e négy kategóriáját, beszéljünk a fürt számítástechnikáról, amely számos big data eszköz által használt fontos stratégia. A számítástechnikai fürt létrehozása az életciklus minden szakaszában használt alapvető technológia.

Klaszter számítástechnika

A big data minősége miatt az egyes számítógépek nem alkalmasak az adatok feldolgozására. A klaszterek erre alkalmasabbak, mivel képesek kezelni a big data tárolási és számítási igényeit.

A nagy adatfürtöző szoftver számos kis gép erőforrásait egyesíti, és számos előnnyel kíván szolgálni:

Erőforrás-készletezés: A nagy adatkészletek feldolgozása nagy mennyiségű CPU- és memóriaerőforrást, valamint sok rendelkezésre álló tárhelyet igényel.
Magas rendelkezésre állás: A fürtök különböző szintű hibatűrést és rendelkezésre állást biztosíthatnak, így a hardver- vagy szoftverhibák nem befolyásolják az adatok elérését és feldolgozását. Ez különösen fontos a valós idejű elemzéshez.
Skálázhatóság: a fürtök támogatják a gyors vízszintes skálázást (új gépek hozzáadása a fürthöz).

A fürtben való munkavégzéshez eszközökre van szükség a fürttagság kezeléséhez, az erőforrás-elosztás koordinálásához és az egyes csomópontokkal való munka ütemezéséhez. A fürttagság és az erőforrás-elosztás olyan programokkal kezelhető, mint a Hadoop YARN (Yet Another Resource Negotiator) vagy az Apache Mesos.

Az előre gyártott számítástechnikai fürt gyakran gerincként működik, amellyel más számítógépek kölcsönhatásba lépnek az adatok feldolgozásához. szoftver. A számítási fürtben részt vevő gépek általában egy elosztott tárolórendszer kezeléséhez is kapcsolódnak.

Adatok fogadása

Az adatbevitel a nyers adatok rendszerhez való hozzáadásának folyamata. Ennek a műveletnek a bonyolultsága nagyban függ az adatforrások formátumától és minőségétől, valamint attól, hogy az adatok mennyire felelnek meg a feldolgozás követelményeinek.

Speciális eszközök segítségével nagyméretű adatokat adhat hozzá a rendszerhez. Az olyan technológiák, mint az Apache Sqoop, átvehetik a meglévő adatokat relációs adatbázisokból, és hozzáadhatják egy nagy adatrendszerhez. Használhatja az Apache Flume-ot és az Apache Chukwa-t is – az alkalmazás- és szervernaplók összesítésére és importálására tervezett projekteket. Az olyan üzenetközvetítők, mint az Apache Kafka, interfészként használhatók a különféle adatgenerátorok és egy nagy adatrendszer között. Az olyan keretrendszerek, mint a Gobblin, kombinálhatják és optimalizálhatják az összes eszköz kimenetét a folyamat végén.

Az adatfelvétel során általában elemzésre, válogatásra és címkézésre kerül sor. Ezt a folyamatot néha ETL-nek is nevezik (extract, transform, load), ami a kivonat, transzformáció és betöltés rövidítése. Bár ez a kifejezés általában az örökölt adattárházi folyamatokra utal, néha nagy adatrendszerekre alkalmazzák. A tipikus műveletek közé tartozik a bejövő adatok módosítása formázáshoz, kategorizálás és címkézés, szűrés vagy az adatok megfelelőségi ellenőrzése.

Ideális esetben a fogadott adatok minimális formázáson esnek át.

Adattárolás

A beérkezés után az adatok átkerülnek a tárolót kezelő összetevőkhöz.

Általában elosztott fájlrendszereket használnak nyers adatok tárolására. Az Apache Hadoop HDFS-hez hasonló megoldásai lehetővé teszik nagy mennyiségű adat írását egy fürt több csomópontjára. Ez a rendszer számítási erőforrásokhoz biztosít hozzáférést az adatokhoz, adatokat tölthet be a fürt RAM-jába memóriaműveletekhez, és kezelheti az összetevők hibáit. A HDFS helyett más elosztott fájlrendszerek is használhatók, például a Ceph és a GlusterFS.

Az adatok más elosztott rendszerekbe is importálhatók a strukturáltabb hozzáférés érdekében. Az elosztott adatbázisok, különösen a NoSQL adatbázisok kiválóan alkalmasak erre a szerepkörre, mert képesek heterogén adatokat kezelni. Sokféle típus létezik elosztott adatbázisok adatok, a választás attól függ, hogyan szeretné rendszerezni és bemutatni az adatokat.

Adatszámítás és -elemzés

Amint az adatok rendelkezésre állnak, a rendszer megkezdheti a feldolgozást. A számítási réteg a rendszer talán legszabadabb része, hiszen itt a követelmények és megközelítések az információ típusától függően jelentősen eltérhetnek. Az adatokat gyakran ismételten dolgozzák fel, akár egyetlen eszközzel, akár több eszköz használatával különböző típusú adatok feldolgozásához.

A kötegelt feldolgozás a nagy adathalmazok számításának egyik módja. Ez a folyamat magában foglalja az adatok kisebb részekre bontását, az egyes részek külön gépen történő feldolgozási ütemezését, az adatok átrendezését a köztes eredmények alapján, majd a végeredmény kiszámítását és összegyűjtését. Az Apache Hadoop MapReduce ezt a stratégiát használja. A kötegelt feldolgozás akkor a leghasznosabb, ha nagyon nagy adathalmazokkal dolgozik, amelyek meglehetősen sok számítást igényelnek.

Más munkaterhelések valós idejű feldolgozást igényelnek. Az információkat azonban azonnal fel kell dolgozni és elő kell készíteni, és a rendszernek kellő időben reagálnia kell, ha új információ válik elérhetővé. A valós idejű feldolgozás megvalósításának egyik módja egy folyamatos adatfolyam feldolgozása, amely a következőkből áll egyedi elemek. Másik Általános jellemzők A valós idejű processzorok a fürtmemóriában számítják ki az adatokat, elkerülve a lemezre írást.

Apache Storm, Apache Flink és Apache Spark ajánlat különböző módokon valós idejű feldolgozás megvalósítása. Ezek a rugalmas technológiák lehetővé teszik, hogy minden egyes problémára a legjobb megközelítést válassza. Általánosságban elmondható, hogy a valós idejű feldolgozás a legalkalmasabb a rendszerhez gyorsan változó vagy gyorsan hozzáadott kis adatok elemzésére.

Mindezek a programok keretek. Azonban sok más módszer is létezik az adatok kiszámítására vagy elemzésére egy big data rendszerben. Ezek az eszközök gyakran csatlakoznak a fenti keretrendszerekhez, és további interfészeket biztosítanak a mögöttes rétegekkel való interakcióhoz. Például az Apache Hive adattárházi felületet biztosít a Hadoop számára, az Apache Pig egy lekérdezési felületet, az SQL adatinterakciókat pedig az Apache Drill, az Apache Impala, az Apache Spark SQL és a Presto. A gépi tanulás az Apache SystemML-t, az Apache Mahout-ot és az Apache Spark MLlib-jét használja. Az adatökoszisztéma által széles körben támogatott közvetlen analitikus programozáshoz R és Python használatos.

Az eredmények vizualizálása

A trendek vagy az adatok időbeli változásainak felismerése gyakran fontosabb, mint a kapott értékek. Az adatvizualizáció az egyik leghasznosabb módja a trendek azonosításának és nagyszámú adatpont rendezésének.

Valós idejű feldolgozást használnak az alkalmazások és szerverek metrikáinak megjelenítésére. Az adatok gyakran változnak, és a mutatók nagy eltérései általában jelentős hatást jeleznek a rendszerek vagy szervezetek egészségére. A Prometheushoz hasonló projektek felhasználhatók adatfolyamok és idősorok feldolgozására és ezeknek az információknak a megjelenítésére.

Az adatok megjelenítésének egyik népszerű módja az Elastic verem, korábban ELK-verem. A Logstash az adatgyűjtéshez, az Elasticsearch az adatok indexeléséhez és a Kibana a vizualizációhoz. Az Elastic verem képes nagy adatokkal dolgozni, megjeleníteni a számítások eredményeit, vagy kölcsönhatásba léphet a nyers mérőszámokkal. Hasonló verem érhető el, ha az Apache Solr-t indexeléshez kombinálja a Banana nevű Kibana villával a megjelenítéshez. Ezt a köteget selyemnek hívják.

Az adatokkal való interakció másik vizualizációs technológiája a dokumentumok. Az ilyen projektek lehetővé teszik az adatok interaktív feltárását és megjelenítését a megfelelő formátumban megosztásés az adatok bemutatása. Az ilyen típusú interfészek népszerű példái a Jupyter Notebook és az Apache Zeppelin.

Big Data Glossary

A big data tág fogalom olyan adathalmazokra, amelyeket nem lehet megfelelően feldolgozni rendszeres számítógépek vagy hangszerek hangerejük, érkezési sebességük és változatosságuk miatt. A kifejezést gyakran használják az ilyen adatokkal való munkavégzéshez szükséges technológiákra és stratégiákra is.
A kötegelt feldolgozás egy számítási stratégia, amely magában foglalja az adatok nagy halmazokban történő feldolgozását. Általában ez a módszer ideális a nem sürgős adatokkal való munkavégzéshez.
A fürtözött számítástechnika több gép erőforrásainak egyesítése és a megosztott képességek kezelése a feladatok végrehajtása érdekében. Ebben az esetben szükség van egy fürtkezelési rétegre, amely kezeli az egyes csomópontok közötti kommunikációt.
Az adattó a viszonylag nyers állapotban gyűjtött adatok nagy tárháza. A kifejezést gyakran használják a strukturálatlan és gyakran változó nagy adatokra.
Az adatbányászat tág fogalom a nagy adathalmazok mintáinak megtalálásának különböző gyakorlataira. Kísérlet adattömegnek egy érthetőbb és koherensebb információhalmazba rendezésére.
Az adattárház egy nagy, szervezett adattár az elemzésekhez és jelentésekhez. A Data Lake-től eltérően a raktár formázott és jól szervezett adatokból áll, amelyek integrálva vannak más forrásokkal. Az adattárházakat gyakran említik a big data kapcsán, de gyakran a hagyományos adatfeldolgozó rendszerek alkotóelemei.
ETL (extract, transform, and load) – adatok kinyerése, átalakítása és betöltése. Ez a nyers adatok megszerzésének és felhasználásra történő előkészítésének folyamata. Adattárházhoz kötődik, de ennek a folyamatnak a jellemzői a big data rendszerek pipeline-eiben is megtalálhatók.
A Hadoop egy nyílt forráskódú Apache projekt a nagy adatokhoz. Ez egy elosztott fájlrendszer a HDFS és a YARN nevű fürt- és erőforrásütemező. Lehetőségek kötegelt feldolgozás a MapReduce számítási motor biztosítja. A modern Hadoop-telepítések más számítástechnikai és elemzési rendszereket is futtathatnak a MapReduce mellett.
A memórián belüli számítástechnika egy olyan stratégia, amely magában foglalja a teljes működő adatkészletek áthelyezését a fürtmemóriába. A közbenső számításokat nem írják lemezre, hanem a memóriában tárolják. Ez hatalmas sebességelőnyt biztosít a rendszereknek az I/O-kötött rendszerekkel szemben.
A gépi tanulás olyan rendszerek tervezésének tanulmányozása és gyakorlata, amelyek a hozzájuk betáplált adatok alapján képesek tanulni, beállítani és javítani. Ez általában prediktív és statisztikai algoritmusok megvalósítását jelenti.
A Map Redukció (nem tévesztendő össze a Hadoop MapReduce-jával) egy számítási fürtütemezési algoritmus. A folyamat magában foglalja a feladat csomópontok közötti felosztását, közbenső eredmények megszerzését, megkeverését, majd minden halmazhoz egyetlen érték kiadását.
A NoSQL egy tág fogalom, amely a hagyományostól eltérő adatbázisokra utal relációs modell. A NoSQL-adatbázisok rugalmasságuk és elosztott architektúrájuk miatt kiválóan alkalmasak nagy adatok tárolására.
Az adatfolyam-feldolgozás az egyes adatok kiszámításának gyakorlata, amint azok a rendszerben mozognak. Ez lehetővé teszi a valós idejű adatelemzést, és alkalmas időérzékeny tranzakciók feldolgozására nagy sebességű mérőszámok segítségével.

Címkék: ,

A "Big Data" kifejezés ma már felismerhető, de még mindig eléggé zűrzavar van körülötte, hogy mit is jelent valójában. Valójában a fogalom folyamatosan fejlődik és újradefiniálódik, mivel továbbra is a hajtóereje a digitális átalakulás számos folyamatban lévő hullámának, beleértve a mesterséges intelligenciát, az adattudományt és a tárgyak internetét. De mi is az a Big-Data technológia, és hogyan változtatja meg a világunkat? Próbáljuk megérteni a Big Data technológia lényegét és mit jelent egyszerű szavakkal.

A Big Data csodálatos növekedése

Az egész azzal kezdődött, hogy a digitális korszak hajnala óta az általunk létrehozott adatmennyiség robbanásszerűen megnőtt. Ez nagyrészt a számítógépek, az internet és a technológiák fejlődésének köszönhető, amelyek képesek „kiragadni” az adatokat a minket körülvevő világból. Az adat önmagában nem új találmány. Már a számítógépek és az adatbázisok kora előtt is használtunk papíralapú tranzakciós nyilvántartásokat, ügyfélnyilvántartásokat és adatot képező archív fájlokat. A számítógépek, különösen a táblázatok és adatbázisok megkönnyítik számunkra az adatok nagy léptékű tárolását és rendszerezését. Hirtelen egyetlen kattintással elérhetővé vált az információ.

Az eredeti tábláktól és adatbázisoktól azonban messzire jutottunk. Ma kétnaponta annyi adatot készítünk, amennyit a kezdetektől 2000-ig kaptunk. Így van, kétnaponta. Az általunk létrehozott adatok mennyisége pedig továbbra is exponenciálisan növekszik; 2020-ra a rendelkezésre álló digitális információ mennyisége körülbelül 5 zettabájtról 20 zettabájtra nő.

Manapság szinte minden tettünk nyomot hagy. Adatokat generálunk minden alkalommal, amikor fellépünk az internetre, amikor hordozzuk a keresővel felszerelt okostelefonunkat, amikor a barátainkkal beszélgetünk közösségi média vagy chat stb. Emellett a géppel generált adatok mennyisége is gyorsan növekszik. Az adatok generálása és megosztása akkor történik, amikor intelligens otthoni eszközeink kommunikálnak egymással vagy otthoni szervereikkel. Az üzemek és gyárak ipari berendezéseit egyre gyakrabban szerelik fel adatgyűjtő és továbbító érzékelőkkel.

A „Big-Data” kifejezés ezen adatok összegyűjtésére utal, és arra a képességünkre, hogy előnyünkre használjuk azokat számos területen, beleértve az üzleti életet is.

Hogyan működik a Big-Data technológia?

A Big Data azon az elven működik, hogy minél többet tudsz egy adott témáról vagy jelenségről, annál megbízhatóbban érhetsz el új ismereteket, és megjósolhatod, hogy mi fog történni a jövőben. Az összehasonlítás során több adatpontok, olyan kapcsolatok jelennek meg, amelyek korábban rejtettek voltak, és ezek a kapcsolatok lehetővé teszik számunkra, hogy tanuljunk és jobb döntéseket hozzunk. Ez leggyakrabban olyan folyamaton keresztül történik, amely magában foglalja az összegyűjthető adatok alapján modellek felépítését, majd szimulációk futtatását, amelyek minden alkalommal módosítják az adatpontok értékeit, és nyomon követik, hogyan befolyásolják az eredményeket. Ez a folyamat automatizált - modern technológiák Az elemzők több millió ilyen szimulációt fognak futtatni, minden lehetséges változót módosítva, amíg nem találnak egy modellt – vagy egy ötletet –, amely megoldja a problémát, amelyen dolgoznak.

Bill Gates egy CD papírtartalma fölött lóg

Egészen a közelmúltig az adatok csak táblázatokra vagy adatbázisokra korlátozódtak – és minden nagyon szervezett és rendezett volt. Bármit, amit nem lehetett könnyen sorokba és oszlopokba rendezni, túl bonyolultnak ítélték a munkavégzéshez, és figyelmen kívül hagyták. A tárolás és az elemzés fejlődése azonban azt jelenti, hogy nagy mennyiségű, különböző típusú adatot tudunk rögzíteni, tárolni és feldolgozni. Ennek eredményeként az „adat” ma bármit jelenthet az adatbázisoktól kezdve a fényképeken, videókon, hangfelvételeken, írott szövegeken és szenzoradatokon át.

Ennek a zűrös adatnak a megértése érdekében a Big Data-alapú projektek gyakran élvonalbeli elemzéseket alkalmaznak mesterséges intelligencia és számítógépes képzés. Azáltal, hogy megtanítjuk a számítástechnikai gépeket meghatározni, hogy mi az adott adat – például mintafelismerés vagy természetes nyelvi feldolgozás révén –, megtaníthatjuk őket a minták azonosítására, sokkal gyorsabban és megbízhatóbban, mint mi magunk.

Hogyan használják a Big Data-t?

Az érzékelőadatok, szöveg-, hang-, fénykép- és videóadatok egyre növekvő áramlása azt jelenti, hogy ma már olyan módokon is felhasználhatjuk az adatokat, amelyek néhány évvel ezelőtt még elképzelhetetlenek lettek volna. Ez szinte minden iparágban forradalmi változásokat hoz az üzleti világban. Ma a vállalatok hihetetlen pontossággal megjósolhatják, hogy a vásárlók mely kategóriái és mikor kívánnak vásárolni. A Big Data abban is segít, hogy a cégek sokkal hatékonyabban végezzék tevékenységeiket.

A Big Data-hoz kapcsolódó projektek már az üzleti életen kívül is különféle módokon segítenek megváltoztatni világunkat:

Az egészségügy javítása – Az adatvezérelt orvoslás képes hatalmas mennyiségű orvosi információt és képet elemezni olyan modellekké, amelyek segíthetnek a betegségek korai stádiumában történő felismerésében és új gyógyszerek kifejlesztésében.
Természeti és ember okozta katasztrófák előrejelzése és reagálása. Az érzékelők adatai elemezhetők annak előrejelzésére, hogy hol fordulhatnak elő földrengések, az emberi viselkedésminták pedig olyan nyomokat adnak, amelyek segítenek a szervezeteknek abban, hogy segítséget nyújtsanak a túlélőknek. A Big Data technológiát a világ háborús övezeteiből érkező menekültáradat nyomon követésére és védelmére is használják.
A bűnözés megelőzése. A rendőri erők egyre gyakrabban alkalmaznak olyan adatvezérelt stratégiákat, amelyek magukba foglalják saját titkosszolgálati információikat és az abból származó információkat nyílt hozzáférésű az erőforrások hatékonyabb felhasználása és szükség esetén elrettentő intézkedések megtétele.

A legjobb könyvek a Big-Data technológiáról

Mindenki hazudik. A keresőmotorok, a Big Data és az internet mindent tudnak rólad.
NAGY ADAT. Minden technológia egy könyvben.
Boldogság ipar. Hogyan segítik a Big Data és az új technológiák érzelmeket hozzáadni a termékekhez és a szolgáltatásokhoz.
Forradalom az analitikában. Hogyan javíthatja vállalkozását a Big Data korszakában az operatív elemzések segítségével.

Problémák a Big Data-val

A Big Data példátlan ötleteket és lehetőségeket ad számunkra, ugyanakkor problémákat és megválaszolandó kérdéseket is felvet:

Adatvédelem – A ma generált Big Data rengeteg információt tartalmaz személyes életünkről, amelyekhez minden jogunk megvan. Egyre többet kérnek tőlünk, hogy egyensúlyba hozzuk a nyilvánosságra hozott személyes adatok mennyiségét a Big Data-alapú alkalmazások és szolgáltatások által kínált kényelemmel.
Adatbiztonság – Még ha úgy döntünk is, hogy elégedettek vagyunk azzal, hogy valaki egy adott célból birtokolja az adatainkat, megbízhatunk-e abban, hogy megőrizze adataink biztonságát?
Adatalapú diszkrimináció – ha minden információ ismert, elfogadható lesz-e az emberek megkülönböztetése személyes életük adatai alapján? Már most is hitelpontszámokat használunk annak eldöntésére, hogy ki vehet fel pénzt, és a biztosítás is erősen adatvezérelt. Számítanunk kell a részletesebb elemzésre és értékelésre, de ügyelni kell arra, hogy ez ne nehezítse meg a kevesebb erőforrással és korlátozott információhoz jutással rendelkezők életét.

Ezeknek a feladatoknak a végrehajtása a Big Data fontos összetevője, és az ilyen adatokat használni kívánó szervezeteknek foglalkozniuk kell vele. Ennek elmulasztása sebezhetővé tehet egy vállalkozást, nemcsak hírnevét tekintve, hanem jogilag és pénzügyileg is.

A jövőbe tekintve

Az adatok soha nem látott ütemben változtatják meg világunkat és életünket. Ha a Big Data minderre ma képes, képzeld el, mire lesz képes holnap. A rendelkezésünkre álló adatok mennyisége csak nőni fog, az analitikai technológia pedig még fejlettebb lesz.

A vállalkozások számára a Big Data alkalmazásának lehetősége egyre kritikusabb lesz az elkövetkező években. Csak azok a vállalatok maradnak életben és boldogulnak, amelyek stratégiai eszköznek tekintik az adatokat. Azok, akik figyelmen kívül hagyják ezt a forradalmat, azt kockáztatják, hogy lemaradnak.

Nagy adat- Angol "nagy adat". A kifejezés a DBMS alternatívájaként jelent meg, és az IT-infrastruktúra egyik fő trendjévé vált, amikor a legtöbb iparági óriás – az IBM, a Microsoft, a HP, az Oracle és mások – ezt a koncepciót kezdték használni stratégiáik során. A Big Data egy hatalmas (több száz terabájtos) adattömbre utal, amelyet hagyományos módszerekkel nem lehet feldolgozni; néha – eszközök és módszerek ezen adatok feldolgozására.

Példák Big Data forrásokra: RFID-események, üzenetek a közösségi hálózatokon, meteorológiai statisztikák, a mobil mobilhálózatok előfizetőinek helyére vonatkozó információk és az audio-/videofelvevő eszközökről származó adatok. Ezért a „big data” széles körben használatos a gyártásban, az egészségügyben, a közigazgatásban és az internetes üzletágban – különösen a célközönség elemzésekor.

Jellegzetes

A big data jeleit „három V”-ként határozzák meg: Volume – volume (nagyon nagy); fajta – heterogenitás, halmaz; sebesség – sebesség (nagyon gyors feldolgozás szükségessége).

A nagy adatok legtöbbször strukturálatlanok, feldolgozásához speciális algoritmusokra van szükség. A nagy adatelemzési módszerek a következők:

(„adatbányászat”) – megközelítések összessége a rejtett hasznos tudás feltárására, amely szabványos módszerekkel nem szerezhető meg;
Crowdsourcing (crowd - "tömeg", beszerzés - forrásként történő felhasználás) - jelentős problémák megoldása kötelező munkaszerződésben vagy jogviszonyban nem álló önkéntesek közös erőfeszítésével, tevékenységek összehangolása informatikai eszközök segítségével;
Data Fusion & Integration ("adatkeverés és implementáció") – módszerek összessége több forrás összekapcsolására egy mélyreható elemzés részeként;
A gépi tanulás ("gépi tanulás") a mesterséges intelligencia kutatásának egyik alszaka, amely a statisztikai elemzések használatának és az alapvető modelleken alapuló előrejelzések készítésének módszereit vizsgálja;
képfelismerés (például arcok felismerése a fényképezőgép vagy videokamera keresőjében);
térbeli elemzés – topológia, geometria és földrajz felhasználása adatok megalkotásához;
adatvizualizáció – analitikai információk megjelenítése illusztrációk és diagramok formájában interaktív eszközök és animáció segítségével az eredmények nyomon követésére és a további nyomon követés megalapozására.

Az információkat nagyszámú nagy teljesítményű szerveren tárolják és elemzik. A kulcs technológia a Hadoop, amely nyílt forráskódú.

Mivel az információ mennyisége idővel csak növekszik, a nehézséget nem az adatok beszerzése jelenti, hanem az, hogy miként dolgozzuk fel azokat maximális haszonnal. Általánosságban elmondható, hogy a Big Data-val végzett munka folyamata a következőket foglalja magában: információk gyűjtése, strukturálása, meglátások és kontextusok létrehozása, cselekvési javaslatok kidolgozása. Már az első szakasz előtt fontos egyértelműen meghatározni a munka célját: pontosan mire van szükség az adatokra, például a termék célközönségének meghatározásához. Ellenkező esetben fennáll annak a veszélye, hogy sok információhoz jutunk anélkül, hogy megértené, hogyan lehet azokat pontosan felhasználni.

Csak a lusták nem beszélnek a Big Data-ról, de alig értik, mi az, és hogyan működik. Kezdjük a legegyszerűbb dologgal - a terminológiával. Oroszul szólva a Big Data különféle eszközök, megközelítések és módszerek a strukturált és a strukturálatlan adatok feldolgozására annak érdekében, hogy azokat meghatározott feladatokra és célokra használják fel.

A strukturálatlan adatok olyan információk, amelyek nem rendelkeznek előre meghatározott struktúrával, vagy nincsenek meghatározott sorrendben rendezve.

A „nagy adat” kifejezést a Nature magazin szerkesztője, Clifford Lynch vezette be még 2008-ban egy különszámban, amely a világ információmennyiségének robbanásszerű növekedéséről szól. Bár persze maga a big data korábban is létezett. Szakértők szerint a Big data kategóriába tartozik a legtöbb napi 100 GB feletti adatfolyam.

Olvassa el még:

Ez az egyszerű kifejezés ma már csak két szót rejt: adattárolás és adatfeldolgozás.

Big data – egyszerű szavakkal

A modern világban a Big Data egy társadalmi-gazdasági jelenség, amely azzal a ténnyel jár, hogy hatalmas mennyiségű adat elemzésére új technológiai lehetőségek jelentek meg.

Olvassa el még:

A könnyebb érthetőség kedvéért képzeljünk el egy szupermarketet, ahol az áruk nem a megszokott sorrendben vannak. A gyümölcs mellé kenyér, a fagyasztott pizza mellé paradicsompüré, a tampontartó elé gyújtófolyadék, amiben többek között avokádó, tofu vagy shiitake gomba is van. A Big Data mindent a helyére tesz, és segít megtalálni a diótejet, megtudni a költséget és a lejárati dátumot, valamint azt is, hogy rajtad kívül ki veszi meg ezt a tejet, és miért jobb, mint a tehéntej.

Kenneth Cukier: A nagy adat jobb adat

Big data technológia

Hatalmas mennyiségű adatot dolgozunk fel, hogy az ember konkrét és szükséges eredményeket kaphasson a további hatékony felhasználásukhoz.

Olvassa el még:

Valójában a Big Data megoldást jelent a problémákra és alternatívát jelent a hagyományos adatkezelési rendszerekkel szemben.

A Big Data-ra alkalmazható elemzési technikák és módszerek McKinsey szerint:

Adatbányászat;
Crowdsourcing;
Adatkeverés és -integráció;
Gépi tanulás;
Mesterséges idegi hálózat;
Mintafelismerés;
Prediktív analitika;
Szimulációs modellezés;
Térbeli elemzés;
Statisztikai analízis;
Analitikai adatok megjelenítése.

Az adatfeldolgozást lehetővé tevő horizontális skálázhatóság a big data feldolgozás alapelve. Az adatok a számítási csomópontok között vannak elosztva, és a feldolgozás a teljesítmény romlása nélkül történik. A McKinsey a relációs menedzsment rendszereket és az üzleti intelligenciát is bevonta az alkalmazhatóság körébe.

Technológiák:

NoSQL;
MapReduce;
Hadoop;
Hardveres megoldások.

Olvassa el még:

A big data esetében léteznek a Meta Group által még 2001-ben kifejlesztett hagyományos meghatározó jellemzők, amelyeket „ Három V»:

Hangerő- a fizikai térfogat mennyisége.
Sebesség- növekedési ütem és gyors adatfeldolgozás szükségessége az eredmények eléréséhez.
Fajta- egyidejű feldolgozás képessége Különféle típusok adat.

Big data: alkalmazások és lehetőségek

A heterogén és gyorsan érkező digitális információk mennyiségét hagyományos eszközökkel lehetetlen feldolgozni. Maga az adatelemzés lehetővé teszi bizonyos és észrevehetetlen minták megtekintését, amelyeket egy személy nem láthat. Ez lehetővé teszi számunkra, hogy életünk minden területét optimalizáljuk – a közigazgatástól a termelésig és a távközlésig.

Például néhány cég néhány évvel ezelőtt megvédte ügyfeleit a csalástól, és az ügyfél pénzéről való gondoskodás azt jelenti, hogy gondoskodni kell a saját pénzéről.

Susan Etliger: Mi a helyzet a nagy adatokkal?

Big data alapú megoldások: Sberbank, Beeline és más cégek

A Beeline hatalmas mennyiségű adattal rendelkezik az előfizetőkről, amelyeket nemcsak a velük való munkavégzésre használnak, hanem elemzési termékek létrehozására is, például külső tanácsadásra vagy IPTV-elemzésre. A Beeline szegmentálta az adatbázist, és megvédte az ügyfeleket a pénzügyi csalásoktól és vírusoktól, tároláshoz HDFS és Apache Spark, adatfeldolgozáshoz pedig Rapidminer és Python segítségével.

Olvassa el még:

Vagy emlékezzünk a Sberbankra a régi AS SAFI tokkal. Ez egy olyan rendszer, amely fényképeket elemzi a banki ügyfelek azonosítása és a csalás megelőzése érdekében. A rendszert még 2014-ben vezették be, a rendszer az adatbázisból származó fényképek összehasonlításán alapul, amelyek a számítógépes látásnak köszönhetően az állványokon lévő webkamerákról kerülnek oda. A rendszer alapja egy biometrikus platform. Ennek köszönhetően a csalások száma 10-szeresére csökkent.

Nagy adatok a világban

2020-ra az előrejelzések szerint 40-44 zettabájtnyi információt fog generálni az emberiség. Az IDC elemzői által készített The Data Age 2025 jelentés szerint 2025-re pedig tízszeresére fog nőni. A jelentés megjegyzi, hogy az adatok nagy részét maguk a vállalkozások állítják elő, nem pedig a hétköznapi fogyasztók.

A kutatóelemzők úgy vélik, hogy az adatok létfontosságú eszközzé válnak, a biztonság pedig az élet kritikus alapjává válik. A munka szerzői abban is bíznak, hogy a technológia megváltoztatja a gazdasági tájat, ill rendszeres felhasználó naponta körülbelül 4800-szor fog kommunikálni a csatlakoztatott eszközökkel.

Nagy adatpiac Oroszországban

2017-ben a big data piac globális bevétele eléri a 150,8 milliárd dollárt, ami 12,4%-kal több a tavalyinál. Globálisan orosz piac A big data szolgáltatások és technológiák még mindig nagyon kicsik. 2014-ben az amerikai IDC cég 340 millió dollárra becsülte, Oroszországban a technológiát a bankszektorban, az energetikában, a logisztikában, a közszférában, a távközlésben és az iparban használják.

Olvassa el még:

Ami az adatpiacot illeti, Oroszországban még csak kialakulóban van. Az RTB ökoszisztémán belül az adatszolgáltatók a programozott adatkezelési platformok (DMP) és adatcserék tulajdonosai. A távközlési szolgáltatók kísérleti üzemmódban osztják meg a potenciális hitelfelvevőkkel kapcsolatos fogyasztói információkat a bankokkal.

A big data általában három forrásból származik:

Internet (közösségi hálózatok, fórumok, blogok, média és egyéb oldalak);
Vállalati irattárak;
Érzékelők, műszerek és egyéb eszközök leolvasása.

Big data a bankokban

A fent leírt rendszeren kívül a Sberbank 2014-2018-as stratégiája a következőket tartalmazza: beszél a szuper adatok elemzésének fontosságáról a minőségi ügyfélszolgálat, kockázatkezelés és költségoptimalizálás szempontjából. Mostantól a bank Big Data segítségével kezeli a kockázatokat, küzd a csalásokkal, szegmentálja és értékeli az ügyfelek hitelképességét, a személyzeti menedzsmentet, a fiókok sorainak előrejelzését, az alkalmazottak bónuszainak kiszámítását és egyéb feladatokat.

A VTB24 big data segítségével szegmentálja és kezeli az ügyfelek kiáramlását, pénzügyi jelentéseket készít, és elemzi a közösségi hálózatokon és fórumokon található véleményeket. Ehhez a Teradata, a SAS Visual Analytics és a SAS Marketing Optimizer megoldásait használja.