Великі дані (Big Data). Великі дані у сучасному світі Для чого можна використовувати великі дані

Передбачалося, що загальний світовий обсяг створених та реплікованих даних у 2011-му може становити близько 1,8 зеттабайта (1,8 трлн. гігабайт) – приблизно в 9 разів більше за те, що було створено у 2006-му.

Більш складне визначення

Проте ` великі даніприпускають щось більше, ніж просто аналіз величезних обсягів інформації. Проблема не в тому, що організації створюють величезні обсяги даних, а в тому, що більша частина їх представлена у форматі, що погано відповідає традиційному структурованому формату БД, - це веб-журнали, відеозаписи, текстові документи, машинний код або, наприклад, геопросторові дані. Все це зберігається в багатьох різноманітних сховищах, іноді навіть за межами організації. В результаті корпорації можуть мати доступ до величезного обсягу своїх даних та не мати необхідних інструментівщоб встановити взаємозв'язки між цими даними і зробити на їх основі значущі висновки. Додайте сюди ту обставину, що дані зараз оновлюються все частіше і частіше, і ви отримаєте ситуацію, в якій традиційні методи аналізу інформації не можуть наздогнати величезні обсяги даних, що постійно оновлюються, що в результаті і відкриває дорогу технологіям великих даних.

Найкраще визначення

По суті поняття великих данихпередбачає роботу з інформацією величезного обсягу та різноманітного складу, що дуже часто оновлюється і перебуває в різних джерелах з метою збільшення ефективності роботи, створення нових продуктів та підвищення конкурентоспроможності. Консалтингова компанія Forrester дає коротке формулювання: ` Великі даніпоєднують техніки та технології, які отримують сенс із даних на екстремальній межі практичності.

Наскільки велика різниця між бізнес-аналітикою та великими даними?

Крейг Баті, виконавчий директор з маркетингу та директор з технологій Fujitsu Australia, вказував, що бізнес-аналіз є описовим процесом аналізу результатів, досягнутих бізнесом у певний період часу, тим часом як швидкість обробки великих данихдозволяє зробити аналіз передбачуваним, здатним пропонувати бізнесу рекомендації на майбутнє. Технології великих даних дозволяють аналізувати більше типів даних у порівнянні з інструментами бізнес-аналітики, що дає можливість фокусуватися не тільки на структурованих сховищах.

Метт Слокум з O"Reilly Radar вважає, що хоча великі даніта бізнес-аналітика мають однакову мету (пошук відповідей на питання), вони відрізняються один від одного за трьома аспектами.

Великі дані призначені для обробки більших обсягів інформації, ніж бізнес-аналітика, і це, звичайно, відповідає традиційному визначенню великих даних.
Великі дані призначені для обробки більш швидко одержуваних та змінних відомостей, що означає глибоке дослідження та інтерактивність. У деяких випадках результати формуються швидше, ніж завантажується веб-сторінка.
Великі дані призначені для обробки неструктурованих даних, способи використання яких ми тільки починаємо вивчати після того, як змогли налагодити їх збирання та зберігання, і нам потрібні алгоритми та можливість діалогу для полегшення пошуку тенденцій, що містяться всередині цих масивів.

Згідно з опублікованою компанією Oracle білою книгою "Інформаційна архітектура Oracle: керівництво архітектора за великими даними", при роботі з великими даними ми підходимо до інформації інакше, ніж при проведенні бізнес-аналізу.

Робота з великими даними не схожа на звичайний процес бізнес-аналітики, де просте складання відомих значень приносить результат: наприклад, підсумок додавання даних про оплачені рахунки стає обсягом продажів за рік. Працюючи з великими даними результат виходить у процесі їх очищення шляхом послідовного моделювання: спочатку висувається гіпотеза, будується статистична, візуальна чи семантична модель, її підставі перевіряється вірність висунутої гіпотези і потім висувається наступна. Цей процес вимагає від дослідника або інтерпретації візуальних значень або складання інтерактивних запитів на основі знань, або розробки адаптивних алгоритмів `машинного навчання`, здатних отримати результат, що шукається. Причому час життя такого алгоритму може бути коротким.

Методики аналізу великих даних

Існує безліч різноманітних методик аналізу масивів даних, в основі яких лежить інструментарій, запозичений зі статистики та інформатики (наприклад, машинне навчання). Список не претендує на повноту, однак у ньому відображені найбільш затребувані у різних галузях підходи. При цьому слід розуміти, що дослідники продовжують працювати над створенням нових методик та вдосконаленням існуючих. Крім того, деякі з перерахованих методик зовсім не обов'язково застосовні виключно до великих даних і можуть з успіхом використовуватися для менших за обсягом масивів (наприклад, A/B-тестування, регресійний аналіз). Безумовно, чим більший і диверсифікований масив піддається аналізу, тим більше точні та релевантні дані вдається отримати на виході.

A/B testing. Методика, у якій контрольна вибірка по черзі порівнюється коїться з іншими. Тим самим вдається виявити оптимальну комбінацію показників для досягнення, наприклад, найкращої реакції у відповідь споживачів на маркетингову пропозицію. Великі данідозволяють провести безліч ітерацій і таким чином отримати статистично достовірний результат.

Association rule learning. Набір методик виявлення взаємозв'язків, тобто. асоціативних правил між змінними величинами у великих масивах даних. Використовується в data mining.

Classification. Набір методик, які дозволяє передбачити поведінку споживачів у певному сегменті ринку (прийняття рішень про купівлю, відтік, обсяг споживання та ін.). Використовується в data mining.

Cluster analysis. Статистичний метод класифікації об'єктів за групами за рахунок виявлення наперед не відомих загальних ознак. Використовується в data mining.

Crowdsourcing. Методика збору даних із великої кількості джерел.

Data fusion and data integration. Набір методик, що дозволяє аналізувати коментарі користувачів соціальних мереж та зіставляти з результатами продажів у режимі реального часу.

Data mining. Набір методик, який дозволяє визначити найбільш сприйнятливі для продукту, що просувається, або послуги категорії споживачів, виявити особливості найбільш успішних працівників, передбачити поведінкову модель споживачів.

Ensemble learning. У цьому вся методі задіюється безліч предикативних моделей з допомогою чого підвищується якість зроблених прогнозів.

Genetic algorithms. У цій методиці можливі рішенняпредставляють у вигляді `хромосом`, які можуть комбінуватися та мутувати. Як і процесі природної еволюції, виживає найбільш пристосована особина.

Machine learning. Напрямок в інформатиці (історично за ним закріпилася назва "штучний інтелект"), який має на меті створення алгоритмів самонавчання на основі аналізу емпіричних даних.

Natural language processing (NLP). Набір запозичених з інформатики та лінгвістики методик розпізнавання природної мови людини.

Network analysis. Набір методик аналізу зв'язків між вузлами у мережах. Стосовно соціальних мереж дозволяє аналізувати взаємозв'язки між окремими користувачами, компаніями, спільнотами і т.п.

Optimization. Набір чисельних методів для редизайну складних систем та процесів для покращення одного чи кількох показників. Допомагає у прийнятті стратегічних рішень, наприклад, складу продуктової лінійки, що виводиться на ринок, проведенні інвестиційного аналізу та ін.

Pattern recognition. Набір методик із елементами самонавчання для передбачення поведінкової моделі споживачів.

Predictive modeling. Набір методик, які дозволяють створити математичну модель наперед заданого можливого сценарію розвитку подій. Наприклад, аналіз бази даних CRM-системи щодо можливих умов, які підштовхнуть абоненти змінити провайдера.

Regression. Набір статистичних методів для виявлення закономірності між зміною залежної змінної та однією чи декількома незалежними. Часто застосовується для прогнозування та передбачень. Використовується у data mining.

Sentiment analysis. В основі методик оцінки настроїв споживачів лежать технології розпізнавання природної мови. Вони дозволяють вичленувати із загального інформаційного потоку повідомлення, пов'язані з предметом, що цікавить (наприклад, споживчим продуктом). Далі оцінити полярність судження (позитивне чи негативне), ступінь емоційності та ін.

Signal processing. Запозичений з радіотехніки набір методик, який має на меті розпізнавання сигналу на тлі шуму та його подальшого аналізу.

Spatial analysis. Набір запозичених зі статистики методик аналізу просторових даних - топології місцевості, географічних координат, геометрії об'єктів. Джерелом великих даниху цьому випадку часто виступають геоінформаційні системи(ГІС).

Revolution Analytics (на базі мови R для мат.статистики).

Особливий інтерес у цьому списку представляє Apache Hadoop – ПЗ відкритим кодом, яке за останні п'ять років випробувано як аналізатор даних більшістю трекерів акцій . Як тільки Yahoo відкрила код Hadoop спільноті з відкритим кодом, в ІТ-індустрії негайно з'явився цілий напрямок створення продуктів на базі Hadoop. Практично всі сучасні засоби аналізу великих данихнадають засоби інтеграції з Hadoop. Їхніми розробниками виступають як стартапи, так і загальновідомі світові компанії.

Ринки рішень для управління великими даними

Платформи великих даних (BDP, Big Data Platform) як засіб боротьби з цифровим хордингом

Можливість аналізувати великі дані, у просторіччі звана Big Data, сприймається як благо, причому однозначно. Але чи це так насправді? До чого може призвести нестримне накопичення даних? Швидше за все до того, що вітчизняні психологи стосовно людини називають патологічним накопиченням, силогоманією або образно "синдромом Плюшкіна". По-англійськи хибна пристрасть збирати все поспіль називають хордингом (від англ. hoard - "Запас"). За класифікацією ментальних захворювань хординг зарахований до психічних розладів. У цифрову епоху до традиційного речового хордингу додається цифровий (Digital Hoarding), ним можуть страждати як окремі особи, так і цілі підприємства та організації.

Світовий та ринок Росії

Big data Landscape - Основні постачальники

Інтерес до інструментів збору, обробки, управління та аналізу великих данихвиявляли чи не всі провідні ІТ-компанії, що цілком закономірно. По-перше, вони безпосередньо стикаються з цим феноменом у власному бізнесі, по-друге, великі данівідкривають чудові можливості для освоєння нових ніш ринку та залучення нових замовників.

На ринку з'являлося багато стартапів, які роблять бізнес на обробці величезних масивів даних. Частина з них використовують готову хмарну інфраструктуру, яку надають великі гравці на кшталт Amazon.

Теорія та практика Великих даних у галузях

Історія розвитку

2017

Прогноз TmaxSoft: наступна «хвиля» Big Data вимагатиме модернізації СУБД

Підприємствам відомо, що у накопичених ними величезних обсягах даних міститься важлива інформаціяпро їх бізнес та клієнтів. Якщо компанія зможе успішно застосувати цю інформацію, то вона матиме значну перевагу в порівнянні з конкурентами, і вона зможе запропонувати кращі, ніж у них, продукти та сервіси. Однак багато організацій все ще не можуть ефективно використовувати великі данічерез те, що їхня успадкована ІТ-інфраструктура нездатна забезпечити необхідну ємність систем зберігання, процеси обміну даних, утиліти та програми, необхідні для обробки та аналізу великих масивів неструктурованих даних для вилучення з них цінної інформації, зазначили в TmaxSoft.

Крім того, збільшення процесорної потужності, необхідної для аналізу обсягів даних, що постійно збільшуються, може вимагати значних інвестицій в застарілу ІТ-інфраструктуру організації, а також додаткових ресурсів для супроводу, які можна було б використовувати для розробки нових додатків і сервісів.

5 лютого 2015 року Білий дім опублікував доповідь, в якій обговорювалося питання про те, як компанії використовують великі данідля встановлення різних цін для різних покупців - практика, відома як «цінова дискримінація» або «диференційоване ціноутворення» (personalized pricing). Звіт описує користь «великих даних» як для продавців, так і покупців, і його автори приходять до висновку про те, що багато проблемних питань, що виникли у зв'язку з появою великих даних та диференційованого ціноутворення, можуть бути вирішені в рамках існуючого антидискримінаційного законодавства та законів , Що захищають права споживачів

У доповіді наголошується, що в цей час є лише окремі факти, що свідчать про те, як компанії використовують великі дані в контексті індивідуалізованого маркетингу та диференційованого ціноутворення. Ця інформація показує, що продавці використовують методи ціноутворення, які можна розділити на три категорії:

вивчення кривої попиту;
Наведення (steering) та диференційоване ціноутворення на основі демографічних даних; і
цільовий поведінковий маркетинг (поведінковий націлення - behavioral targeting) та індивідуалізоване ціноутворення.

Вивчення кривої попиту: З метою з'ясування попиту та вивчення поведінки споживачів маркетологи часто проводять експерименти в цій галузі, в ході яких клієнтам випадково призначається одна з двох можливих цінових категорій. «Технічно ці експерименти є формою диференційованого ціноутворення, оскільки їх наслідком стають різні ціни для клієнтів, навіть якщо вони є «недискримінаційними» у тому сенсі, що у всіх клієнтів ймовірність «потрапити» на вищу ціну однакова».

Наведення (steering): Це практика представлення продуктів споживачам на основі їхньої приналежності до певної демографічної групи. Так, веб-сайт комп'ютерної компанії може пропонувати один і той же ноутбук різним типам покупців за різними цінами, вставленими на основі повідомленої ними про себе інформації (наприклад, залежно від того, чи є даний користувачпредставником державних органів, наукових чи комерційних установ, або ж приватною особою) або від їхнього географічного розташування (наприклад, визначеного за IP-адресою комп'ютера).

Цільовий поведінковий маркетинг та індивідуалізоване ціноутворення: У цих випадках персональні дані покупців використовуються для цільової реклами та індивідуалізованого призначення цін на певні продукти. Наприклад, онлайн-рекламодавці використовують зібрані рекламними мережамиі через куки третіх сторін дані про активність користувачів в інтернеті для того, щоб націлено розсилати свої рекламні матеріали. Такий підхід, з одного боку, дає можливість споживачам отримати рекламу представляють для них інтерес товарів і послуг, Він, однак, може викликати занепокоєння тих споживачів, які не хочуть, щоб певні види їх персональних даних (такі, як відомості про відвідування сайтів, пов'язаних з медичними та фінансовими питаннями) збиралися без їхньої згоди.

Хоча цільовий поведінковий маркетинг набув значного поширення, є відносно мало свідчень індивідуалізованого ціноутворення в онлайн-середовищі. У звіті висловлюється припущення, що це може бути пов'язано з тим, що відповідні методи все ще розробляються, або ж з тим, що компанії не поспішають використовувати індивідуальне ціноутворення (або вважають за краще мовчати) - можливо, побоюючись негативної реакції з боку споживачів.

Автори звіту вважають, що "для індивідуального споживача використання великих даних, безсумнівно, пов'язане як з потенційною віддачею, так і з ризиками". Визнаючи, що при використанні великих даних з'являються проблеми прозорості та дискримінації, звіт у той же час стверджує, що існуючих антидискримінаційних законів та законів захисту прав споживачів достатньо для їх вирішення. Однак у звіті також наголошується на необхідності «постійного контролю» у тих випадках, коли компанії використовують конфіденційну інформацію непрозорим чином або способами, які не охоплюються існуючою нормативно-правовою базою.

Ця доповідь є продовженням зусиль Білого дому щодо вивчення застосування «великих даних» та дискримінаційного ціноутворення в Інтернеті та відповідних наслідків для американських споживачів. Раніше вже повідомлялося про те, що робоча групаБілого дому за великими даними опублікувала у травні 2014 року свою доповідь з цього питання. Федеральна комісія з торгівлі (FTC) також розглядала ці питання під час проведеного нею у вересні 2014 року семінару з дискримінації у зв'язку з використанням великих даних.

2014

Gartner розвіює міфи про "Великі дані"

В аналітичній записці осені 2014 року Gartner перераховано низку поширених серед ІТ-керівників міфів щодо Великих Даних та наводяться їх спростування.

Всі впроваджують системи обробки Великих Даних швидше за нас

Інтерес до технологій Великих Даних рекордно високий: 73% організацій, опитаних аналітиками Gartner цього року, вже інвестують у відповідні проекти або збираються. Але більшість таких ініціатив поки що на ранніх стадіях, і лише 13% опитаних уже впровадили подібні рішення. Найскладніше - визначити, як отримувати дохід з Великих Даних, вирішити, з чого почати. У багатьох організаціях застряють на пілотній стадії, оскільки не можуть прив'язати нову технологіюдо конкретних бізнес-процесів.

У нас так багато даних, що немає потреби турбуватися про дрібні помилки в них

Деякі ІТ-керівники вважають, що дрібні огріхи даних не впливають на загальні результати аналізу величезних обсягів. Коли даних багато, кожна помилка окремо дійсно менше впливає на результат, зазначають аналітики, але й самих помилок стає більше. З іншого боку, більшість аналізованих даних - зовнішні, невідомої структури чи походження, тому ймовірність помилок зростає. Таким чином, у світі Великих Даних якість насправді набагато важливіша.

Технології Великих Даних скасують потребу в інтеграції даних

Великі Дані обіцяють можливість обробки даних у оригінальному форматі з автоматичним формуванням схеми у міру зчитування. Вважається, що це дозволить аналізувати інформацію з тих самих джерел за допомогою декількох моделей даних. Багато хто вважає, що це також дасть можливість кінцевим користувачам інтерпретувати будь-який набір даних на свій розсуд. Насправді більшості користувачів часто потрібен традиційний спосіб з готовою схемою, коли дані форматуються відповідним чином, і є угоди про рівень цілісності інформації та про те, як вона має співвідноситися зі сценарієм використання.

Сховища даних немає сенсу використовувати для складної аналітики

Багато адміністраторів систем управління інформацією вважають, що немає сенсу витрачати час на створення сховища даних, враховуючи, що складні аналітичні системикористуються новими типами даних. Насправді у багатьох системах складної аналітики використовується інформація зі сховища даних. В інших випадках нові типи даних потрібно додатково готувати до аналізу у системах обробки Великих Даних; доводиться приймати рішення про придатність даних, принципи агрегації та необхідний рівень якості - така підготовка може відбуватися поза сховищем.

На зміну сховищам даних прийдуть озера даних

Насправді постачальники вводять замовників в оману, позиціонуючи озера даних (data lake) як заміну сховищ або як критично важливі елементи аналітичної інфраструктури. Основним технологіям озер даних не вистачає зрілості та широти функціональності, властивої сховищам. Тому керівникам, які відповідають за управління даними, варто почекати, поки озера досягнуть того ж рівня розвитку, вважають у Gartner.

Accenture: 92% великих даних, що впровадили системи, задоволені результатом

Серед головних переваг великих даних опитані назвали:

«Пошук нових джерел доходу» (56%),
«Поліпшення досвіду клієнтів» (51%),
«нові продукти та послуги» (50%) та
«приплив нових клієнтів та збереження лояльності старих» (47%).

При впровадженні нових технологій багато компаній зіткнулися із традиційними проблемами. Для 51% каменем спотикання стала безпека, для 47% – бюджет, для 41% – брак необхідних кадрів, а для 35% – складності при інтеграції з існуючою системою. Практично всі опитані компанії (близько 91%) планують незабаром вирішувати проблему з нестачею кадрів та наймати спеціалістів за великими даними.

Підприємства оптимістично оцінюють майбутнє технологій великих даних. 89% вважають, що вони змінять бізнес так само сильно, як і інтернет. 79% респондентів наголосили, що компанії, які не займаються великими даними, втратять конкурентну перевагу.

Втім, опитані розійшлися на думці про те, що варто вважати великими даними. 65% респондентів вважають, що це «великі картотеки даних», 60% упевнені, що це «просунута аналітика та аналіз», а 50% - що це «дані інструментів візуалізації».

Мадрид витрачає 14,7 млн. євро на управління великими даними

У липні 2014 р. стало відомо про те, що Мадрид використовуватиме технології big data для управління міською інфраструктурою. Вартість проекту - 14,7 млн євро, основу впроваджуваних рішень становитимуть технології для аналізу та управління великими даними. З їхньою допомогою міська адміністрація керуватиме роботою з кожним сервіс-провайдером та відповідним чином оплачуватиме її залежно від рівня послуг.

Йдеться про підрядників адміністрації, які стежать за станом вулиць, освітленням, іригацією, зеленими насадженнями, здійснюють прибирання території та вивезення, а також переробку сміття. У ході проекту для спеціально виділених інспекторів розроблено 300 ключових показників ефективності роботи міських сервісів, на базі яких щодня здійснюватиметься 1,5 тис. різних перевірок та вимірів. Крім того, місто почне використовувати інноваційну технологічну платформу під назвою Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Експерти: Пік моди на Big Data

Всі без винятку вендори на ринку управління даними у цей час ведуть розробку технологій для менеджменту Big Data. Цей новий технологічний тренд також активно обговорюється професійними співтовариством як розробниками, так і галузевими аналітиками та потенційними споживачами таких рішень.

Як з'ясувала компанія Datashift, станом на січень 2013 року хвиля обговорень навколо великих даних» перевищила всі можливі розміри. Проаналізувавши кількість згадок Big Data у соціальних мережах, у Datashift підрахували, що за 2012 рік цей термін вживався близько 2 млрд разів у постах, створених близько 1 млн різних авторів по всьому світу. Це еквівалентно 260 постам на годину, причому пік згадок становив 3070 згадок на годину.

Gartner: Кожен другий ІТ-директор готовий витратитись на Big data

Після кількох років експериментів з технологіями Big data та перших впроваджень у 2013 році адаптація подібних рішень значно зросте, прогнозують у Gartner. Дослідники опитали ІТ-лідерів у всьому світі та встановили, що 42% опитаних вже інвестували у технології Big data або планують зробити такі інвестиції протягом найближчого року (дані на березень 2013 року).

Компанії змушені витратитися на технології обробки великих данихОскільки інформаційний ландшафт стрімко змінюється, вимагаю нових підходів до обробки інформації. Багато компаній вже усвідомили, що великі масиви даних є критично важливими, причому робота з ними дозволяє досягти вигод, які не доступні при використанні традиційних джерел інформації та способів її обробки. Крім того, постійне мусування теми великих даних у ЗМІ підігріває інтерес до відповідних технологій.

Френк Байтендідк (Frank Buytendijk), віце-президент Gartner, навіть закликав компанії стримати запал, оскільки деякі виявляють занепокоєння, що відстають від конкурентів у освоєнні Big data.

"Хвилюватися не варто, можливості для реалізації ідей на базі технологій "великих даних" фактично безмежні", - заявив він.

За прогнозами Gartner, до 2015 року 20% компаній у списку Global 1000 візьмуть стратегічний фокус на «інформаційну інфраструктуру».

В очікуванні нових можливостей, які принесуть із собою технології обробки «великих даних», вже зараз багато організацій організують процес збирання та зберігання різноманітних інформації.

Для освітніх та урядових організацій, а також компаній галузі промисловості найбільший потенціал для трансформації бізнесу закладено у поєднанні накопичених даних з так званими dark data (дослівно – «темними даними»), до останніх належать повідомлення електронної пошти, мультимедіа та інший подібний контент. На думку Gartner, у гонці даних переможуть саме ті, хто навчиться поводитися з різними джерелами інформації.

Опитування Cisco: Big Data допоможе збільшити ІТ-бюджети

У ході дослідження (весна 2013 року) під назвою Cisco Connected World Technology Report, проведеного в 18 країнах незалежною аналітичною компанією InsightExpress, було опитано 1800 студентів коледжів і таку ж кількість молодих фахівців віком від 18 до 30 років. Опитування проводилося, щоб з'ясувати рівень готовності ІТ-відділів до реалізації проектів Big Dataта отримати уявлення про пов'язані з цим проблеми, технологічні вади та стратегічну цінність таких проектів.

Більшість компаній збирає, записує та аналізує дані. Проте, йдеться у звіті, багато компаній у зв'язку з Big Data стикаються з цілою низкою складних ділових та інформаційно-технологічних проблем. Наприклад, 60 відсотків опитаних визнають, що рішення Big Data можуть удосконалити процеси прийняття рішень та підвищити конкурентоспроможність, але лише 28 відсотків заявили про те, що вже набувають реальних стратегічних переваг від накопиченої інформації.

Більше половини опитаних ІТ-керівників вважають, що проекти Big Data допоможуть збільшити ІТ-бюджети в їхніх організаціях, оскільки будуть пред'являтися підвищені вимоги до технологій, персоналу та професійних навичок. При цьому більше половини респондентів очікують, що такі проекти збільшать ІТ-бюджети у їхніх компаніях вже у 2012 році. 57 відсотків впевнені, що Big Data збільшить їхні бюджети протягом наступних трьох років.

81 відсоток респондентів заявили, що всі (або принаймні деякі) проекти Big Data вимагатимуть застосування хмарних обчислень. Таким чином, поширення хмарних технологійможе зашкодити швидкості поширення рішень Big Data і цінності цих рішень для бізнесу.

Компанії збирають і використовують дані самих різних типів, Як структуровані, так і неструктуровані. Ось із яких джерел отримують дані учасники опитування (Cisco Connected World Technology Report):

Майже половина (48 відсотків) ІТ-керівників прогнозує подвоєння навантаження на їхні мережі протягом найближчих двох років. (Це особливо характерно для Китаю, де такої точки зору дотримуються 68 відсотків опитаних, та Німеччини – 60 відсотків). 23 відсотки респондентів очікують потроїння мережного навантаження протягом наступних двох років. При цьому лише 40 відсотків респондентів заявили про свою готовність до вибухового зростання обсягів мережевого трафіку.

27 відсотків опитаних визнали, що їм необхідні якісніші ІТ-політики та заходи інформаційної безпеки.

21 відсоток потребує розширення смуги пропускання.

Big Data відкриває перед ІТ-відділами нові можливості для нарощування цінності та формування тісних відносин з бізнес-підрозділами, дозволяючи підвищити доходи та зміцнити фінансове становище компанії. Проекти Big Data роблять ІТ-підрозділи стратегічним партнером бізнес-підрозділів.

На думку 73% респондентів, саме ІТ-відділ стане основним локомотивом реалізації стратегії Big Data. При цьому, вважають опитані, інші відділи також підключатимуться до реалізації цієї стратегії. Насамперед, це стосується відділів фінансів (його назвали 24 відсотки респондентів), науково-дослідного (20 відсотків), операційного (20 відсотків), інженерного (19 відсотків), а також відділів маркетингу (15 відсотків) та продажу (14 відсотків).

Gartner: Для управління великими даними потрібні мільйони нових робочих місць

Світові ІТ витрати досягнуть $3,7 млрд до 2013 року, що на 3,8% більше витрат на інформаційні технології у 2012 році (прогноз на кінець року становить $3,6 млрд). Сегмент великих даних(big data) розвиватиметься набагато вищими темпами, йдеться у звіті Gartner.

До 2015 року 4,4 млн робочих місць у сфері інформаційних технологій буде створено для обслуговування великих даних, з них 1,9 млн робочих місць – . Більше того, кожне таке робоче місцеспричинить створення трьох додаткових робочих місць за межами сфери ІТ, так що тільки в США в найближчі чотири роки 6 млн осіб буде працювати для підтримки інформаційної економіки.

На думку експертів Gartner, головна проблема полягає в тому, що в галузі для цього недостатньо талантів: як приватна, так і державна освітня система, наприклад, у США не здатні постачати галузь достатньою кількістю кваліфікованих кадрів. Тож із згаданих нових робочих місць у ІТ кадрами буде забезпечено лише одне із трьох.

Аналітики вважають, що роль вирощування кваліфікованих ІТ кадрів повинні брати на себе безпосередньо компанії, які їх гостро потребують, оскільки такі співробітники стануть перепусткою для них у нову інформаційну економіку майбутнього.

2012

Перший скепсис щодо "Великих даних"

Аналітики компаній Ovum та Gartner припускають, що для модної у 2012 році теми великих данихможе настати час звільнення з ілюзій.

Терміном «Великі Дані», як правило, позначають постійно зростаючий обсяг інформації, що надходить в оперативному режимі із соціальних медіа, від мереж датчиків та інших джерел, а також зростаючий діапазон інструментів, що використовуються для обробки даних та виявлення на їх основі важливих бізнес -Тенденцій.

"Через галас (або незважаючи на неї) щодо ідеї великих даних виробники в 2012 році з величезною надією дивилися на цю тенденцію", - зазначив Тоні Байєр, аналітик Ovum.

Байєр повідомив, що компанія DataSift провела ретроспективний аналіз згадок великих даних у

Великі дані – це широкий термін для позначення нетрадиційних стратегій та технологій, необхідних для збирання, впорядкування та обробки інформації з великих наборів даних. Хоча проблема роботи з даними, що перевищують обчислювальну потужність або можливості зберігання одного комп'ютера, не є новою, останніми роками масштаби та цінність цього обчислень значно розширилися.

У цій статті ви знайдете основні поняття, з якими можна зіткнутися, досліджуючи великі дані. Також тут розглядаються деякі з процесів та технологій, які використовуються у цій галузі на даний час.

Що таке величезні дані?

Точне визначення «великих даних» важко сформулювати, тому що проекти, вендори, спеціалісти-практики та бізнес-фахівці використовують його зовсім по-різному. Маючи це на увазі, великі дані можна визначити як:

Великі набори даних.
Категорію обчислювальних стратегій та технологій, що використовуються для обробки великих наборів даних.

У цьому контексті "великий набір даних" означає набір даних, який надто великий, щоб оброблятися або зберігатися за допомогою традиційних інструментів або на одному комп'ютері. Це означає, що загальний масштаб великих наборів даних постійно змінюється і може значно змінюватися час від часу.

Системи великих даних

Основні вимоги до роботи з великими даними такі ж, як і до інших наборів даних. Однак масові масштаби, швидкість обробки та характеристики даних, що зустрічаються на кожному етапі процесу, становлять серйозні нові проблеми при розробці коштів. Метою більшості систем великих даних є розуміння та зв'язок з великими обсягами різнорідних даних, що було б неможливим при використанні звичайних методів.

У 2001 році Даг Лейні (Doug Laney) з Gartner представив "три V великих даних", щоб описати деякі характеристики, які відрізняють обробку великих даних від процесу обробки даних інших типів:

Volume (обсяг даних).
Velocity (швидкість накопичення та обробки даних).
Variety (різноманітність типів оброблюваних даних).

Обсяг даних

Винятковий масштаб інформації, що обробляється, допомагає визначити системи великих даних. Ці набори даних можуть бути на порядки більшими, ніж традиційні набори, що потребує більшої уваги на кожному етапі обробки та зберігання.

Оскільки вимоги перевищують можливості одного комп'ютера, часто виникає проблема об'єднання, розподілу та координації ресурсів із груп комп'ютерів. Кластерне управління і алгоритми, здатні розбивати завдання більш дрібні частини, стають у цій галузі дедалі важливішими.

Швидкість накопичення та обробки

Друга характеристика, яка суттєво відрізняє великі дані з інших систем даних, — це швидкість, з якою інформація переміщається системою. Дані часто надходять у систему з кількох джерел і мають оброблятися як реального часу, щоб оновити поточний стан системи.

Цей акцент на миттєвій зворотнього зв'язкузмусив багатьох фахівців-практиків відмовитися від пакетно-орієнтованого підходу та віддати перевагу потоковій системі реального часу. Дані постійно додаються, обробляються та аналізуються, щоб встигати за припливом нової інформаціїі отримувати цінні дані на ранній стадії, коли це є найбільш актуальним. Для цього необхідні надійні системи з високодоступними компонентами для захисту від збоїв конвеєру даних.

Різноманітність типів оброблюваних даних

У великих даних існує безліч унікальних проблем, пов'язаних із широким спектром оброблюваних джерел та їхньою відносною якістю.

Дані можуть надходити з внутрішніх систем, таких як логи додатків та серверів, з каналів соціальних мереж та інших зовнішніх API-інтерфейсів, з датчиків фізичних пристроївта з інших джерел. Метою систем великих даних є обробка потенційно корисних даних незалежно від походження шляхом об'єднання усієї інформації в єдину систему.

Формати та типи носіїв також можуть значно відрізнятися. Медіафайли (зображення, відео та аудіо) поєднуються з текстовими файлами, структурованими логами і т. д. Більш традиційні системи обробки даних розраховують, що дані потрапляють у конвеєр вже поміченими, відформатованими та організованими, але системи великих даних зазвичай приймають та зберігають дані, намагаючись зберегти їх вихідний стан. В ідеалі будь-які перетворення чи зміни необроблених даних відбуватимуться у пам'яті під час обробки.

Інші характеристики

Згодом фахівці та організації запропонували розширити початкові «три V», хоча ці нововведення зазвичай описують проблеми, а не характеристики великих даних.

Veracity (достовірність даних): різноманітність джерел та складність обробки можуть призвести до проблем при оцінці якості даних (і, отже, якості отриманого аналізу).
Variability (змінність даних): зміна даних призводить до широких змін якості. Для ідентифікації, обробки або фільтрації даних низької якості можуть знадобитися додаткові ресурси, які зможуть підвищити якість даних.
Value (цінність даних): кінцеве завдання великих даних – це цінність. Іноді системи та процеси дуже складні, що ускладнює використання даних та вилучення фактичних значень.

Життєвий цикл великих даних

Отже, як насправді обробляють великі дані? Існує декілька різних підходівдо реалізації, але у стратегіях та програмному забезпеченні є спільні риси.

Внесення даних до системи
Збереження даних у сховищі
Обчислення та аналіз даних
Візуалізація результатів

Перш ніж докладно розглянути ці чотири категорії робочих процесів, поговоримо про кластерні обчислення, важливу стратегію, яка використовується багатьма засобами для обробки великих даних. Налаштування обчислювального кластера є основою технології, використовуваної кожному етапі життєвого циклу.

Кластерні обчислення

Через якість великих даних окремі комп'ютери не підходять для обробки даних. Для цього більше підходять кластери, тому що вони можуть справлятися із зберіганням та обчислювальними потребами великих даних.

Програмне забезпечення для кластеризації великих даних поєднує ресурси багатьох невеликих машин, прагнучи забезпечити ряд переваг:

Об'єднання ресурсів: для обробки великих наборів даних потрібно багато ресурсів процесора і пам'яті, а також багато доступного простору для зберігання даних.
Висока доступність: кластери можуть забезпечувати різні рівні відмовостійкості та доступності, завдяки чому апаратні або програмні збої не вплинуть на доступ до даних та їх обробку. Це особливо важливо для аналітики у реальному часі.
Масштабованість: кластери підтримують швидке горизонтальне масштабування (додавання нових машин до кластера).

Для роботи в кластері необхідні засоби для управління членством у кластері, координації розподілу ресурсів та планування роботи з окремими нодами. Членство в кластерах та розподіл ресурсів можна обробляти за допомогою програм типу Hadoop YARN (Yet Another Resource Negotiator) або Apache Mesos.

Збірний обчислювальний кластер часто виступає як основа, з якою для обробки даних взаємодіє інше програмне забезпечення. Машини, що у обчислювальному кластері, також зазвичай пов'язані з управлінням розподіленої системою зберігання.

Отримання даних

Прийом даних – це процес додавання необроблених даних у систему. Складність цієї операції багато в чому залежить від формату та якості джерел даних та від того, наскільки дані відповідають вимогам для обробки.

Додати великі дані до системи можна за допомогою спеціальних інструментів. Такі технології, як Apache Sqoop, можуть приймати існуючі дані з реляційних баз даних і додавати їх до системи великих даних. Також можна використовувати Apache Flume та Apache Chukwa – проекти, призначені для агрегування та імпорту логів додатків та серверів. Брокери повідомлень, такі як Apache Kafka, можуть використовуватися як інтерфейс між різними генераторами даних і системою великих даних. Фреймворки типу Gobblin можуть об'єднати та оптимізувати виведення всіх інструментів наприкінці конвеєра.

Під час прийому даних зазвичай проводиться аналіз, сортування та маркування. Цей процес іноді називають ETL (extract, transform, load), що означає вилучення, перетворення та завантаження. Хоча цей термін зазвичай стосується застарілих процесів зберігання даних, іноді він застосовується і до систем великих даних. серед типових операцій – зміна вхідних даних для форматування, категоризація та маркування, фільтрація чи перевірка даних на відповідність вимогам.

В ідеалі, дані, що надійшли, проходять мінімальне форматування.

Збереження даних

Після прийому дані переходять до компонентів, що керують сховищем.

Зазвичай зберігання необроблених даних використовуються розподілені файлові системи. Такі рішення, як HDFS від Apache Hadoop, дозволяють записувати великі обсяги даних на кілька нод у кластері. Ця система забезпечує обчислювальним ресурсам доступ до даних, може завантажити дані в ОЗП кластера для операцій із пам'яттю та обробляти збої компонентів. Замість HDFS можна використовувати інші розподілені файлові системи, включаючи Ceph і GlusterFS.

Дані також можна імпортувати до інших розподілених систем для більш структурованого доступу. Розподілені бази даних, особливо бази даних NoSQL, добре підходять цієї ролі, оскільки можуть обробляти неоднорідні дані. Існує безліч різних типів розподілених базданих, вибір залежить від того, як ви хочете організовувати та подавати дані.

Обчислення та аналіз даних

Як тільки дані будуть доступні, система може розпочати обробку. Обчислювальний рівень, мабуть, є найвільнішою частиною системи, оскільки вимоги та підходи тут можуть відрізнятися залежно від типу інформації. Дані часто обробляються повторно: за допомогою одного інструменту або за допомогою ряду інструментів для обробки різних типів даних.

Пакетна обробка – це один із методів обчислення у великих наборах даних. Цей процес включає розбивку даних на дрібніші частини, планування обробки кожної частини на окремій машині, перестановку даних на основі проміжних результатів, а потім обчислення та збирання остаточного результату. Цю стратегію використовує MapReduce від Apache Hadoop. Пакетна обробка найбільш корисна при роботі з дуже великими наборами даних, для яких потрібно багато обчислень.

Інші робочі навантаження потребують обробки у режимі реального часу. При цьому інформація повинна оброблятися та готуватися негайно, і система має своєчасно реагувати у міру надходження нової інформації. Одним із способів реалізації обробки в реальному часі є обробка безперервного потоку даних, що складаються з окремих елементів. Ще одна Загальна характеристикапроцесорів реального часу – це обчислення даних у пам'яті кластера, що дозволяє уникнути запису на диск.

Apache Storm, Apache Flink та Apache Spark пропонують різні способиреалізації обробки у реальному часі. Ці гнучкі технології дозволяють підібрати найкращий підхід кожної окремої проблеми. Загалом обробка в режимі реального часу найкраще підходить для аналізу невеликих фрагментів даних, які змінюються або швидко додаються до системи.

Усі ці програми є фреймворками. Однак є багато інших способів обчислення чи аналізу даних у системі великих даних. Ці інструменти часто підключаються до вищезгаданих фреймворків і надають додаткові інтерфейси для взаємодії з нижчими рівнями. Наприклад, Apache Hive надає інтерфейс сховища даних для Hadoop, Apache Pig надає інтерфейс запитів, а взаємодії з даними SQL забезпечуються за допомогою Apache Drill, Apache Impala, Apache Spark SQL та Presto. У машинному навчанні застосовуються Apache SystemML, Apache Mahout та MLlib від Apache Spark. Для прямого аналітичного програмування, яке широко підтримується екосистемою даних, використовують R та Python.

Візуалізація результатів

Часто розпізнавання тенденцій чи змін у даних із часом важливіше отриманих значень. Візуалізація даних – один із найбільш корисних способів виявлення тенденцій та організації великої кількості точок даних.

Обробка в реальному часі використовується для візуалізації метрик програми та сервера. Дані часто змінюються, і великі розльоти у показниках зазвичай вказують на значний вплив на стан систем чи організацій. Проекти типу Prometheus можна використовуватиме обробки потоків даних і часових рядів і візуалізації цієї інформації.

Одним із популярних способів візуалізації даних є стек Elastic, раніше відомий як стек ELK. Logstash використовується для збору даних, Elasticsearch для індексування даних, а Kibana – для візуалізації. Стек Elastic може працювати з великими даними, візуалізувати результати обчислень чи взаємодіяти з необробленими метриками. Аналогічний стек можна отримати, поєднавши Apache Solr для індексування форк Kibana під назвою Banana для візуалізації. Такий стек називається Silk.

Іншою технологією візуалізації для інтерактивної роботи в галузі даних є документи. Такі проекти дозволяють здійснювати інтерактивне дослідження та візуалізацію даних у форматі, зручному для спільного використаннята подання даних. Популярними прикладами цього інтерфейсу є Jupyter Notebook і Apache Zeppelin.

Глосарій великих даних

Великі дані – широкий термін позначення наборів даних, які можуть бути коректно оброблені звичайними комп'ютерамиабо інструментами через їх обсяг, швидкість надходження та різноманітність. Цей термін також зазвичай застосовується до технологій та стратегій для роботи з такими даними.
Пакетна обробка – це обчислювальна стратегія, що включає обробку даних у великих наборах. Зазвичай, цей метод ідеально підходить для роботи з нетерміновими даними.
Кластеризовані обчислення – це практика об'єднання ресурсів кількох машин та управління їх спільними можливостями до виконання завдань. При цьому необхідний рівень керування кластером, який обробляє зв'язок між окремими нодами.
Озеро даних – велике сховище зібраних даних у відносно сирому стані. Цей термін часто використовується для позначення неструктурованих великих даних, що часто змінюються.
Видобуток даних – це широкий термін позначення різних практик пошуку шаблонів у великих наборах даних. Це спроба організувати масу даних більш зрозумілий і зв'язковий набір інформації.
Сховище даних (data warehouse) - це велике, впорядковане сховище для аналізу та звітності. На відміну від озера даних сховище складається з відформатованих та добре впорядкованих даних, інтегрованих з іншими джерелами. Сховища даних часто згадуються щодо великих даних, але часто є компонентами звичайних систем обробки даних.
ETL (extract, transform, та load) – вилучення, перетворення та завантаження даних. Такий процес отримання та підготовки необроблених даних до використання. Він пов'язаний із сховищами даних, але характеристики цього процесу також виявляються у конвеєрах систем великих даних.
Hadoop – це проект Apache з відкритим кодом для великих даних. Він складається з розподіленої файлової системипід назвою HDFS та планувальника кластерів та ресурсів, який називається YARN. Можливості пакетної обробкинадаються механізмом обчислення MapReduce. Разом з MapReduce у сучасних розгортаннях Hadoop можна запускати інші обчислювальні та аналітичні системи.
Обчислення пам'яті – це стратегія, яка передбачає повне переміщення робочих наборів даних у пам'ять кластера. Проміжні обчислення не записуються на диск, натомість вони зберігаються у пам'яті. Це дає системам величезну перевагу у швидкості, порівняно з системами, пов'язаними з I/O.
Машинне навчання – це дослідження і практика проектування систем, які можуть навчатися, налаштовуватися і покращуватися на основі даних, що передаються їм. Зазвичай під цим мають на увазі реалізацію прогнозуючих та статистичних алгоритмів.
Map reduce (не плутати з MapReduce від Hadoop) – це метод планування роботи обчислювального кластера. Процес включає поділ завдання між нодами і отримання проміжних результатів, перетасовування і наступний висновок єдиного значення для кожного набору.
NoSQL – це широкий термін, що означає бази даних, розроблені поза традиційною реляційної моделі. Бази даних NoSQL добре підходять для великих даних завдяки їх гнучкості та розподіленій архітектурі.
Потокова обробка – це практика обчислення окремих елементів даних за її переміщенні системою. Це дозволяє аналізувати дані в режимі реального часу та підходить для обробки термінових операцій із використанням високошвидкісних метрик.

Tags: ,

Термін «Біг-Дата», можливо, сьогодні вже впізнаваний, але навколо нього все ще досить багато плутанини щодо того, що він означає насправді. Правду кажучи, концепція постійно розвивається і переглядається, оскільки вона залишається рушійною силою багатьох хвиль цифрового перетворення, що продовжуються, включаючи штучний інтелект, науку про дані та Інтернет речей. Але що є технологія Big-Data і як вона змінює наш світ? Спробуймо розібратися пояснити суть технології Біг-Дати і що вона означає простими словами.

Дивовижне зростання Біг-Дати

Все почалося зі «вибуху» в обсязі даних, які ми створили від початку цифрової епохи. Це багато в чому пов'язане з розвитком комп'ютерів, Інтернету та технологій, здатних «вихоплювати» дані з навколишнього світу. Дані власними силами є новим винаходом. Ще до епохи комп'ютерів та баз даних ми використовували паперові записи транзакцій, клієнтські записи та архівні файли, які є даними. Комп'ютери, особливо електронні таблиці та бази даних, дозволили нам легко і легко зберігати та впорядковувати дані у великих масштабах. Несподівано інформація стала доступною за допомогою одного клацання миші.

Тим не менш, ми пройшли довгий шлях від початкових таблиць та баз даних. Сьогодні через кожні два дні ми створюємо стільки даних, скільки ми отримали від початку до 2000 року. Правильно через кожні два дні. І обсяг даних, які ми створюємо, продовжує стрімко зростати; до 2020 обсяг доступної цифрової інформації зросте приблизно з 5 зеттабайтів до 20 зеттабайтів.

В даний час майже кожна дія, яку ми робимо, залишає свій слід. Ми генеруємо дані щоразу, коли виходимо в Інтернет, коли переносимо наші смартфони, обладнані пошуковим модулем, коли розмовляємо з нашими знайомими через соціальні мережіабо чати і т.д. До того ж кількість даних, згенерованих машинним способом, також швидко зростає. Дані генеруються та поширюються, коли наші «розумні» домашні пристрої обмінюються даними один з одним або зі своїми домашніми серверами. Промислове обладнання на заводах та фабриках все частіше оснащується датчиками, які акумулюють та передають дані.

Термін «Big-Data» стосується збору всіх цих даних і нашої здатності використовувати їх у своїх інтересах у широкому спектрі областей, включаючи бізнес.

Як працює технологія Big Data?

Біг Дата працює за принципом: чим більше ви знаєте про той чи інший предмет чи явище, тим достовірніше ви зможете досягти нового розуміння та передбачити, що станеться у майбутньому. У ході порівняння більшої кількостіточок даних виникають взаємозв'язки, які раніше були приховані, і ці взаємозв'язки дозволяють нам навчатися та приймати більш виважені рішення. Найчастіше це робиться за допомогою процесу, який включає побудову моделей на основі даних, які ми можемо зібрати, і подальший запуск імітації, в ході якої щоразу налаштовуються значення точок даних і відстежується те, як вони впливають на наші результати. Цей процес автоматизовано сучасні технологіїаналітики запускатимуть мільйони цих симуляцій, налаштовуючи всі можливі змінні доти, доки не знайдуть модель — чи ідею — які допоможуть вирішити проблему, над якою вони працюють.

Біл Гейтс висить над паперовим вмістом одного компакт-диска

Донедавна дані були обмежені електронними таблицями чи базами даних — і все було дуже впорядковане та акуратне. Все те, що не можна було легко організувати в рядки та стовпці, розцінювалося як надто складне для роботи та ігнорувалося. Однак прогрес у галузі зберігання та аналітики означає, що ми можемо фіксувати, зберігати та обробляти велику кількість даних різного типу. В результаті «дані» на сьогоднішній день можуть означати будь-що, починаючи базами даних, і закінчуючи фотографіями, відео, звукозаписами, письмовими текстами та даними датчиків.

Щоб зрозуміти всі ці безладні дані, проекти, що мають в основі Біг Дату, найчастіше використовують ультрасучасну аналітику із залученням штучного інтелекту та комп'ютерного навчання. Навчаючи обчислювальні машини визначати, що є конкретні дані — наприклад, у вигляді розпізнавання образів чи обробки природної мови – ми можемо навчити їх визначати моделі набагато швидше і достовірніше, ніж ми самі.

Як використовується Біг-Дата?

Цей потік інформації, що постійно збільшується, про дані датчиків, текстових, голосових, фото- і відеоданих означає, що тепер ми можемо використовувати дані тими способами, які неможливо було уявити ще кілька років тому. Це приносить революційні зміни у світ бізнесу чи не в кожній галузі. Сьогодні компанії можуть з неймовірною точністю передбачити, які конкретні категорії клієнтів захочуть зробити придбання і коли. Біг Дата також допомагає компаніям виконувати свою діяльність набагато ефективніше.

Навіть поза сферою бізнесу проекти, пов'язані з Big-Data, вже допомагають змінити наш світ різними шляхами:

Покраща здоров'я — медицина, керована даними, здатна аналізувати величезну кількість медичної інформації та зображень для моделей, які можуть допомогти виявити захворювання на ранній стадії та розробити нові ліки.
Прогнозуючи та реагуючи на природні та техногенні катастрофи. Дані датчиків можна проаналізувати, щоб передбачити, де можуть статися землетруси, а моделі поведінки людини підказують, які допомагають організаціям надавати допомогу тим, хто вижив. Технологія Біг Дати також використовується для відстеження та захисту потоку біженців із зон воєнних дій у всьому світі.
Запобігаючи злочинності. Поліцейські сили все частіше використовують стратегії, засновані на даних, які включають їхню власну розвідувальну інформацію та інформацію з відкритого доступудля більш ефективного використання ресурсів та вжиття стримувальних заходів там, де це необхідно.

Кращі книги про технологію Big-Data

Всі брешуть. Пошуковики, Big Data та Інтернет знають про вас все.
BIG DATA. Вся технологія в одній книзі.
Промисловість щастя. Як Big Data та нові технології допомагають додати емоцію в товари та послуги.
Революція аналітики. Як у епоху Big Data покращити ваш бізнес за допомогою операційної аналітики.

Проблеми з Big-Data

Біг Дата дає нам безпрецедентні ідеї та можливості, але також порушує проблеми та питання, які необхідно вирішити:

Конфіденційність даних – Big-Data, яку ми сьогодні генеруємо, містить багато інформації про наше особисте життя, на конфіденційність якого ми маємо повне право. Дедалі частіше нас просять знайти баланс між кількістю персональних даних, які ми розкриваємо, та зручністю, яку пропонують додатки та послуги, засновані на використанні Біг Дати.
Захист даних — навіть якщо ми вирішуємо, що нас влаштовує те, що хтось має наші дані для певної мети, чи можемо ми довіряти йому збереження та безпеку наших даних?
Дискримінація даних — коли вся інформація буде відома, чи стане прийнятною дискримінація людей на основі даних із їхнього особистого життя? Ми вже використовуємо оцінки кредитоспроможності, щоб вирішити, хто може брати гроші, і страхування також значною мірою залежить від даних. Нам варто очікувати, що нас будуть аналізувати і оцінювати більш детально, проте слід подбати про те, щоб це не ускладнювало життя тих людей, які мають менші ресурси та обмежений доступ до інформації.

Виконання цих завдань є важливою складовою Біг Дати і їх необхідно вирішувати організаціям, які хочуть використовувати такі дані. Нездатність здійснити це може зробити бізнес вразливим, причому не лише з погляду його репутації, але й з юридичної та фінансової сторони.

Дивлячись у майбутнє

Дані змінюють наш світ та наше життя небувалими темпами. Якщо Big-Data здатна на все це сьогодні, просто уявіть, на що вона буде здатна завтра. Обсяг доступних нам даних лише збільшиться, а технологія аналітики стане ще більш сучасною.

Для бізнесу здатність застосовувати Біг Дату ставатиме все більш вирішальною у найближчі роки. Тільки ті компанії, які розглядають дані як стратегічний актив, виживуть і процвітатимуть. Ті, хто ігнорує цю революцію, ризикують залишитися позаду.

Big Data- англ. "великі дані". Термін з'явився як альтернатива СУБД і став одним із основних трендів IT-інфраструктури, коли більшість гігантів індустрії – IBM, Microsoft, HP, Oracle та інші почали використовувати це поняття у своїх стратегіях. Під Big Data розуміють величезний (сотні терабайт) масив даних, який не можна обробити традиційними методами; іноді – інструменти та методи обробки цих даних.

Приклади джерел Big Data: події RFID, повідомлення в соцмережах, метеорологічна статистика, інформація про місцезнаходження абонентів мереж мобільного стільникового зв'язку та дані з пристроїв аудіо/відеореєстрації. Тому «великі дані» широко використовуються на виробництві, охороні здоров'я, держуправлінні, інтернет-бізнесі – зокрема, під час аналізу цільової аудиторії.

Характеристика

Ознаки big data визначаються як "три V": Volume - обсяг (дійсно великі); variety - різнорідність, безліч; velocity - швидкість (необхідність дуже швидкої обробки).

Великі дані найчастіше неструктуровані, і їх обробки потрібні особливі алгоритми. До методів аналізу великих даних відносяться:

(«видобуток даних») – комплекс підходів виявлення прихованих корисних знань, які можуть бути отримані стандартними способами;
Crowdsourcing (crowd - «натовп», sourcing - використання як джерело) - вирішення значущих завдань спільними зусиллями добровольців, які не перебувають в обов'язковому трудовому договорі та відносинах, що координують діяльність за допомогою інструментів IT;
Data Fusion & Integration («змішування та впровадження даних») – набір методів для з'єднання безлічі джерел у рамках проведення глибокого аналізу;
Machine Learning («машинне навчання») – підрозділ досліджень штучного інтелекту, який вивчає методи використання аналізу статистики та отримання прогнозів на основі базових моделей;
розпізнавання образів (наприклад, розпізнавання облич у видошукачі фотоапарата або відеокамери);
просторовий аналіз – використання топології, геометрії та географії для побудови даних;
візуалізація даних – виведення аналітичної інформації у вигляді ілюстрацій та діаграм за допомогою інтерактивних інструментів та анімації для відстеження результатів та побудови фундаменту подальшого моніторингу.

Зберігання та аналіз інформації здійснюється на великій кількості серверів високої продуктивності. Ключовою технологією є Hadoop з відкритим вихідним кодом.

Так як кількість інформації з часом тільки збільшуватиметься, то складність полягає не в тому, щоб отримати дані, а в тому як їх обробити з максимальною користю. В цілому, процес роботи з Big Data включає: збір інформації, її структурування, створення інсайтів і контекстів, розробка рекомендацій до дії. Ще до першого етапу важливо чітко визначити мету роботи: навіщо саме потрібні дані, наприклад – визначення цільової аудиторії товару. Інакше є ризик отримати масу відомостей без розуміння у тому, як саме їх можна використовувати.

Тільки лінивий не говорить про Big data, але що це таке і як це працює – розуміє навряд чи. Почнемо з найпростішого – термінологія. Говорячи російською, Big data - це різні інструменти, підходи та методи обробки як структурованих, так і неструктурованих даних для того, щоб їх використовувати для конкретних завдань та цілей.

Неструктуровані дані - це інформація, яка не має наперед визначеної структури або не організована в певному порядку.

Термін «великі дані» запровадив редактор журналу Nature Кліффорд Лінч ще у 2008 році у спецвипуску, присвяченому вибуховому зростанню світових обсягів інформації. Хоча, звичайно, найбільші дані існували і раніше. За словами фахівців, до категорії Big data належить більшість потоків даних понад 100 Гб на день.

Читайте також:

Сьогодні під цим простим терміном ховається лише два слова - зберігання та обробка даних.

Big data - простими словами

У сучасному світі Big data – соціально-економічний феномен, який пов'язаний з тим, що з'явилися нові технологічні можливості для аналізу величезної кількості даних.

Читайте також:

Для простоти розуміння уявіть супермаркет, в якому всі товари лежать не в звичному порядку. Хліб поруч із фруктами, томатна паста біля замороженої піци, рідина для розпалювання навпроти стелажу з тампонами, на якому окрім інших стоїть авокадо, тофу чи гриби шиїтаке. Big data розставляють все по своїх місцях і допомагають вам знайти горіхове молоко, дізнатися вартість і термін придатності, а ще - хто, крім вас, купує таке молоко і чим воно краще за молоко коров'ячого.

Кеннет Кук'єр: Великі дані - найкращі дані

Технологія Big data

Величезні обсяги даних обробляються у тому, щоб людина міг отримати конкретні й необхідні йому результати їхнього подальшого ефективного застосування.

Читайте також:

Фактично, Big data - це вирішення проблем та альтернатива традиційним системам управління даними.

Техніки та методи аналізу, застосовні до Big data по McKinsey:

Data Mining;
Краудсорсінг;
Змішування та інтеграція даних;
Машинне навчання;
Штучні нейронні мережі;
Розпізнавання образів;
прогнозна аналітика;
Імітаційне моделювання;
Просторовий аналіз;
Статистичний аналіз;
Візуалізація аналітичних даних.

Горизонтальна масштабованість, що забезпечує обробку даних – базовий принцип обробки великих даних. Дані розподілені на обчислювальні вузли, а обробка відбувається без деградації продуктивності. McKinsey включив у контекст застосування також реляційні системи управління та Business Intelligence.

Технології:

NoSQL;
MapReduce;
Hadoop;
Апаратні рішення.

Читайте також:

Для великих даних виділяють традиційні визначальні характеристики, вироблені Meta Group ще 2001 року, які називаються « Три V»:

Volume- Величина фізичного обсягу.
Velocity- швидкість приросту та необхідності швидкої обробки даних для отримання результатів.
Variety- можливість одночасно обробляти різні типиданих.

Big data: застосування та можливості

Обсяги неоднорідної цифрової інформації, що швидко надходить, обробити традиційними інструментами неможливо. Сам аналіз даних дозволяє побачити певні та непомітні закономірності, які не може побачити людина. Це дозволяє оптимізувати всі сфери нашого життя – від державного управління до виробництва та телекомунікацій.

Наприклад, деякі компанії ще кілька років тому захищали своїх клієнтів від шахрайства, а турбота про гроші клієнта – турбота про свої власні гроші.

Сюзан Етліджер: Як бути з великими даними?

Рішення на основі Big data: "Сбербанк", "Білайн" та інші компанії

«Білайн» має величезну кількість даних про абонентів, які вони використовують не тільки для роботи з ними, а й для створення аналітичних продуктів, на зразок зовнішнього консалтингу або IPTV-аналітики. «Білайн» сегментували базу та захистили клієнтів від грошових махінацій та вірусів, використавши для зберігання HDFS та Apache Spark, а для обробки даних – Rapidminer та Python.

Читайте також:

Або пригадаємо «Сбербанк» із їхнім старим кейсом під назвою АС САФІ. Це система, яка аналізує фотографії для ідентифікації клієнтів банку та запобігає шахрайству. Система була впроваджена ще в 2014 році, в основі системи – порівняння фотографій із бази, які потрапляють туди з веб-камер на стійках завдяки комп'ютерному зору. Основа системи – біометрична платформа. Завдяки цьому випадки шахрайства зменшилися в 10 разів.

Big data у світі

До 2020 року, за прогнозами, людство сформує 40-44 зеттабайти інформації. А до 2025 року зросте в 10 разів, йдеться у доповіді The Data Age 2025, яку підготували аналітики компанії IDC. У доповіді наголошується, що більшу частину даних генеруватимуть самі підприємства, а не звичайні споживачі.

Аналітики дослідження вважають, що дані стануть життєво важливим активом, а безпека – критично важливим фундаментом у житті. Також автори роботи впевнені, що технологія змінить економічний ландшафт, звичайний користувачкомунікуватиме з підключеними пристроями близько 4800 разів на день.

Ринок Big data у Росії

У 2017 році світовий дохід на ринку big data має досягти $150,8 млрд, що на 12,4% більше, ніж минулого року. У світовому масштабі російський ринокпослуг та технологій big data ще дуже малий. У 2014 році американська компанія IDC оцінювала його в $340 млн. У Росії технологію використовують у банківській сфері, енергетиці, логістиці, державному секторі, телекомі та промисловості.

Читайте також:

Щодо ринку даних, він у Росії тільки зароджується. Усередині екосистеми RTB постачальниками даних виступають власники програматик-платформ управління даними (DMP) та бірж даних (data exchange). Телеком-оператори в пілотному режимі діляться з банками споживчою інформацією про потенційних позичальників.

Зазвичай великі дані надходять із трьох джерел:

Інтернет (соцмережі, форуми, блоги, ЗМІ та інші сайти);
Корпоративні архіви документів;
Покази датчиків, приладів та інших пристроїв.

Big data у банках

Крім системи, описаної вище, у стратегії Ощадбанку на 2014-2018 рр. йдеться про важливість аналізу супермасивів даних для якісного обслуговування клієнтів, управління ризиками та оптимізації витрат. Наразі банк використовує Big data для управління ризиками, боротьби з шахрайством, сегментації та оцінки кредитоспроможності клієнтів, управління персоналом, прогнозування черг у відділеннях, розрахунку бонусів для співробітників та інших завдань.

«ВТБ24» користується великими даними для сегментації та управління відтоком клієнтів, формування фінансової звітності, аналізу відгуків у соцмережах та на форумах. Для цього він застосовує рішення Teradata, SAS Visual Analytics та SAS Marketing Optimizer.