Big Data

1. Определение

Big Data (Большие данные) - термин IT, включающий в себя методы и алгоритмы обработки больших объемов неструктурированной информации, результаты которых могут использоваться человеком.

Целевые объемы данных, которые так же можно назвать «Big Data», начали накапливаться со вступления человечества в «информационную эру» и представляют из себя все множество информации, производимой людьми и машинами: поисковые запросы, обмен сообщениями, протоколы измеренных и полученных данных, видео-, аудиоинформация и т.д.

2. История создания и развития

Понятие Big Data используется с начала 1990-х годов. В 2001 был определен принцип 3-х V (velocity, volume, variety). В 2008 году в популярном журнале Nature вышла статья, обозревающая тенденцию увеличения объема неструктурированных данных, названных Big Data. Активное употребление термина, по данным Google Trends, началось в 2011 году. В 2012 компания Gartner формулирует общеиспользуемое определение понятия «Big Data». В 2013 году Big Data начинают изучать как академический предмет.

3. Технические характеристики

Термином «Big Data» можно назвать объемы информации, не помещающиеся на информационный носитель одного персонального устройства. Структуризация этой информации возможна лишь методами обработки «Big Data». И информация, и методы описываются тремя характеристиками:

  • Объем (volume) данных и объем их обработки применяемым методом;
  • Скорость (velocity) накопления данных и скорость обработки данных системой; 
  • Разнообразие (variety) типов данных и разнообразие одновременно обрабатываемых типов данных;
Также к характерным особенностям можно отнести:
  • Машинное обучение для систем «Big Data»;
  • Цифровые следы в информации;
Сами методы должны отвечать главному требованию - масштабируемости, чтобы отвечать постоянно растущим объемам информации.

Можно выделить множество методов обработки информации «Big Data»: распознавание образов, Data mining, нейронные сети, прогнозирование и т.д., на основе совокупностей которых можно сформировать различные системы.

В настоящее время применяется несколько основных технологий: MapReduce, Hadoop, NoSQL, а также язык программирования R.

4. Кейсы применения

Помимо структуризации и поиска информации, анализа больших баз данных, Big Data рассматривается как инструмент для маркетинга и развития бизнеса. Одно из применений, затронувшее всех пользователей интернета – таргетированная реклама, являющейся результатом обработки запросов пользователей в поисковых интернет-системах. 

5. Полезные ссылки

Источники: