Data mining

1. Определение

Data mining – интеллектуальная обработка данных с использованием методов машинного обучения, математической статистики и теории баз данных. 

2. История создания и развития

Термин «data mining» появился в 1990-х годах, но как таковая обработка данных возникла в 18 веке, основываясь на теореме Байеса, чуть позже на регрессионном анализе. 

По мере того как количество данных росло, изобретались новые технологии в области информатики (нейронные сети, генетические алгоритмы, метод деревьев решений и т.д.), появлялась возможность хранения большого количества данных и увеличение скорости обработки информации компьютерами интерес к data mining стремительно рос и вскоре обработка данных стала считаться отдельной дисциплиной. Сейчас data mining включает в себя обработку не только текстовых данных (text data mining), но и графических и мультимедийных(web mining).

Устоявшегося перевода словосочетания «data mining» на русский язык нет, дословно это переводится как «добыча данных». Но чаще всего используют формулировку «интеллектуальная обработка данных».

В настоящее время data mining является частью большего понятия – Big data, которое помимо обработки данных включает в себя их сбор и хранение.

3. Технические характеристики

Фундаментально data mining основывается на 3-х понятиях:

  • Математическая статистика – является основой большинства технологий, используемых для data mining, например, кластерный анализ, регрессионный анализ, дискриминирующий анализ и пр.;

  • Искусственный интеллект – воспроизведение нейронной сети мышления человека в цифровом виде;

  • Машинное обучение – совокупность статистики и искусственного интеллекта, способствующая пониманию компьютерами данных, которые они обрабатывают для выбора наиболее подходящего метода или методов анализа.

В data mining используются следующие основные классы задач:·   

  • обнаружение отклонений – выявление данных, отличающихся по каким-либо параметрам из общей массы;

  • обучение ассоциациям – поиск взаимосвязей между событиями;

  • кластеризация – группирование наборов данных, без заранее известных шаблонов;

  • классификация – обобщение известного шаблона для применения к новым данным;

  • регрессия – поиск функции, отображающей набор данных с наименьшим отклонением;

  • подведение итогов – отображение в сжатом виде исходной информации, включая предоставление отчетов и визуализацию.

4. Кейсы применения

Сегодня data mining широко используется в бизнесе, науке, технике, медицине, телекоммуникациях и т.п. Анализ данных по операциям с кредитными картами, анализ данных ЖКХ, программы карт лояльности в магазинах с учетом предпочтения покупателей, национальная безопасность (обнаружение вторжений), исследование генома человека – всего лишь небольшая часть возможных вариантов применения data mining.

5. Полезные ссылки

 

Читайте также