Data mining технология
Технология Data mining – интеллектуальная обработка данных с использованием методов машинного обучения, математической статистики и теории баз данных.
2. История создания и развитияТермин «data mining» появился в 1990-х годах, но как таковая обработка данных возникла в 18 веке, основываясь на теореме Байеса, чуть позже на регрессионном анализе.
По мере того как количество данных росло, изобретались новые технологии в области информатики (нейронные сети, генетические алгоритмы, метод деревьев решений и т.д.), появлялась возможность хранения большого количества данных и увеличение скорости обработки информации компьютерами интерес к data mining стремительно рос и вскоре обработка данных стала считаться отдельной дисциплиной. Сейчас data mining включает в себя обработку не только текстовых данных (text data mining), но и графических и мультимедийных(web mining).
Устоявшегося перевода словосочетания «data mining» на русский язык нет, дословно это переводится как «добыча данных». Но чаще всего используют формулировку «интеллектуальная обработка данных».
В настоящее время data mining является частью большего понятия – Big data, которое помимо обработки данных включает в себя их сбор и хранение.
3. Технические характеристикиФундаментально data mining основывается на 3-х понятиях:
-
Математическая статистика – является основой большинства технологий, используемых для data mining, например, кластерный анализ, регрессионный анализ, дискриминирующий анализ и пр.;
-
Искусственный интеллект – воспроизведение нейронной сети мышления человека в цифровом виде;
-
Машинное обучение – совокупность статистики и искусственного интеллекта, способствующая пониманию компьютерами данных, которые они обрабатывают для выбора наиболее подходящего метода или методов анализа.
В data mining используются следующие основные классы задач:·
-
обнаружение отклонений – выявление данных, отличающихся по каким-либо параметрам из общей массы;
-
обучение ассоциациям – поиск взаимосвязей между событиями;
-
кластеризация – группирование наборов данных, без заранее известных шаблонов;
-
классификация – обобщение известного шаблона для применения к новым данным;
-
регрессия – поиск функции, отображающей набор данных с наименьшим отклонением;
-
подведение итогов – отображение в сжатом виде исходной информации, включая предоставление отчетов и визуализацию.
4. Кейсы применения
Сегодня data mining широко используется в бизнесе, науке, технике, медицине, телекоммуникациях и т.п. Анализ данных по операциям с кредитными картами, анализ данных ЖКХ, программы карт лояльности в магазинах с учетом предпочтения покупателей, национальная безопасность (обнаружение вторжений), исследование генома человека – всего лишь небольшая часть возможных вариантов применения data mining.
5. Узнайте больше о решениях в области data miningДля того, чтобы ознакомиться с решениями в области data mining от ведущих российских поставщиков - свяжитесь с нами по номеру 8 (921) 781 24-49 - звонок, Telegram, Whatsapp или оставьте короткую заявку по ссылке.