
Что такое Data mining?
Data mining — это собирательное название, которое используется для описания целого ряда методов исследования и анализа больших объемов данных для выявления в них закономерностей и правил. Добыча данных считается отдельной дисциплиной в области науки о данных. Если говорить о распространенном применении знаний и разработок в данной сфере, то Data mining компании чаще всего используют для того, чтобы извлекать из данных полезную для себя информацию. С помощью программных решений для поиска паттернов в больших объемах данных компании могут изучать поведение и привычки потребителей, чтобы разрабатывать более эффективные маркетинговые решения, повышать продажи и сокращать расходы. Кроме того, методы интеллектуального анализа данных используются для построения моделей машинного обучения (machine learning, ML), которые используются в современных приложениях искусственного интеллекта, таких как алгоритмы поисковых систем и системы рекомендаций, например. “Можно иметь данные, но не иметь информации, но информации без данных не бывает.” Дэниел Киз Моран (Daniel Keys Moran), эксперт в программировании и писатель.Чем Data mining отличается от Больших данных (Big data)?
Также будет полезно сразу прояснить, чем добыча данных как понятие отличается от Больших данных (к слову, о применении Java в сфере больших данных у нас есть отдельная статья). Если говорить по-простому, то термином Big data обозначают все аспекты больших объемов данных разного рода, включая как структурированные, так и неструктурированные данные, их сбор, хранение, классификацию и т.д. Тогда как Data mining относится исключительно к глубокому погружению в данные для извлечения ключевых знаний, шаблонов и сходств, а также другой информации из данных любого объема (как большого, так и не очень). Таким образом, оба понятия относятся к данным и в целом пересекаются, но Data mining — это уже об использовании собранной информации с конкретными целями. “Без глубинного анализа данных компании ничего не видят и не слышат; в Сети они так же беспомощны и растеряны, как олень, выбежавший на автостраду.” Джеффри Мур (Geoffrey Moore), писатель и специалист по теории менеджмента.
Сферы применения Data mining
Применяется глубинный анализ данных, как вы понимаете, очень широко. Давайте коротко пройдемся по тем отраслям и сферам деятельности, где он используется чаще всего.Маркетинг и таргетинг целевых групп потребителей в ритейле.
Чаще других дата майнинг применяют ритейлеры, чтобы лучше понимать потребности своих клиентов. Анализ данных позволяет им более точно разделять потребителей по группам и подстраивать под них рекламные акции.
Например, продуктовые супермаркеты часто предлагают покупателям завести карту постоянного клиента, которая открывает скидки, недоступные остальным. С помощью таких карт ритейлеры собирают данные о том, какие покупки совершают те или иные группы потребителей. Применение глубинного анализа к этим данным позволяет изучать их привычки и предпочтения, адаптируя к учётом этой информации ассортимент и акции.
Управление кредитными рисками и кредитными историями в банках.
Банки разрабатывают и внедряют модели интеллектуального анализа данных для прогнозирования способности заемщика брать и погашать кредиты. Используя разного рода демографические и личные данные заемщика, эти модели автоматически определяют процентную ставку в зависимости от уровня риска каждого клиента индивидуально.
-
Обнаружение и борьба с мошенничеством в финансовой сфере.
Финансовые организации используют Data mining для обнаружения и предотвращения мошеннических транзакций. Данная форма анализа применяется ко всем транзакциям, и зачастую потребители даже не подозревают об этом. Например, отслеживание регулярных расходов клиента банка позволяет автоматически выявлять подозрительные платежи и мгновенно задерживать их осуществление до тех пор, пока пользователь не подтвердит покупку. Таким образом Data mining используется для защиты потребителей от разного рода мошенников.
Анализ настроений в социологии.
Анализ настроений на основе данных социальных сетей — также распространенная сфера применения глубинного анализа данных, в которой используется метод, называемый анализом текста. С его помощью можно получить понимание того, как определенная группа людей относится к определенной теме. Это делается с помощью автоматического анализа данных из социальных сетей или других публичных источников.
Биоинформация в здравоохранении.
В медицине Data mining модели используются, чтобы предсказывать вероятность возникновения у пациента различных недугов на основании факторов риска. Для этого собирают и анализируют демографические, семейные и генетические данные. В развивающихся странах с большим населением такие модели не так давно начали внедрять, чтобы диагностировать пациентов и расставлять приоритеты медицинской помощи еще до прибытия врачей и личного осмотра.

Data mining и Java
Как вы уже, должно быть, поняли из контекста, в сфере добычи данных, как и везде в Big data, Java является одним из основных языков программирования. Поэтому сделаем небольшой обзор основных инструментов дата майнинга на Java.- RapidMiner
RapidMiner — это открытая платформа для добычи данных, написанная на Java. Одно из лучших доступных решений для прогнозного анализа с возможностью создания интегрированных сред для глубокого обучения, анализа текстов и машинного обучения. Многие организации используют для глубинного анализа данных именно ее. RapidMiner можно использовать как на локальных серверах, так и в облаке.
-
Apache Mahout — это open source Java библиотека для машинного обучения от Apache. Mahout является именно инструментом масштабируемого машинного обучения с возможностью обработки данных на одной или нескольких машинах. Реализации данного машинного обучения написаны на Java, некоторые части построены на Apache Hadoop.
-
MicroStrategy — это программная платформа для бизнес-аналитики и анализа данных, которая поддерживает все модели добычи данных. Благодаря широкому набору собственных шлюзов и драйверов платформа может подключаться к любому корпоративному ресурсу и анализировать его данные. MicroStrategy отлично справляется с преобразованием сложных данных в упрощенные визуализации, которые можно использовать с разными целями.
-
Java Data Mining Package — это библиотека Java с открытым исходным кодом для анализа данных и машинного обучения. Она облегчает доступ к источникам данных и алгоритмам машинного обучения и предоставляет модули визуализации. JDMP включает в себя ряд алгоритмов и инструментов, а также интерфейсы для других пакетов машинного обучения и интеллектуального анализа данных (таких как LibLinear, Elasticsearch, LibSVM, Mallet, Lucene, Octave и другие).
-
Waikato Environment for Knowledge Analysis (WEKA) Machine Learning Suite — это открытый список алгоритмов, которые используются для разработки методов машинного обучения. Все алгоритмы WEKA заточены под машинное обучение и интеллектуальный анализ данных. Сейчас набор WEKA Machine Learning Suite широко используется в бизнес-среде, предоставляя компаниям упрощенный анализ данных и предиктивную аналитику.

Как осуществляется добыча данных
Общепринятый процесс майнинга данных состоит из шести этапов.Определение бизнес-целей.
Для начала нужно сформировать общие бизнес-цели проекта и понять, как майнинг данных поможет их достичь. На этой стадии должен быть разработан план, включающий сроки, действия и назначения ролей.
Понимание данных.
На втором этапе проводится сбор необходимых данных из разных источников. Для изучения свойств данных, чтобы гарантировать, что они помогут достичь бизнес-целей, часто используют инструменты визуализации. На этом и следующем этапе чаще всего применяются Java-инструменты и, соответственно, требуется квалификация Java-программиста.
Моделирование данных.
На этом этапе к данным применяются специальные инструменты и математические модели, которые позволяют находить в них закономерности.
- Оценка.
Затем полученные результаты оценивают и сопоставляют с бизнес-целями, чтобы определить, позволяют ли полученные данные их достичь.
Развертывание.
Ну и на заключительном этапе добытые в результате вышеописанных шагов данные интегрируются в бизнес-операции. В качестве инструмента для внедрения полученной информации часто используют различные платформы бизнес-аналитики.
Подготовка данных.
Затем данные очищаются и дополняются, чтобы убедиться, что массив готов к добыче информации. В зависимости от объема анализируемых данных и количества источников данных, обработка может занимать огромное количество времени. Поэтому для обработки используют современные системы управления базами данных (СУБД), что позволяет ускорить процесс глубинного анализа.

ПЕРЕЙДИТЕ В ПОЛНУЮ ВЕРСИЮ