Що таке Data Mining?
Data mining - це збірна назва, яка використовується для опису цілого ряду методів дослідження та аналізу великих обсягів даних для виявлення в них закономірностей та правил. Видобуток даних вважається окремою дисципліною в галузі науки про дані. Якщо говорити про поширене застосування знань та розробок у даній сфері, то Data mining компанії найчастіше використовують для того, щоб витягувати з даних корисну для себе інформацію. За допомогою програмних рішень для пошуку патернів у великих обсягах даних компанії можуть вивчати поведінку та звички споживачів, щоб розробляти ефективніші маркетингові рішення, підвищувати продажі та скорочувати витрати. Крім того, методи інтелектуального аналізу даних використовуються для побудови моделей машинного навчання (machine learning, ML), які використовуються в сучасних програмах штучного інтелекту, таких як алгоритми пошукових систем та системи рекомендацій, наприклад. "Можна мати дані, але не мати інформації, але інформації без даних не буває." Деніел Кіз Моран (Daniel Keys Moran), експерт у програмуванні та письменник.Чим Data mining відрізняється від великих даних (Big data)?
Також буде корисно відразу прояснити, чим видобуток даних як поняття відрізняється від великих даних (до речі, про застосування Java у сфері великих даних у нас є окрема стаття ). Якщо говорити по-простому, то терміном Big data позначають всі аспекти великих обсягів різного роду даних, включаючи як структуровані, так і неструктуровані дані, їх збір, зберігання, класифікацію і т.д. Тоді як Data mining відноситься виключно до глибокого занурення в дані для отримання ключових знань, шаблонів і подібностей, а також іншої інформації з даних будь-якого обсягу (як великого, так і не дуже). Таким чином, обидва поняття ставляться до даних і загалом перетинаються, але Data mining — це вже використання зібраної інформації з конкретними цілями. Без глибинного аналізу даних компанії нічого не бачать і не чують; у Мережі вони так само безпорадні і розгублені, як олень, що вибіг на автостраду. Джеффрі Мур (Geoffrey Moore), письменник та спеціаліст з теорії менеджменту.Сфери застосування Data mining
Застосовується глибинний аналіз даних, як ви знаєте, дуже широко. Давайте коротко пройдемося по тих галузях та сфер діяльності, де він використовується найчастіше.-
Маркетинг та націлення цільових груп споживачів у рітейлі.
Найчастіше дата майнінгу застосовують рітейлери, щоб краще розуміти потреби своїх клієнтів. Аналіз даних дозволяє їм точніше розділяти споживачів за групами і підлаштовувати під них рекламні акції.
Наприклад, продуктові супермаркети часто пропонують покупцям завести карту постійного клієнта, яка відкриває знижки, недоступні іншим. За допомогою таких карток ритейлери збирають дані про те, які покупки здійснюють ті чи інші групи споживачів. Застосування глибинного аналізу до цих даних дозволяє вивчати їх звички та переваги, адаптуючи до обліку цієї інформації асортимент та акції.
-
Управління кредитними ризиками та кредитними історіями у банках.
Банки розробляють і впроваджують моделі інтелектуального аналізу даних для прогнозування можливості позичальника купувати і погашати кредити. Використовуючи різноманітні демографічні та особисті дані позичальника, ці моделі автоматично визначають відсоткову ставку залежно від рівня ризику кожного клієнта індивідуально.
-
Виявлення та боротьба з шахрайством у фінансовій сфері.
Фінансові організації використовують Data mining для виявлення та запобігання шахрайським транзакціям. Ця форма аналізу застосовується до всіх транзакцій, і часто споживачі навіть підозрюють про це. Наприклад, відстеження регулярних витрат клієнта банку дозволяє автоматично виявляти підозрілі платежі та миттєво затримувати їх здійснення доти, доки користувач не підтвердить покупку. Таким чином Data mining використовується для захисту споживачів від різноманітних шахраїв.
-
Аналіз настроїв у соціології.
Аналіз настроїв з урахуванням даних соціальних мереж — також поширена сфера застосування глибинного аналізу даних, у якій використовується метод, званий аналізом тексту. З його допомогою можна одержати розуміння того, як певна група людей відноситься до певної теми. Це робиться за допомогою автоматичного аналізу даних із соціальних мереж або інших громадських джерел.
-
Біоінформація у охороні здоров'я.
У медицині Data mining моделі використовуються, щоб передбачати можливість виникнення у пацієнта різних недуг на підставі факторів ризику. Для цього збирають та аналізують демографічні, сімейні та генетичні дані. У країнах з великим населенням такі моделі нещодавно почали впроваджувати, щоб діагностувати пацієнтів і розставляти пріоритети медичної допомоги ще до прибуття лікарів та особистого огляду.
Data mining та Java
Як ви вже, мабуть, зрозуміли з контексту, у сфері видобутку даних, як і скрізь у Big data , Java є однією з основних мов програмування. Тому зробимо невеликий огляд основних інструментів дата майнінгу Java.- RapidMiner
RapidMiner це відкрита платформа для видобутку даних, написана на Java. Одне з найкращих доступних рішень для прогнозного аналізу із можливістю створення інтегрованих середовищ для глибокого навчання, аналізу текстів та машинного навчання. Багато організацій використовують для глибинного аналізу даних саме її. RapidMiner можна використовувати як на локальних серверах, так і у хмарі.
-
Apache Mahout - це open source Java бібліотека для машинного навчання від Apache. Mahout є інструментом масштабованого машинного навчання з можливістю обробки даних на одній або декількох машинах. Реалізація даного машинного навчання написана на Java, деякі частини побудовані на Apache Hadoop.
-
MicroStrategy – це програмна платформа для бізнес-аналітики та аналізу даних, яка підтримує всі моделі видобутку даних. Завдяки широкому набору власних шлюзів та драйверів платформа може підключатися до будь-якого корпоративного ресурсу та аналізувати його дані. MicroStrategy чудово справляється з перетворенням складних даних на спрощені візуалізації, які можна використовувати з різними цілями.
-
Java Data Mining Package - це бібліотека Java з відкритим вихідним кодом для аналізу даних та машинного навчання. Вона полегшує доступ до джерел даних та алгоритмів машинного навчання та надає модулі візуалізації. JDMP включає ряд алгоритмів та інструментів, а також інтерфейси для інших пакетів машинного навчання та інтелектуального аналізу даних (таких як LibLinear, Elasticsearch, LibSVM, Mallet, Lucene, Octave та інші).
-
Machine Learning Suite — це відкритий список алгоритмів, які використовуються для розробки методів машинного навчання. Усі алгоритми WEKA заточені під машинне навчання та інтелектуальний аналіз даних. Зараз набір WEKA Machine Learning Suite широко використовується у бізнес-середовищі, надаючи компаніям спрощений аналіз даних та передиктивну аналітику.
Як здійснюється видобуток даних
Загальноприйнятий процес майнінгу даних складається із шести етапів.-
Визначення бізнес-цілей.
Для початку потрібно сформувати спільні бізнес-мети проекту та зрозуміти, як майнінг даних допоможе їх досягти. На цій стадії має бути розроблений план, що включає терміни, дії та призначення ролей.
-
Розуміння даних.
На другому етапі проводиться збір необхідних даних із різних джерел. Для вивчення властивостей даних, щоб гарантувати, що вони допоможуть досягти бізнес-цілей, часто використовують інструменти візуалізації. На цьому та наступному етапі найчастіше застосовуються Java-інструменти і, відповідно, потрібна кваліфікація Java-програміста.
-
Моделювання даних.
На цьому етапі до даних застосовуються спеціальні інструменти та математичні моделі, які дозволяють знаходити у них закономірності.
- Оцінка.
Потім отримані результати оцінюють і зіставляють із бізнес-цілями, щоб визначити, чи дозволяють отримані дані їх досягти.
-
Розгортання.
Ну і на заключному етапі здобуті в результаті вищезазначених кроків дані інтегруються в бізнес-операції. Як інструмент для впровадження отриманої інформації часто використовують різні платформи бізнес-аналітики.
Підготовка данних.
Далі дані очищаються і доповнюються, щоб переконатися, що масив готовий до видобутку інформації. Залежно від обсягу аналізованих даних та кількості джерел даних, обробка може займати велику кількість часу. Тож обробки використовують сучасні системи управління базами даних (СУБД), що дозволяє прискорити процес глибинного аналізу.