Data mining. Як перетворювати дані на золото і навіщо для цього Java?

У публікаціях на JavaRush ми намагаємося регулярно робити огляди професій, ніш та спеціалізацій у ІТ-сфері. Насамперед тих, у яких активно застосовується мова програмування Java та написані на ньому платформи та рішення. Data mining. Як перетворювати дані на золото і навіщо для цього Java? - 1

Сьогодні поговоримо про Data mining (“видобуток даних”, “інтелектуальний аналіз даних”, “глибинний аналіз даних” або просто “майнінг даних” у російськомовній інтерпретації). "Ми віримо в Бога. Щоб повірити у решту, потрібні дані.” Вільям Едвардс Демінг (W. Edwards Deming), американський вчений та статистик.

Що таке Data Mining?

Data mining - це збірна назва, яка використовується для опису цілого ряду методів дослідження та аналізу великих обсягів даних для виявлення в них закономірностей та правил. Видобуток даних вважається окремою дисципліною в галузі науки про дані. Якщо говорити про поширене застосування знань та розробок у даній сфері, то Data mining компанії найчастіше використовують для того, щоб витягувати з даних корисну для себе інформацію. За допомогою програмних рішень для пошуку патернів у великих обсягах даних компанії можуть вивчати поведінку та звички споживачів, щоб розробляти ефективніші маркетингові рішення, підвищувати продажі та скорочувати витрати. Крім того, методи інтелектуального аналізу даних використовуються для побудови моделей машинного навчання (machine learning, ML), які використовуються в сучасних програмах штучного інтелекту, таких як алгоритми пошукових систем та системи рекомендацій, наприклад. "Можна мати дані, але не мати інформації, але інформації без даних не буває." Деніел Кіз Моран (Daniel Keys Moran), експерт у програмуванні та письменник.

Чим Data mining відрізняється від великих даних (Big data)?

Також буде корисно відразу прояснити, чим видобуток даних як поняття відрізняється від великих даних (до речі, про застосування Java у сфері великих даних у нас є окрема стаття ). Якщо говорити по-простому, то терміном Big data позначають всі аспекти великих обсягів різного роду даних, включаючи як структуровані, так і неструктуровані дані, їх збір, зберігання, класифікацію і т.д. Тоді як Data mining відноситься виключно до глибокого занурення в дані для отримання ключових знань, шаблонів і подібностей, а також іншої інформації з даних будь-якого обсягу (як великого, так і не дуже). Таким чином, обидва поняття ставляться до даних і загалом перетинаються, але Data mining — це вже використання зібраної інформації з конкретними цілями. Без глибинного аналізу даних компанії нічого не бачать і не чують; у Мережі вони так само безпорадні і розгублені, як олень, що вибіг на автостраду. Джеффрі Мур (Geoffrey Moore), письменник та спеціаліст з теорії менеджменту. Data mining. Як перетворювати дані на золото і навіщо для цього Java? - 2

Data mining. Як перетворювати дані на золото і навіщо для цього Java? - 2

Сфери застосування Data mining

Застосовується глибинний аналіз даних, як ви знаєте, дуже широко. Давайте коротко пройдемося по тих галузях та сфер діяльності, де він використовується найчастіше.

Маркетинг та націлення цільових груп споживачів у рітейлі.

Найчастіше дата майнінгу застосовують рітейлери, щоб краще розуміти потреби своїх клієнтів. Аналіз даних дозволяє їм точніше розділяти споживачів за групами і підлаштовувати під них рекламні акції.

Наприклад, продуктові супермаркети часто пропонують покупцям завести карту постійного клієнта, яка відкриває знижки, недоступні іншим. За допомогою таких карток ритейлери збирають дані про те, які покупки здійснюють ті чи інші групи споживачів. Застосування глибинного аналізу до цих даних дозволяє вивчати їх звички та переваги, адаптуючи до обліку цієї інформації асортимент та акції.
Управління кредитними ризиками та кредитними історіями у банках.

Банки розробляють і впроваджують моделі інтелектуального аналізу даних для прогнозування можливості позичальника купувати і погашати кредити. Використовуючи різноманітні демографічні та особисті дані позичальника, ці моделі автоматично визначають відсоткову ставку залежно від рівня ризику кожного клієнта індивідуально.
Виявлення та боротьба з шахрайством у фінансовій сфері.

Фінансові організації використовують Data mining для виявлення та запобігання шахрайським транзакціям. Ця форма аналізу застосовується до всіх транзакцій, і часто споживачі навіть підозрюють про це. Наприклад, відстеження регулярних витрат клієнта банку дозволяє автоматично виявляти підозрілі платежі та миттєво затримувати їх здійснення доти, доки користувач не підтвердить покупку. Таким чином Data mining використовується для захисту споживачів від різноманітних шахраїв.
Аналіз настроїв у соціології.

Аналіз настроїв з урахуванням даних соціальних мереж — також поширена сфера застосування глибинного аналізу даних, у якій використовується метод, званий аналізом тексту. З його допомогою можна одержати розуміння того, як певна група людей відноситься до певної теми. Це робиться за допомогою автоматичного аналізу даних із соціальних мереж або інших громадських джерел.
Біоінформація у охороні здоров'я.

У медицині Data mining моделі використовуються, щоб передбачати можливість виникнення у пацієнта різних недуг на підставі факторів ризику. Для цього збирають та аналізують демографічні, сімейні та генетичні дані. У країнах з великим населенням такі моделі нещодавно почали впроваджувати, щоб діагностувати пацієнтів і розставляти пріоритети медичної допомоги ще до прибуття лікарів та особистого огляду.

“Якщо вивчати дані досить ретельно, можна знайти в них повідомлення від Бога”. Скотт Адамс (Scott Adams), письменник, гуморист Data mining. Як перетворювати дані на золото і навіщо для цього Java? - 3

Data mining. Як перетворювати дані на золото і навіщо для цього Java? - 3

Data mining та Java

Як ви вже, мабуть, зрозуміли з контексту, у сфері видобутку даних, як і скрізь у Big data , Java є однією з основних мов програмування. Тому зробимо невеликий огляд основних інструментів дата майнінгу Java.

RapidMiner

RapidMiner це відкрита платформа для видобутку даних, написана на Java. Одне з найкращих доступних рішень для прогнозного аналізу із можливістю створення інтегрованих середовищ для глибокого навчання, аналізу текстів та машинного навчання. Багато організацій використовують для глибинного аналізу даних саме її. RapidMiner можна використовувати як на локальних серверах, так і у хмарі.
Apache Mahout

Apache Mahout - це open source Java бібліотека для машинного навчання від Apache. Mahout є інструментом масштабованого машинного навчання з можливістю обробки даних на одній або декількох машинах. Реалізація даного машинного навчання написана на Java, деякі частини побудовані на Apache Hadoop.
MicroStrategy

MicroStrategy – це програмна платформа для бізнес-аналітики та аналізу даних, яка підтримує всі моделі видобутку даних. Завдяки широкому набору власних шлюзів та драйверів платформа може підключатися до будь-якого корпоративного ресурсу та аналізувати його дані. MicroStrategy чудово справляється з перетворенням складних даних на спрощені візуалізації, які можна використовувати з різними цілями.
Java Data Mining Package

Java Data Mining Package - це бібліотека Java з відкритим вихідним кодом для аналізу даних та машинного навчання. Вона полегшує доступ до джерел даних та алгоритмів машинного навчання та надає модулі візуалізації. JDMP включає ряд алгоритмів та інструментів, а також інтерфейси для інших пакетів машинного навчання та інтелектуального аналізу даних (таких як LibLinear, Elasticsearch, LibSVM, Mallet, Lucene, Octave та інші).
WEKA Machine Learning Suite

Machine Learning Suite — це відкритий список алгоритмів, які використовуються для розробки методів машинного навчання. Усі алгоритми WEKA заточені під машинне навчання та інтелектуальний аналіз даних. Зараз набір WEKA Machine Learning Suite широко використовується у бізнес-середовищі, надаючи компаніям спрощений аналіз даних та передиктивну аналітику.

Data mining. Як перетворювати дані на золото і навіщо для цього Java? - 4

"Сучасний світ переповнений даними, і завдяки цьому ми можемо бачити споживачів набагато ясніше." Макс Левчин (Max Levchin), співзасновник PayPal

Як здійснюється видобуток даних

Загальноприйнятий процес майнінгу даних складається із шести етапів.

Визначення бізнес-цілей.

Для початку потрібно сформувати спільні бізнес-мети проекту та зрозуміти, як майнінг даних допоможе їх досягти. На цій стадії має бути розроблений план, що включає терміни, дії та призначення ролей.
Розуміння даних.

На другому етапі проводиться збір необхідних даних із різних джерел. Для вивчення властивостей даних, щоб гарантувати, що вони допоможуть досягти бізнес-цілей, часто використовують інструменти візуалізації. На цьому та наступному етапі найчастіше застосовуються Java-інструменти і, відповідно, потрібна кваліфікація Java-програміста.

Підготовка данних.

Далі дані очищаються і доповнюються, щоб переконатися, що масив готовий до видобутку інформації. Залежно від обсягу аналізованих даних та кількості джерел даних, обробка може займати велику кількість часу. Тож обробки використовують сучасні системи управління базами даних (СУБД), що дозволяє прискорити процес глибинного аналізу.

Моделювання даних.

На цьому етапі до даних застосовуються спеціальні інструменти та математичні моделі, які дозволяють знаходити у них закономірності.
Оцінка.

Потім отримані результати оцінюють і зіставляють із бізнес-цілями, щоб визначити, чи дозволяють отримані дані їх досягти.
Розгортання.

Ну і на заключному етапі здобуті в результаті вищезазначених кроків дані інтегруються в бізнес-операції. Як інструмент для впровадження отриманої інформації часто використовують різні платформи бізнес-аналітики.

“Видобуток даних – це навичка, яка потрібна практично скрізь. Вивчіть його, і ви будете універсально потрібні.” Джон Елдер (John Elder), засновник аналітичної компанії Elder Research

Зарплати Data mining фахівців

Як ви вже, мабуть, зрозуміли з усього сказаного вище, видобуток даних дуже і дуже затребувана на ринку, а отже і попит на фахівців у цій сфері залишається стабільно високим. Тому наостанок подивимося на те, скільки заробляють Data mining фахівці. Згідно з даними рекрутингового ресурсу Indeed, у США середні зарплати у сфері інтелектуального аналізу даних варіюються від $44 тис. на рік для простих аналітиків даних до близько $141 тис. на рік для фахівців у сфері машинного навчання. Ресурс PayScale повідомляє , що середня зарплата фахівця з видобутку даних у США становить $60 тис. на рік. У Росії, згідно з цими даними , Data mining експерти заробляють від 50 тис. рублів до 180 тис. рублів на місяць. По Україні та Білорусі актуальну інформацію із зарплат у цій сфері нам знайти не вдалося, але, після вивчення низки відкритих вакансій, можна зробити висновок, що цифри не сильно відрізняються від Росії і становлять, у середньому, від $1 тис до 2-3 тис. місяць.

Що почитати ще: