JavaRush /Java Blog /Random-TL /Pagmimina ng data. Paano gawing ginto ang data at bakit g...

Pagmimina ng data. Paano gawing ginto ang data at bakit gagamitin ang Java para dito?

Nai-publish sa grupo
Sa mga publikasyon sa JavaRush, sinusubukan naming regular na suriin ang mga propesyon, niches at mga espesyalisasyon sa larangan ng IT. Una sa lahat, ang mga aktibong gumagamit ng Java programming language at mga platform at solusyon na nakasulat dito. Pagmimina ng data.  Paano gawing ginto ang data at bakit gagamitin ang Java para dito?  - 1Ngayon ay pag-uusapan natin ang tungkol sa Data mining ("data mining", "data mining", "in-depth data analysis" o simpleng "data mining" sa Russian interpretation). "Sa Diyos Kami Nagtitiwala. Lahat ng iba pa ay nangangailangan ng data para paniwalaan." William Edwards Deming, American scientist at statistician.

Ano ang Data mining?

Ang data mining ay isang kolektibong pangalan na ginagamit upang ilarawan ang isang bilang ng mga pamamaraan para sa pag-aaral at pagsusuri ng malalaking volume ng data upang matukoy ang mga pattern at panuntunan sa mga ito. Ang data mining ay itinuturing na isang natatanging disiplina sa loob ng larangan ng data science. Kung pag-uusapan natin ang malawakang paggamit ng kaalaman at pag-unlad sa lugar na ito, ang mga kumpanya ay kadalasang gumagamit ng Data mining upang kunin ang kapaki-pakinabang na impormasyon mula sa data. Sa pamamagitan ng paggamit ng mga solusyon sa software upang makahanap ng mga pattern sa malalaking volume ng data, maaaring pag-aralan ng mga kumpanya ang pag-uugali at gawi ng mga mamimili upang bumuo ng mas epektibong mga solusyon sa marketing, pataasin ang mga benta at bawasan ang mga gastos. Bilang karagdagan, ang mga diskarte sa pagmimina ng data ay ginagamit upang bumuo ng mga modelo ng machine learning (ML), na ginagamit sa mga modernong application ng artificial intelligence gaya ng mga algorithm ng search engine at mga sistema ng rekomendasyon, halimbawa. "Maaari kang magkaroon ng data ngunit hindi impormasyon, ngunit walang impormasyon na walang data." Daniel Keys Moran, dalubhasa sa programming at manunulat.

Paano naiiba ang Data mining sa Big Data?

Magiging kapaki-pakinabang din na agad na linawin kung paano naiiba ang data mining bilang isang konsepto sa Big Data (nga pala, mayroon kaming hiwalay na artikulo sa paggamit ng Java sa larangan ng Big Data ). Sa madaling salita, ang terminong Big data ay tumutukoy sa lahat ng aspeto ng malalaking volume ng data ng iba't ibang uri, kabilang ang parehong structured at unstructured data, ang kanilang koleksyon, storage, classification, atbp. Samantalang ang Data mining ay tumutukoy lamang sa pagsisid ng malalim sa data upang kunin ang mga pangunahing insight, pattern at pagkakatulad, at iba pang impormasyon mula sa data ng anumang laki (parehong malaki at maliit). Kaya, ang parehong mga konsepto ay nauugnay sa data at sa pangkalahatan ay nagsasapawan, ngunit ang data mining ay tungkol sa paggamit ng nakolektang impormasyon para sa mga partikular na layunin. “Kung walang malalim na pagsusuri ng data, walang nakikita at naririnig ang mga kumpanya; online sila ay walang magawa at nalilito tulad ng isang usa na tumatakbo papunta sa freeway. Geoffrey Moore, manunulat at teorista ng pamamahala. Pagmimina ng data.  Paano gawing ginto ang data at bakit gagamitin ang Java para dito?  - 2

Mga lugar ng aplikasyon Pagmimina ng data

Ang malalim na pagsusuri ng data, tulad ng naiintindihan mo, ay ginagamit nang napakalawak. Tingnan natin ang mga industriya at lugar ng aktibidad kung saan ito madalas na ginagamit.
  • Marketing at pag-target sa mga target na grupo ng consumer sa retail.

    Mas madalas kaysa sa iba, ang data mining ay ginagamit ng mga retailer para mas maunawaan ang mga pangangailangan ng kanilang mga customer. Nagbibigay-daan sa kanila ang pagsusuri ng data na mas tumpak na hatiin ang mga consumer sa mga grupo at iangkop ang mga promosyon sa kanila.

    Halimbawa, ang mga grocery supermarket ay kadalasang nag-aalok sa mga customer ng loyalty card, na nagbubukas ng mga diskwento na hindi available sa iba. Sa tulong ng mga naturang card, kinokolekta ng mga retailer ang data sa kung anong mga pagbili ang ginawa ng ilang grupo ng mga consumer. Ang aplikasyon ng malalim na pagsusuri sa data na ito ay nagbibigay-daan sa iyo na pag-aralan ang kanilang mga gawi at kagustuhan, iangkop ang assortment at promosyon upang isaalang-alang ang impormasyong ito.

  • Pamamahala ng mga panganib sa kredito at mga kasaysayan ng kredito sa mga bangko.

    Ang mga bangko ay bumubuo at nagpapatupad ng mga modelo ng data mining upang mahulaan ang kakayahan ng isang borrower na kumuha at magbayad ng mga pautang. Gamit ang iba't ibang uri ng demograpiko at personal na data ng nanghihiram, awtomatikong tinutukoy ng mga modelong ito ang rate ng interes depende sa antas ng panganib ng bawat kliyente nang paisa-isa.

  • Pagtukoy at paglaban sa pandaraya sa pananalapi.

    Ginagamit ng mga organisasyong pampinansyal ang Data mining para makita at maiwasan ang mga mapanlinlang na transaksyon. Ang paraan ng pagsusuri na ito ay nalalapat sa lahat ng mga transaksyon, at kadalasan ay hindi ito nalalaman ng mga mamimili. Halimbawa, ang pagsubaybay sa mga regular na gastos ng customer sa bangko ay maaaring awtomatikong matukoy ang mga kahina-hinalang pagbabayad at agad na maantala ang kanilang pagpapatupad hanggang sa makumpirma ng user ang pagbili. Kaya, ang Data mining ay ginagamit upang protektahan ang mga mamimili mula sa iba't ibang uri ng mga scammer.

  • Pagsusuri ng damdamin sa sosyolohiya.

    Ang pagsusuri ng damdamin mula sa data ng social media ay isa ring karaniwang aplikasyon ng data mining, gamit ang isang pamamaraan na tinatawag na text mining. Maaari itong magamit upang makakuha ng insight sa kung ano ang nararamdaman ng isang partikular na grupo ng mga tao tungkol sa isang partikular na paksa. Ginagawa ito gamit ang awtomatikong pagsusuri ng data mula sa mga social network o iba pang pampublikong mapagkukunan.

  • Bioinformation sa pangangalagang pangkalusugan.

    Sa medisina, ang mga modelo ng Data mining ay ginagamit upang mahulaan ang posibilidad na magkaroon ng iba't ibang karamdaman ang isang pasyente batay sa mga kadahilanan ng panganib. Upang gawin ito, ang demograpiko, pampamilya at genetic na data ay kinokolekta at sinusuri. Sa mga umuunlad na bansa na may malalaking populasyon, ang mga naturang modelo ay nagsimula kamakailan na ipatupad upang masuri ang mga pasyente at unahin ang pangangalagang medikal bago dumating ang mga doktor at harapang pagsusuri.

"Kung pag-aaralan mong mabuti ang data, makakahanap ka ng mga mensahe mula sa Diyos dito." Scott Adams, manunulat, humorista Pagmimina ng data.  Paano gawing ginto ang data at bakit gagamitin ang Java para dito?  - 3

Data mining at Java

Tulad ng dapat na naunawaan mo na mula sa konteksto, sa larangan ng data mining, tulad ng ibang lugar sa Big data , ang Java ay isa sa mga pangunahing programming language. Samakatuwid, gagawa kami ng maikling pangkalahatang-ideya ng mga pangunahing tool para sa data mining sa Java.
  • RapidMiner

    Ang RapidMiner ay isang open data mining platform na nakasulat sa Java. Isa sa mga pinakamahusay na solusyon sa predictive analytics na magagamit, na may kakayahang lumikha ng mga pinagsama-samang kapaligiran para sa malalim na pag-aaral, pagmimina ng text, at machine learning. Ginagamit ito ng maraming organisasyon para sa malalim na pagsusuri ng data. Maaaring gamitin ang RapidMiner kapwa sa mga lokal na server at sa cloud.

  • Apache Mahout

    Ang Apache Mahout ay isang open source na Java machine learning library mula sa Apache. Ang Mahout ay isang scalable machine learning tool na may kakayahang magproseso ng data sa isa o higit pang machine. Ang mga pagpapatupad ng machine learning na ito ay nakasulat sa Java, ang ilang bahagi ay binuo sa Apache Hadoop.

  • MicroStrategy

    Ang MicroStrategy ay isang business intelligence at data analytics software platform na sumusuporta sa lahat ng data mining models. Salamat sa isang malawak na hanay ng mga pagmamay-ari na gateway at driver, ang platform ay maaaring kumonekta sa anumang corporate resource at suriin ang data nito. Napakahusay ng MicroStrategy sa pagbabago ng kumplikadong data sa mga pinasimpleng visualization na maaaring magamit para sa iba't ibang layunin.

  • Java Data Mining Package

    Ang Java Data Mining Package ay isang open source na Java library para sa data mining at machine learning. Pinapadali nito ang pag-access sa mga data source at machine learning algorithm at nagbibigay ng visualization modules. Kasama sa JDMP ang ilang algorithm at tool, pati na rin ang mga interface sa iba pang machine learning at data mining packages (gaya ng LibLinear, Elasticsearch, LibSVM, Mallet, Lucene, Octave at iba pa).

  • WEKA Machine Learning Suite

    Ang Waikato Environment for Knowledge Analysis (WEKA) Machine Learning Suite ay isang bukas na listahan ng mga algorithm na ginagamit upang bumuo ng mga pamamaraan ng machine learning. Ang lahat ng WEKA algorithm ay iniakma para sa machine learning at data mining. Ang WEKA Machine Learning Suite ay malawakang ginagamit na ngayon sa kapaligiran ng negosyo, na nagbibigay sa mga kumpanya ng pinasimpleng pagsusuri ng data at predictive analytics.

Pagmimina ng data.  Paano gawing ginto ang data at bakit gagamitin ang Java para dito?  - 4"Ang mundo ngayon ay puno ng data, at salamat dito, mas makikita natin ang mga consumer nang mas malinaw." Max Levchin, co-founder ng PayPal

Paano mina ang data

Ang pangkalahatang tinatanggap na proseso ng data mining ay binubuo ng anim na hakbang.
  • Pagtukoy sa mga layunin sa negosyo.

    Una, kailangan mong bumalangkas ng pangkalahatang mga layunin sa negosyo ng proyekto at maunawaan kung paano makakatulong ang data mining na makamit ang mga ito. Sa yugtong ito, dapat na bumuo ng isang plano na kinabibilangan ng mga timeline, aksyon at pagtatalaga ng tungkulin.

  • Pag-unawa sa datos.

    Sa ikalawang yugto, ang mga kinakailangang data ay kinokolekta mula sa iba't ibang mga mapagkukunan. Ang mga tool sa visualization ay kadalasang ginagamit upang suriin ang mga katangian ng data upang matiyak na nakakatulong ito sa pagkamit ng mga layunin sa negosyo. Sa ito at sa susunod na yugto, ang mga tool sa Java ay kadalasang ginagamit at, nang naaayon, kinakailangan ang mga kwalipikasyon ng isang Java programmer.

  • Paghahanda ng datos.

    Ang data ay pagkatapos ay nililinis at pinalaki upang matiyak na ang array ay handa na para sa pagmimina. Depende sa dami ng data na sinusuri at sa bilang ng mga pinagmumulan ng data, ang pagpoproseso ay maaaring tumagal ng napakalaking oras. Samakatuwid, ang mga modernong database management system (DBMS) ay ginagamit para sa pagproseso, na nagpapabilis sa proseso ng malalim na pagsusuri.

  • Pagmomodelo ng data.

    Sa yugtong ito, inilalapat ang mga espesyal na tool at modelo ng matematika sa data, na ginagawang posible na makahanap ng mga pattern sa mga ito.

  • Grade.

    Ang mga resulta ay susuriin at inihambing sa mga layunin ng negosyo upang matukoy kung ang data ay makakamit ang mga ito.

  • Deployment.

    Well, sa huling yugto, ang data na nakuha bilang resulta ng mga hakbang na inilarawan sa itaas ay isinama sa mga operasyon ng negosyo. Ang iba't ibang mga platform ng katalinuhan sa negosyo ay kadalasang ginagamit bilang isang tool para sa pagpapatupad ng nakuhang impormasyon.

“Ang data mining ay isang kasanayan na kailangan halos saanman. Pag-aralan mo ito at magiging hinihiling ka sa lahat." John Elder, tagapagtatag ng kumpanya ng analytics na Elder Research

Mga suweldo ng mga espesyalista sa Data mining

Tulad ng dapat ay naunawaan mo na mula sa lahat ng nasa itaas, ang data mining ay napaka-in demand sa merkado, at samakatuwid ang demand para sa mga espesyalista sa larangang ito ay nananatiling mataas. Samakatuwid, sa wakas, tingnan natin kung magkano ang kinikita ng mga Data mining specialist. Sa US, ang average na mga suweldo sa pagmimina ng data ay mula sa humigit-kumulang $44,000 bawat taon para sa mga data analyst hanggang sa humigit-kumulang $141,000 bawat taon para sa mga espesyalista sa machine learning, ayon sa recruiting site Indeed . Iniulat ng mapagkukunan ng PayScale na ang average na suweldo ng isang espesyalista sa pagmimina ng data sa Estados Unidos ay $60,000 bawat taon. Sa Russia, ayon sa data na ito , Ang mga eksperto sa pagmimina ng data ay kumikita mula 50 libong rubles hanggang 180 libong rubles bawat buwan. Para sa Ukraine at Belarus, hindi namin mahanap ang kasalukuyang impormasyon sa mga suweldo sa lugar na ito, ngunit pagkatapos pag-aralan ang isang bilang ng mga bukas na bakante, maaari naming tapusin na ang mga numero ay hindi masyadong naiiba mula sa Russia at saklaw, sa karaniwan, mula $1 libo hanggang 2 -3 libo bawat taon. buwan.
Mga komento
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION