JavaRush /Blog Java /Random-MS /Java dan Data Besar: mengapa projek Data Besar tidak bole...

Java dan Data Besar: mengapa projek Data Besar tidak boleh dilakukan tanpa Java

Diterbitkan dalam kumpulan
Dalam artikel kami tentang JavaRush, kami tidak jemu mengatakan bahawa Java, yang tidak lama lagi akan berusia 25 tahun, kini mengalami masa mudanya yang kedua dan mempunyai prospek yang cemerlang dalam masa terdekat. Terdapat beberapa sebab untuk ini, dan salah satunya ialah Java ialah bahasa pengaturcaraan utama dalam beberapa niche yang sedang trend dan berkembang pesat dalam pasaran IT. Java dan Data Besar: mengapa projek Data Besar tidak boleh dilakukan tanpa Java - 1Selalunya, dalam konteks kasih sayang yang mendalam dan perasaan lembut untuk Java, Internet of Things (IoT) dan data besar disebut, serta kecerdasan Perniagaan (kecerdasan perniagaan, BI) dan Analitis Masa Nyata (analisis masa nyata). Kami baru-baru ini membincangkan perkaitan antara Java dan Internet of Things dan bercakap tentang cara pembangun Java boleh "menyesuaikan" dirinya dan kemahirannya kepada niche ini. Kini tiba masanya untuk memberi perhatian kepada kawasan super trend kedua, yang - betul - juga menyukai Java dan tidak dapat membayangkan kehidupan tanpanya. Jadi, hari ini kami sedang menganalisis data besar: mengapa Java, dan oleh itu pengkod yang setia, sangat diperlukan dalam niche ini juga, betapa tepatnya bahasa ini digunakan dalam projek dengan "data besar," perkara yang perlu dipelajari untuk mendapatkan yang diperlukan kemahiran untuk pekerjaan dan bekerja dalam niche ini dan apakah trend yang relevan untuk data besar sekarang, menjelang 2020. Dan di antara semua ini, berikut adalah pendapat pakar bertaraf dunia tentang data besar, selepas itu malah Homer Simpson akan mahu belajar cara bekerja dengan "data besar." Java dan Data Besar: mengapa projek Data Besar tidak boleh dilakukan tanpa Java - 2
“Saya terus mengatakan bahawa dalam tempoh 10 tahun akan datang, gadis tidak akan mengejar atlet dan broker saham, tetapi lelaki yang bekerja dengan data dan statistik. Dan saya tidak bergurau."
Hal Varian,
ketua ekonomi di Google

Big Data sedang menakluki planet ini

Tetapi pertama, sedikit tentang data besar dan mengapa niche ini sangat menjanjikan untuk membina kerjaya di dalamnya. Ringkasnya, data besar tidak dapat dielakkan dan berterusan, dan yang paling penting sangat cepat, menembusi proses perniagaan syarikat di seluruh dunia, dan mereka, seterusnya, terpaksa mencari profesional untuk bekerja dengan data (ini bukan sahaja pengaturcara, sudah tentu ), memikat mereka dengan gaji tinggi dan habuan lain. Menurut Forbes, penggunaan data besar dalam perusahaan telah berkembang daripada 17% pada 2015 kepada 59% pada 2018. Data Besar merebak dengan pantas ke pelbagai sektor ekonomi, termasuk jualan, pemasaran, penyelidikan dan pembangunan, logistik dan segala-galanya. Menurut kajian IBM, bilangan pekerjaan untuk profesional dalam bidang ini di Amerika Syarikat sahaja akan melebihi 2.7 juta menjelang 2020. menjanjikan? Masih akan.

Data Besar dan Java

Dan sekarang tentang mengapa Big Data dan Java mempunyai banyak persamaan. Masalahnya ialah banyak alat asas untuk data besar ditulis dalam Java. Lebih-lebih lagi, hampir semua alat ini adalah projek sumber terbuka. Ini bermakna ia tersedia untuk semua orang dan atas sebab yang sama ia digunakan secara aktif oleh syarikat IT terbesar di seluruh dunia. “Sebahagian besarnya, Big Data ialah Java. Hadoop, dan sebahagian besar ekosistem Hadoop, ditulis dalam Java. Antara muka MapReduce untuk Hadoop juga adalah Java. Jadi agak mudah bagi pembangun Java untuk beralih ke data besar dengan hanya mencipta penyelesaian Java yang akan berjalan di atas Hadoop. Terdapat juga perpustakaan Java seperti Cascading yang memudahkan kerja. Java juga sangat berguna untuk penyahpepijatan, walaupun anda menggunakan sesuatu seperti Hive [Apache Hive ialah sistem pengurusan pangkalan data berasaskan Hadoop],” kata Marcin Mejran, saintis data dan naib presiden kejuruteraan data di syarikat Eight. “Selain Hadoop, Storm ditulis dalam Java, dan Spark (iaitu kemungkinan masa depan Hadoop) ditulis dalam Scala (yang, seterusnya, berjalan pada JVM, dan Spark mempunyai antara muka Java). Seperti yang anda lihat, Java memainkan peranan yang besar dalam data besar. Ini semua adalah alat sumber terbuka, yang bermaksud bahawa pembangun dalam syarikat boleh membuat sambungan untuk mereka atau menambah fungsi. Kerja ini selalunya merangkumi pembangunan Java,” tambah pakar itu. Seperti yang kita lihat, dalam data besar, serta dalam Internet of things, pembelajaran mesin dan beberapa niche lain yang terus mendapat populariti, pengetahuan tentang Java tidak akan dapat diganti.
“Setiap syarikat kini mempunyai rancangan data besar. Dan semua syarikat ini akan berakhir dalam perniagaan data besar.”
Thomas H. Davenport,
ahli akademik Amerika dan pakar dalam analisis dan inovasi proses perniagaan
Dan kini sedikit lagi tentang alat data besar yang disebutkan di atas yang digunakan secara meluas oleh pembangun Java.

Apache Hadoop

Apache Hadoop ialah salah satu teknologi asas untuk data besar, dan ia ditulis dalam Java. Hadoop ialah set utiliti, perpustakaan dan rangka kerja percuma dan sumber terbuka yang diuruskan oleh Yayasan Perisian Apache. Pada asalnya direka untuk pengkomputeran dan penyimpanan yang boleh skala dan diedarkan serta boleh dipercayai bagi sejumlah besar maklumat yang berbeza, Hadoop secara semula jadi menjadi pusat infrastruktur "data besar" untuk banyak syarikat. Syarikat di seluruh dunia sedang giat mencari bakat Hadoop, dan Java ialah kemahiran utama yang diperlukan untuk menguasai teknologi ini. Menurut Pembangun Slashdot, pada tahun 2019, banyak syarikat besar, termasuk JPMorgan Chase dengan rekod gaji pengaturcara, sedang giat mencari pakar Hadoop di persidangan Hadoop World, tetapi di sana mereka tidak dapat mencari pakar yang mencukupi dengan kemahiran yang mereka perlukan (dalam khususnya, pengetahuan tentang model pengaturcaraan dan rangka kerja untuk menulis aplikasi Hadoop MapReduce). Ini bermakna gaji di kawasan ini akan meningkat lebih banyak lagi. Dan mereka sudah sangat besar. Khususnya, Business Insider menganggarkan kos purata pakar Hadoop pada $103 ribu setahun, manakala bagi pakar data besar secara amnya angka ini ialah $106 ribu setahun. Merekrut pengurus yang mencari pakar Hadoop menyerlahkan Java sebagai salah satu kemahiran terpenting untuk pekerjaan yang berjaya. Hadoop telah digunakan untuk masa yang lama atau telah dilaksanakan secara relatif baru-baru ini oleh banyak syarikat besar, termasuk IBM, Microsoft dan Oracle. Pada masa ini, Amazon, eBay, Apple, Facebook, General Dynamic dan syarikat lain juga mempunyai banyak jawatan untuk pakar Hadoop.
"Sama seperti tiada api tanpa asap, kini tiada perniagaan tanpa data besar."
Dr. Thomas Redman,
pakar terkenal dalam analisis data dan teknologi digital

Apache Spark

Apache Spark ialah satu lagi platform data besar utama yang bersaing secara serius dengan Hadoop. Dengan kelajuan, fleksibiliti dan mesra pembangunnya, Apache Spark menjadi rangka kerja utama untuk SQL berskala besar, data kelompok dan penstriman serta pembelajaran mesin. Sebagai rangka kerja untuk pemprosesan data besar yang diedarkan, Apache Spark berfungsi pada prinsip yang sama dengan rangka kerja Hadoop MapReduce dan secara beransur-ansur mengambil tapak tangan daripadanya dari segi penggunaan dalam bidang data besar. Spark boleh digunakan dalam pelbagai cara dan mempunyai pautan ke Java, serta beberapa bahasa pengaturcaraan lain seperti Scala, Python dan R. Hari ini, Spark digunakan secara meluas oleh bank, syarikat telekomunikasi, pembangun permainan video dan juga kerajaan. Sudah tentu, gergasi IT seperti Apple, Facebook, IBM dan Microsoft menyukai Apache Spark.

Apache Mahout

Apache Mahout ialah perpustakaan pembelajaran mesin Java sumber terbuka daripada Apache. Mahout ialah alat pembelajaran mesin berskala dengan keupayaan untuk memproses data pada satu atau lebih mesin. Pelaksanaan pembelajaran mesin ini ditulis dalam Java, beberapa bahagian dibina pada Apache Hadoop.

Apache Storm

Apache Storm ialah rangka kerja untuk pengkomputeran penstriman masa nyata yang diedarkan. Storm menjadikannya mudah untuk memproses aliran data tanpa had dengan pasti, melakukan dalam masa nyata apa yang Hadoop lakukan untuk kumpulan data. Storm berintegrasi dengan mana-mana sistem beratur dan mana-mana sistem pangkalan data.

Java JFreechart

Java JFreechart ialah perpustakaan sumber terbuka yang dibangunkan di Java untuk digunakan dalam aplikasi berasaskan Java untuk mencipta pelbagai carta. Hakikatnya ialah visualisasi data adalah tugas yang agak penting untuk analisis data besar yang berjaya. Memandangkan data besar melibatkan kerja dengan jumlah data yang besar, sukar untuk mengenal pasti sebarang arah aliran dan hanya membuat kesimpulan tertentu dengan melihat data mentah. Walau bagaimanapun, jika data yang sama dipaparkan dalam graf, ia menjadi lebih mudah difahami dan lebih mudah untuk mencari corak dan mengenal pasti korelasi. Java JFreechart sebenarnya membantu dalam mencipta graf dan carta untuk analisis data besar.

Pembelajaran mendalam4j

Deeplearning4j ialah perpustakaan Java yang digunakan untuk membina pelbagai jenis rangkaian saraf. Deeplearning4j dilaksanakan dalam Java dan berjalan dalam persekitaran yang serasi dengan Clojure dan termasuk API untuk bahasa Scala. Teknologi Deeplearning4j termasuk pelaksanaan mesin Boltzmann terhad, rangkaian kepercayaan mendalam, pengekod auto dalam, pengekod auto bertindan dengan penapisan hingar, rangkaian saraf tensor rekursif, word2vec, doc2vec dan GloVe.
"Data besar menjadi bahan mentah baharu untuk perniagaan."
Craig Mundie,
Penasihat Kanan kepada Ketua Pegawai Eksekutif Microsoft

Data Besar pada ambang 2020: arah aliran terkini

2020 sepatutnya menjadi satu lagi tahun pertumbuhan pesat dan evolusi data besar, dengan penggunaan data besar yang meluas oleh syarikat dan organisasi dalam pelbagai bidang. Oleh itu, kami akan menyerlahkan secara ringkas arah aliran data besar yang sepatutnya memainkan peranan penting pada tahun hadapan. Java dan Data Besar: mengapa projek Data Besar tidak boleh dilakukan tanpa Java - 3

Internet Perkara - data besar semakin besar

Nampaknya Internet of Things (IoT) adalah cerita yang sedikit berbeza, tetapi tidak. IoT terus "trend", mendapat momentum dan merebak ke seluruh dunia. Akibatnya, bilangan peranti "pintar" yang dipasang di rumah dan pejabat, yang, seperti yang sepatutnya, menghantar semua jenis data jika perlu, juga semakin meningkat. Oleh itu, jumlah data "besar" hanya akan meningkat. Seperti yang diketahui oleh pakar, banyak organisasi sudah mempunyai banyak data, terutamanya dari sektor IoT, yang mereka masih belum bersedia untuk digunakan, dan pada tahun 2020 runtuhan ini akan menjadi lebih besar. Akibatnya, pelaburan dalam projek data besar juga akan meningkat dengan pesat. Baiklah, mari kami ingatkan anda bahawa IoT juga sangat menyayangi Java . Nah, siapa yang tidak mencintainya?

Kembar digital

Kembar digital adalah satu lagi trend menarik dalam masa terdekat, yang berkaitan secara langsung dengan kedua-dua Internet Perkara dan data besar. Oleh itu, penggunaan Java di dalamnya akan lebih daripada mencukupi. Apakah kembar digital? Ini ialah imej digital objek atau sistem sebenar. Analog perisian peranti fizikal membolehkan anda mensimulasikan proses dalaman, ciri teknikal dan kelakuan objek sebenar di bawah keadaan gangguan dan persekitaran. Operasi kembar digital adalah mustahil tanpa sejumlah besar penderia dalam peranti sebenar yang beroperasi secara selari. Menjelang tahun 2020 dijangka terdapat lebih 20 bilion penderia yang disambungkan di dunia, menghantar maklumat kepada berbilion kembar digital. Pada tahun 2020, trend ini sepatutnya mendapat momentum dan menjadi perhatian.

Transformasi digital akan menjadi lebih bijak

Transformasi digital telah disebut sebagai trend penting selama beberapa tahun sekarang. Tetapi masalahnya ialah, kata pakar, bahawa banyak syarikat dan pengurus atasan mempunyai pemahaman yang sangat kabur tentang maksud frasa ini. Bagi kebanyakan orang, transformasi digital bermakna mencari cara untuk menjual data yang dikumpul oleh syarikat untuk mencipta sumber keuntungan baharu. Menjelang 2020, semakin banyak syarikat menyedari bahawa transformasi digital adalah mengenai penggunaan data dengan betul pada setiap aspek perniagaan mereka untuk mencipta kelebihan daya saing. Oleh itu, kita boleh menjangkakan bahawa syarikat akan meningkatkan belanjawan projek yang berkaitan dengan penggunaan data yang betul dan sedar.
"Kami perlahan-lahan bergerak ke arah era di mana Data Besar adalah titik permulaan, bukan penamat."
Pearl Zhu, pengarang buku Digital Master

Keputusan

Big Data adalah satu lagi bidang aktiviti yang sangat besar dengan banyak peluang di mana pembangun Java boleh mencari penggunaan. Sama seperti Internet of Things, bidang ini berkembang pesat dan mengalami kekurangan pengaturcara yang teruk, serta pakar teknikal yang lain. Oleh itu, sekarang adalah masa untuk berhenti membaca artikel yang begitu panjang dan mula belajar Java! Java dan Data Besar: mengapa projek Data Besar tidak boleh dilakukan tanpa Java - 5
Komen
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION