JavaRush /Java Blog /Random-TW /Java 與大數據:為什麼大數據專案離不開 Java

Java 與大數據:為什麼大數據專案離不開 Java

在 Random-TW 群組發布
我們在JavaRush的文章中不厭其煩地說,即將滿25歲的Java,現在正經歷著第二次青春,在不久的將來有著光明的前景。造成這種情況的原因有很多,其中之一是 Java 是 IT 市場許多趨勢和快速成長領域的主要程式語言。 Java 與大數據:為什麼大數據專案離不開 Java - 1最常見的是,在對 Java 的深厚感情和溫情的背景下,人們會提到物聯網(IoT)和大數據,以及商業智慧(Business Intelligence,BI)和 Real Time Analytics(即時分析)。我們最近討論了Java 和物聯網之間的聯繫,並討論了 Java 開發人員如何根據這個利基「自訂」自己和他的技能。現在是時候專注於第二個超級趨勢領域了,沒錯,它也熱愛 Java,並且無法想像沒有它的生活。因此,今天我們正在分析大數據:為什麼 Java 及其忠實的程式設計師在這個領域也有很大的需求,這種語言在「大數據」專案中到底是如何使用的,需要學習什麼才能獲得必要的知識2020 年前夕,該領域的就業和工作技能以及目前與大數據相關的趨勢。在這一切之間,以下是世界級專家對大數據的看法,之後甚至荷馬·辛普森(Homer Simpson)也會想學習如何使用「大數據」。 Java 與大數據:為什麼大數據專案離不開 Java - 2
「我一直說,在接下來的十年裡,女孩不會追逐運動員和股票經紀人,而是追逐數據和統計的男人。我不是開玩笑。”
哈爾‧瓦里安(Hal Varian),
Google首席經濟學家

大數據正在征服地球

但首先,我們先來了解一下大數據,以及為什麼這個利基市場如此有希望在其中建立職業生涯。簡而言之,大數據不可避免地、穩定地、最重要的是非常迅速地滲透到世界各地公司的業務流程中,而他們反過來被迫尋找專業人員來處理數據(當然,這些人不僅僅是程式設計師) ),用高薪和其他好處來吸引他們。根據《富比士報》報道,企業大數據的使用率已從2015年的17%成長到2018年的59%。大數據正迅速傳播到經濟的不同領域,包括銷售、行銷、研發、物流等等。根據 IBM 的一項研究,到 2020 年,光是美國這一領域的專業人員的工作數量就將超過 270 萬個。有希望?還是會。

大數據和Java

現在來談談為什麼大數據和 Java 有這麼多的共同點。事實是,許多大數據的基本工具都是用 Java 寫的。而且,幾乎所有這些工具都是開源專案。這意味著每個人都可以使用它們,並且出於同樣的原因,它們被世界上最大的 IT 公司積極使用。「在很大程度上,大數據就是 Java。Hadoop 以及 Hadoop 生態系統的很大一部分都是用 Java 寫的。Hadoop 的 MapReduce 介面也是 Java 的。因此,Java 開發人員只需建立在 Hadoop 之上執行的 Java 解決方案,即可輕鬆進入大數據領域。還有一些 Java 函式庫(例如 Cascading)可以讓工作變得更容易。Java 對於調試也非常有用,即使您使用的是 Hive 之類的東西 [Apache Hive 是一個基於 Hadoop 的資料庫管理系統],」Eight 公司資料科學家兼資料工程副總裁 Marcin Mejran 說。「除了 Hadoop 之外,Storm 是用 Java 寫的,Spark(即 Hadoop 的未來可能)是用 Scala 寫的(Scala 又在 JVM 上運行,Spark 有一個 Java 介面)。正如您所看到的,Java 在大數據中發揮著巨大的作用。這些都是開源工具,這意味著公司內部的開發人員可以為它們創建擴充功能或添加功能。這項工作通常包括 Java 開發,」專家補充道。正如我們所看到的,在大數據以及物聯網、機器學習和其他一些持續流行的領域,Java 知識將是不可替代的。
「現在每個公司都有大數據計畫。所有這些公司最終都將涉足大數據業務。”
Thomas H. Davenport,
美國學者、業務流程分析與創新專家
現在詳細介紹一下 Java 開發人員廣泛使用的上述大數據工具。

阿帕契Hadoop

Apache Hadoop 是大數據的基礎技術之一,它是用 Java 寫的。Hadoop 是一組由 Apache 軟體基金會管理的免費開源實用程式、函式庫和框架。Hadoop 最初是為可擴展、分散且可靠的大量不同資訊運算和儲存而設計的,自然而然地成為許多公司「大數據」基礎設施的中心。世界各地的公司都在積極尋找 Hadoop 人才,而 Java 則是掌握這項技術所需的關鍵技能。根據Developers Slashdot 報道,2019 年,包括程式設計師薪資創紀錄的摩根大通在內的許多大公司都在Hadoop World 大會上積極尋找Hadoop 專家,但即便如此,他們也找不到足夠多的具備所需技能的專家(在特別是有關編寫 Hadoop MapReduce 應用程式的程式設計模型和框架的知識)。這意味著該領域的薪資將會上漲更多。而且它們已經很大了。特別是,Business Insider 估計 Hadoop 專家的平均成本為每年 10.3 萬美元,而大數據專家的平均成本為每年 106,000 美元。尋找 Hadoop 專家的招募經理強調 Java 是成功就業最重要的技能之一。Hadoop 已經使用了很長時間,或者最近才被許多大公司使用,包括 IBM、Microsoft 和 Oracle。目前,Amazon、eBay、Apple、Facebook、General Dynamic 等公司也為 Hadoop 專家設立了許多職位。
“就像沒有硝煙就沒有火一樣,現在沒有大數據就沒有生意。”
Thomas Redman 博士,
數據分析和數位技術領域的著名專家

阿帕契火花

Apache Spark 是另一個與 Hadoop 激烈競爭的關鍵大數據平台。憑藉其速度、靈活性和開發人員友好性,Apache Spark 正在成為大規模 SQL、批次和串流資料以及機器學習的領先框架。Apache Spark作為一個分散式大數據處理框架,其運作方式與Hadoop MapReduce框架類似,並且在大數據領域的使用方面正在逐漸奪走Hadoop的主導權。Spark 可以以多種不同的方式使用,並且與 Java 以及許多其他程式語言(例如 Scala、Python 和 R)有聯繫。如今,Spark 已被銀行、電信公司、視訊遊戲開發商甚至各國政府。當然,Apple、Facebook、IBM 和 Microsoft 等 IT 巨頭都喜愛 Apache Spark。

阿帕契馬胡特

Apache Mahout 是 Apache 的開源 Java 機器學習函式庫。Mahout 正是一種可擴展的機器學習工具,能夠在一台或多台機器上處理資料。這個機器學習的實作是用 Java 編寫的,部分部分是基於 Apache Hadoop 建構的。

阿帕契風暴

Apache Storm 是一個分散式即時串流運算框架。Storm 可以輕鬆可靠地處理無限的資料流,即時執行 Hadoop 對大量資料所做的操作。Storm 與任何排隊系統和任何資料庫系統整合。

Java JFreechart

Java JFreechart 是一個用 Java 開發的開源程式庫,可在基於 Java 的應用程式中用於建立各種圖表。事實上,資料視覺化對於成功的大數據分析來說是一項相當重要的任務。由於大數據涉及處理大量數據,因此可能很難識別任何趨勢並僅透過查看原始數據得出某些結論。然而,如果相同的數據顯示在圖表中,它就會變得更容易理解,並且更容易發現模式和識別相關性。Java JFreechart 實際上有助於建立用於大數據分析的圖形和圖表。

深度學習4j

Deeplearning4j 是一個 Java 函式庫,用於建立各種類型的神經網路。Deeplearning4j 以 Java 實現,運行在與 Clojure 相容的環境中,並包含 Scala 語言的 API。Deeplearning4j 技術包括受限玻爾茲曼機、深度置信網路、深度自動編碼器、具有雜訊過濾的堆疊自動編碼器、遞歸張量神經網路、word2vec、doc2vec 和 GloVe 的實作。
“大數據正在成為商業的新原材料。”
克雷格蒙迪 (Craig Mundie),
微軟執行長資深顧問

2020年即將到來的大數據:最新趨勢

2020年應該是大數據快速成長和演變的另一年,各領域的公司和組織廣泛採用大數據。因此,我們將簡要強調明年應發揮重要作用的大數據趨勢。 Java 與大數據:為什麼大數據專案離不開 Java - 3

物聯網—大數據變得越來越大

物聯網 (IoT) 的情況似乎略有不同,但事實並非如此。物聯網繼續“流行”,勢頭強勁並在全球蔓延。因此,安裝在家庭和辦公室中的「智慧型」設備的數量也在增長,這些設備理應在必要時傳輸各種數據。因此,「大」資料量只會增加。正如專家所指出的那樣,許多組織已經擁有大量數據,主要來自物聯網領域,但他們尚未準備好使用這些數據,而到 2020 年,這種雪崩將變得更加嚴重。因此,大數據項目的投資也將迅速增加。好吧,讓我們提醒您,IoT 也非常喜歡 Java。嗯,誰不愛他呢?

數位孿生

數位孿生是近期另一個有趣的趨勢,它與物聯網和大數據直接相關。因此,在其中使用Java就綽綽有餘了。什麼是數位孿生?這是真實物體或系統的數位影像。實體設備的軟體模擬可讓您模擬真實物件在幹擾和環境條件下的內部流程、技術特徵和行為。如果真實設備中沒有大量感測器並行運行,數位孿生的運行是不可能的。預計到 2020 年,全球將有超過 200 億個連網感測器,向數十億個數位孿生傳輸訊息。2020年,這一趨勢應該會得到增強並脫穎而出。

數位轉型將變得更加智能

數位化轉型多年來一直被認為是一個重要趨勢。但問題是,專家表示,許多公司和高階主管對這個短語的含義的理解極其模糊。對許多人來說,數位轉型意味著尋找方法出售公司收集的數據以創造新的利潤來源。到 2020 年,越來越多的公司意識到數位轉型是將數據正確應用到業務的各個方面,以創造競爭優勢。因此,我們可以預期,公司將增加與正確和有意識地使用數據相關的項目的預算。
“我們正在慢慢走向一個大數據是起點而不是終點的時代。”
朱珍珠,《數位大師》書籍作者

結果

大數據是另一個真正巨大的活動領域,Java 開發人員可以在其中找到許多利用的機會。就像物聯網一樣,這個領域正在蓬勃發展,但程式設計師以及其他技術專家卻嚴重短缺。因此,現在是停止閱讀這麼長的文章並開始學習 Java 的時候了! Java 與大數據:為什麼大數據專案離不開 Java - 5
留言
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION