JavaRush /Java 博客 /Random-ZH /Java 和大数据:为什么大数据项目离不开 Java

Java 和大数据:为什么大数据项目离不开 Java

已在 Random-ZH 群组中发布
我们在JavaRush的文章中不厌其烦地说,即将满25岁的Java,现在正经历着第二次青春,在不久的将来有着光明的前景。造成这种情况的原因有很多,其中之一是 Java 是 IT 市场许多趋势和快速增长领域的主要编程语言。 Java 和大数据:为什么大数据项目离不开 Java - 1最常见的是,在对 Java 的深厚感情和温情的背景下,人们会提到物联网(IoT)和大数据,以及商业智能(Business Intelligence,BI)和 Real Time Analytics(实时分析)。我们最近讨论了Java 和物联网之间的联系,并讨论了 Java 开发人员如何根据这个利基“定制”自己和他的技能。现在是时候关注第二个超级趋势领域了,没错,它也热爱 Java,并且无法想象没有它的生活。因此,今天我们正在分析大数据:为什么 Java 及其忠实的程序员在这个领域也有很大的需求,这种语言在“大数据”项目中到底是如何使用的,需要学习什么才能获得必要的知识2020 年前夕,该领域的就业和工作技能以及目前与大数据相关的趋势。在这一切之间,以下是世界级专家对大数据的看法,之后甚至荷马·辛普森(Homer Simpson)也会想学习如何使用“大数据”。 Java 和大数据:为什么大数据项目离不开 Java - 2
“我一直说,在接下来的十年里,女孩不会追逐运动员和股票经纪人,而是追逐数据和统计的男人。我不是在开玩笑。”
哈尔·瓦里安(Hal Varian),
谷歌首席经济学家

大数据正在征服地球

但首先,我们先来了解一下大数据,以及为什么这个利基市场如此有希望在其中建立职业生涯。简而言之,大数据不可避免地、稳定地、最重要的是非常迅速地渗透到世界各地公司的业务流程中,而他们反过来被迫寻找专业人员来处理数据(当然,这些人不仅仅是程序员) ),用高薪和其他好处来吸引他们。据福布斯报道,企业大数据的使用率已从2015年的17%增长到2018年的59%。大数据正在迅速传播到经济的不同领域,包括销售、营销、研发、物流等等。根据 IBM 的一项研究,到 2020 年,仅美国这一领域的专业人员的工作岗位数量就将超过 270 万个。有希望?还是会。

大数据和Java

现在来谈谈为什么大数据和 Java 有如此多的共同点。事实是,许多大数据的基本工具都是用 Java 编写的。而且,几乎所有这些工具都是开源项目。这意味着每个人都可以使用它们,并且出于同样的原因,它们被世界上最大的 IT 公司积极使用。“在很大程度上,大数据就是 Java。Hadoop 以及 Hadoop 生态系统的很大一部分都是用 Java 编写的。Hadoop 的 MapReduce 接口也是 Java 的。因此,Java 开发人员只需创建在 Hadoop 之上运行的 Java 解决方案,即可轻松进入大数据领域。还有一些 Java 库(例如 Cascading)可以使工作变得更容易。Java 对于调试也非常有用,即使您使用的是 Hive 之类的东西 [Apache Hive 是一个基于 Hadoop 的数据库管理系统],”Eight 公司数据科学家兼数据工程副总裁 Marcin Mejran 说道。“除了 Hadoop 之外,Storm 是用 Java 编写的,Spark(即 Hadoop 的未来可能)是用 Scala 编写的(Scala 又在 JVM 上运行,Spark 有一个 Java 接口)。正如您所看到的,Java 在大数据中发挥着巨大的作用。这些都是开源工具,这意味着公司内部的开发人员可以为它们创建扩展或添加功能。这项工作通常包括 Java 开发,”专家补充道。正如我们所看到的,在大数据以及物联网、机器学习和其他一些持续流行的领域,Java 知识将是不可替代的。
“现在每个公司都有大数据计划。所有这些公司最终都将涉足大数据业务。”
Thomas H. Davenport,
美国学者、业务流程分析和创新专家
现在详细介绍一下 Java 开发人员广泛使用的上述大数据工具。

阿帕奇Hadoop

Apache Hadoop 是大数据的基础技术之一,它是用 Java 编写的。Hadoop 是一组由 Apache 软件基金会管理的免费开源实用程序、库和框架。Hadoop 最初是为可扩展、分布式且可靠的海量不同信息计算和存储而设计的,自然而然地成为许多公司“大数据”基础设施的中心。世界各地的公司都在积极寻找 Hadoop 人才,而 Java 是掌握这项技术所需的关键技能。据Developers Slashdot 报道,2019 年,包括程序员薪资创纪录的摩根大通在内的许多大公司都在 Hadoop World 大会上积极寻找 Hadoop 专家,但即便如此,他们也找不到足够多的具备所需技能的专家(在特别是有关编写 Hadoop MapReduce 应用程序的编程模型和框架的知识)。这意味着该领域的薪资将会上涨更多。而且它们已经很大了。特别是,Business Insider 估计 Hadoop 专家的平均成本为每年 10.3 万美元,而大数据专家的平均成本为每年 10.6 万美元。寻找 Hadoop 专家的招聘经理强调 Java 是成功就业的最重要技能之一。Hadoop 已经使用了很长时间,或者最近才被许多大公司使用,包括 IBM、Microsoft 和 Oracle。目前,Amazon、eBay、Apple、Facebook、General Dynamic 等公司也为 Hadoop 专家设立了许多职位。
“就像没有硝烟就没有火一样,现在没有大数据就没有生意。”
Thomas Redman 博士,
数据分析和数字技术领域的著名专家

阿帕奇火花

Apache Spark 是另一个与 Hadoop 激烈竞争的关键大数据平台。凭借其速度、灵活性和开发人员友好性,Apache Spark 正在成为大规模 SQL、批处理和流数据以及机器学习的领先框架。Apache Spark作为一个分布式大数据处理框架,其工作原理与Hadoop MapReduce框架类似,并且在大数据领域的使用方面正在逐渐夺走Hadoop的主导权。Spark 可以以多种不同的方式使用,并且与 Java 以及许多其他编程语言(例如 Scala、Python 和 R)有联系。如今,Spark 被银行、电信公司、视频游戏开发商甚至各国政府。当然,Apple、Facebook、IBM 和 Microsoft 等 IT 巨头都喜爱 Apache Spark。

阿帕奇马胡特

Apache Mahout 是 Apache 的开源 Java 机器学习库。Mahout 正是一种可扩展的机器学习工具,能够在一台或多台机器上处理数据。该机器学习的实现是用 Java 编写的,部分部分是基于 Apache Hadoop 构建的。

阿帕奇风暴

Apache Storm 是一个分布式实时流计算框架。Storm 可以轻松可靠地处理无限的数据流,实时执行 Hadoop 对批量数据所做的操作。Storm 与任何排队系统和任何数据库系统集成。

Java JFreechart

Java JFreechart 是一个用 Java 开发的开源库,可在基于 Java 的应用程序中用于创建各种图表。事实上,数据可视化对于成功的大数据分析来说是一项相当重要的任务。由于大数据涉及处理大量数据,因此可能很难识别任何趋势并仅通过查看原始数据得出某些结论。然而,如果相同的数据显示在图表中,它就会变得更容易理解,并且更容易发现模式和识别相关性。Java JFreechart 实际上有助于创建用于大数据分析的图形和图表。

深度学习4j

Deeplearning4j 是一个 Java 库,用于构建各种类型的神经网络。Deeplearning4j 用 Ja​​va 实现,运行在与 Clojure 兼容的环境中,并包含 Scala 语言的 API。Deeplearning4j 技术包括受限玻尔兹曼机、深度置信网络、深度自动编码器、带噪声过滤的堆叠自动编码器、递归张量神经网络、word2vec、doc2vec 和 GloVe 的实现。
“大数据正在成为商业的新原材料。”
克雷格·蒙迪 (Craig Mundie),
微软首席执行官高级顾问

2020年即将到来的大数据:最新趋势

2020年应该是大数据快速增长和演变的又一年,各领域的公司和组织广泛采用大数据。因此,我们将简要强调明年应发挥重要作用的大数据趋势。 Java 和大数据:为什么大数据项目离不开 Java - 3

物联网——大数据变得越来越大

物联网 (IoT) 的情况似乎略有不同,但事实并非如此。物联网继续“流行”,势头强劲并在全球蔓延。因此,安装在家庭和办公室中的“智能”设备的数量也在增长,这些设备理应在必要时传输各种数据。因此,“大”数据量只会增加。正如专家指出的那样,许多组织已经拥有大量数据,主要来自物联网领域,但他们尚未准备好使用这些数据,而到 2020 年,这种雪崩将变得更加严重。因此,大数据项目的投资也将迅速增加。好吧,让我们提醒您,IoT 也非常喜欢 Java。嗯,谁不爱他呢?

数字孪生

数字孪生是近期另一个有趣的趋势,它与物联网和大数据直接相关。因此,在其中使用Java就绰绰有余了。什么是数字孪生?这是真实物体或系统的数字图像。物理设备的软件模拟允许您模拟真实对象在干扰和环境条件下的内部流程、技术特征和行为。如果真实设备中没有大量传感器并行运行,数字孪生的运行是不可能的。预计到 2020 年,全球将有超过 200 亿个联网传感器,向数十亿个数字孪生传输信息。2020年,这一趋势应该会得到增强并脱颖而出。

数字化转型将变得更加智能

数字化转型多年来一直被认为是一个重要趋势。但问题是,专家表示,许多公司和高层管理人员对这个短语的含义的理解极其模糊。对于许多人来说,数字化转型意味着寻找方法出售公司收集的数据以创造新的利润来源。到 2020 年,越来越多的公司意识到数字化转型就是将数据正确应用到业务的各个方面,以创造竞争优势。因此,我们可以预期,公司将增加与正确和有意识地使用数据相关的项目的预算。
“我们正在慢慢走向一个大数据是起点而不是终点的时代。”
朱珍珠,《数字大师》书籍作者

结果

大数据是另一个真正巨大的活动领域,Java 开发人员可以在其中找到很多利用的机会。就像物联网一样,这个领域正在蓬勃发展,但程序员以及其他技术专家却严重短缺。因此,现在是停止阅读这么长的文章并开始学习 Java 的时候了! Java 和大数据:为什么大数据项目离不开 Java - 5
评论
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION