JavaRush /Blog Java /Random-ES /Java y Big Data: por qué los proyectos de Big Data no pue...

Java y Big Data: por qué los proyectos de Big Data no pueden prescindir de Java

Publicado en el grupo Random-ES
En nuestros artículos sobre JavaRush, no nos cansamos de decir que Java, que pronto cumplirá 25 años, está viviendo su segunda juventud y tiene brillantes perspectivas en el futuro cercano. Hay varias razones para esto, y una de ellas es que Java es el principal lenguaje de programación en varios nichos del mercado de TI que están en tendencia y en rápido crecimiento. Java y Big Data: por qué los proyectos de Big Data no pueden prescindir de Java - 1Muy a menudo, en el contexto del profundo afecto y los tiernos sentimientos por Java, se menciona el Internet de las cosas (IoT) y el big data, así como la inteligencia empresarial (business Intelligence, BI) y el Real Time Analytics (análisis en tiempo real). Recientemente discutimos la conexión entre Java e Internet de las cosas y hablamos sobre cómo un desarrollador de Java puede "adaptarse" a sí mismo y sus habilidades a este nicho. Ahora es el momento de prestar atención a la segunda área de súper tendencia, que, así es, también ama Java y no puede imaginar la vida sin él. Entonces, hoy analizamos big data: por qué Java, y por lo tanto sus fieles codificadores, también tiene una gran demanda en este nicho, cómo se usa exactamente este lenguaje en proyectos con "big data", qué aprender para tener lo necesario habilidades para el empleo y el trabajo en este nicho y qué tendencias son relevantes para big data en este momento, en vísperas de 2020. Y entre todo esto, aquí están las opiniones de expertos de talla mundial sobre big data, después de las cuales incluso Homero Simpson querrá aprender a trabajar con “big data”. Java y Big Data: por qué los proyectos de Big Data no pueden prescindir de Java - 2
“Sigo diciendo que en los próximos 10 años las chicas no perseguirán a atletas y corredores de bolsa, sino a chicos que trabajen con datos y estadísticas. Y no estoy bromeando".
Hal Varian,
economista jefe de Google

Big Data está conquistando el planeta

Pero primero, un poco sobre big data y por qué este nicho es tan prometedor para construir una carrera en él. En una palabra, big data penetra inevitable y constantemente, y lo más importante, muy rápidamente, en los procesos de negocio de las empresas de todo el mundo y estas, a su vez, se ven obligadas a buscar profesionales que trabajen con datos (estos no son solo programadores, por supuesto). ), atrayéndolos con altos salarios y otras ventajas. Según Forbes, el uso de big data en las empresas ha crecido del 17% en 2015 al 59% en 2018. Big Data se está extendiendo rápidamente a diferentes sectores de la economía, incluidos ventas, marketing, investigación y desarrollo, logística y todo. Según un estudio de IBM, el número de puestos de trabajo para profesionales en este campo sólo en Estados Unidos superará los 2,7 millones en 2020. ¿Prometedor? Todavía lo haría.

Grandes datos y Java

Y ahora, por qué Big Data y Java tienen tanto en común. El caso es que muchas herramientas básicas para big data están escritas en Java. Además, casi todas estas herramientas son proyectos de código abierto. Esto significa que están disponibles para todos y por la misma razón son utilizados activamente por las empresas de TI más grandes del mundo. “En gran medida, Big Data es Java. Hadoop, y una gran parte del ecosistema Hadoop, está escrito en Java. La interfaz MapReduce para Hadoop también es Java. Por lo tanto, será bastante fácil para un desarrollador de Java pasar al big data simplemente creando soluciones Java que se ejecutarán sobre Hadoop. También existen bibliotecas Java como Cascading que facilitan el trabajo. Java también es muy útil para la depuración, incluso si estás usando algo como Hive [Apache Hive es un sistema de gestión de bases de datos basado en Hadoop]”, dijo Marcin Mejran, científico de datos y vicepresidente de ingeniería de datos de la empresa Eight. “Además de Hadoop, Storm está escrito en Java y Spark (es decir, el probable futuro de Hadoop) está escrito en Scala (que, a su vez, se ejecuta en JVM y Spark tiene una interfaz Java). Como puede ver, Java juega un papel muy importante en big data. Todas estas son herramientas de código abierto, lo que significa que los desarrolladores de las empresas pueden crear extensiones para ellas o agregar funcionalidades. Este trabajo incluye muy a menudo el desarrollo de Java”, añadió el experto. Como vemos, en big data, así como en Internet de las cosas, el aprendizaje automático y otros nichos que continúan ganando popularidad, el conocimiento de Java será simplemente insustituible.
“Todas las empresas tienen ahora planes de big data. Y todas estas empresas acabarán en el negocio del big data”.
Thomas H. Davenport,
académico estadounidense y experto en innovación y análisis de procesos de negocio
Y ahora un poco más sobre las herramientas de big data mencionadas anteriormente y que son ampliamente utilizadas por los desarrolladores de Java.

apache hadoop

Apache Hadoop es una de las tecnologías fundamentales para big data y está escrita en Java. Hadoop es un conjunto de utilidades, bibliotecas y marcos de trabajo gratuitos y de código abierto administrados por Apache Software Foundation. Originalmente diseñado para computación y almacenamiento escalable y distribuido pero confiable de enormes cantidades de información diferente, Hadoop se está convirtiendo naturalmente en el centro de la infraestructura de "grandes datos" para muchas empresas. Empresas de todo el mundo buscan activamente talentos en Hadoop y Java es una habilidad clave necesaria para dominar esta tecnología. Según Developers Slashdot, en 2019, muchas grandes empresas, incluida JPMorgan Chase con sus salarios récord para programadores, buscaban activamente especialistas en Hadoop en la conferencia Hadoop World, pero ni siquiera allí pudieron encontrar suficientes expertos con las habilidades que necesitaban (en En particular, este conocimiento del modelo de programación y el marco para escribir aplicaciones Hadoop MapReduce). Esto significa que los salarios en este ámbito aumentarán aún más. Y ya son muy grandes. En particular, Business Insider estima el coste medio de un especialista en Hadoop en 103.000 dólares al año, mientras que para los especialistas en big data en general esta cifra es de 106.000 dólares al año. Los gerentes de reclutamiento que buscan expertos en Hadoop destacan Java como una de las habilidades más importantes para un empleo exitoso. Hadoop se ha utilizado durante mucho tiempo o fue implementado hace relativamente poco tiempo por muchas grandes corporaciones, incluidas IBM, Microsoft y Oracle. Actualmente, Amazon, eBay, Apple, Facebook, General Dynamic y otras empresas también tienen muchos puestos para especialistas de Hadoop.
“Así como no hay fuego sin humo, ahora no hay negocio sin big data”.
Dr. Thomas Redman,
reconocido experto en análisis de datos y tecnologías digitales

chispa apache

Apache Spark es otra plataforma clave de big data que compite seriamente con Hadoop. Con su velocidad, flexibilidad y facilidad de uso para los desarrolladores, Apache Spark se está convirtiendo en el marco líder para SQL a gran escala, datos por lotes y en streaming, y aprendizaje automático. Al ser un marco para el procesamiento distribuido de big data, Apache Spark funciona según un principio similar al marco Hadoop MapReduce y gradualmente le está quitando la palma en términos de uso en el campo de big data. Spark se puede utilizar de muchas maneras diferentes y tiene vínculos con Java, así como con otros lenguajes de programación como Scala, Python y R. Hoy en día, Spark es ampliamente utilizado por bancos, empresas de telecomunicaciones, desarrolladores de videojuegos e incluso gobiernos. Por supuesto, a los gigantes de TI como Apple, Facebook, IBM y Microsoft les encanta Apache Spark.

mahout apache

Apache Mahout es una biblioteca de aprendizaje automático Java de código abierto de Apache. Mahout es precisamente una herramienta de aprendizaje automático escalable con capacidad de procesar datos en una o más máquinas. Las implementaciones de este aprendizaje automático están escritas en Java, algunas partes están construidas en Apache Hadoop.

Tormenta apache

Apache Storm es un marco para computación de transmisión distribuida en tiempo real. Storm facilita el procesamiento confiable de flujos de datos ilimitados, haciendo en tiempo real lo que Hadoop hace con lotes de datos. Storm se integra con cualquier sistema de colas y cualquier sistema de base de datos.

Java JFreechart

Java JFreechart es una biblioteca de código abierto desarrollada en Java para usar en aplicaciones basadas en Java para crear una amplia gama de gráficos. El hecho es que la visualización de datos es una tarea bastante importante para el éxito del análisis de big data. Dado que big data implica trabajar con grandes volúmenes de datos, puede resultar difícil identificar cualquier tendencia y simplemente llegar a ciertas conclusiones observando los datos sin procesar. Sin embargo, si los mismos datos se muestran en un gráfico, se vuelven más comprensibles y es más fácil encontrar patrones e identificar correlaciones. Java JFreechart realmente ayuda a crear gráficos y tablas para el análisis de big data.

Aprendizaje profundo4j

Deeplearning4j es una biblioteca de Java que se utiliza para construir varios tipos de redes neuronales. Deeplearning4j está implementado en Java y se ejecuta en un entorno compatible con Clojure e incluye una API para el lenguaje Scala. Las tecnologías Deeplearning4j incluyen implementaciones de máquina Boltzmann restringida, red de creencias profundas, codificador automático profundo, codificador automático apilado con filtrado de ruido, red neuronal tensor recursiva, word2vec, doc2vec y GloVe.
"Los macrodatos se están convirtiendo en la nueva materia prima para los negocios".
Craig Mundie,
asesor principal del director ejecutivo de Microsoft

Big Data en el umbral de 2020: las últimas tendencias

2020 debería ser otro año de rápido crecimiento y evolución del big data, con una adopción generalizada del big data por parte de empresas y organizaciones de diversos campos. Por lo tanto, destacaremos brevemente las tendencias de big data que deberían jugar un papel importante en el próximo año. Java y Big Data: por qué los proyectos de Big Data no pueden prescindir de Java - 3

Internet de las cosas: los big data son cada vez más importantes

Parecería que el Internet de las cosas (IoT) es una historia ligeramente diferente, pero no lo es. IoT continúa siendo “tendencia”, ganando impulso y extendiéndose por todo el mundo. En consecuencia, también está creciendo el número de dispositivos “inteligentes” instalados en hogares y oficinas que, como debe ser, transmiten todo tipo de datos cuando es necesario. Por lo tanto, el volumen de “grandes” datos no hará más que aumentar. Como señalan los expertos, muchas organizaciones ya tienen una gran cantidad de datos, principalmente del sector IoT, que aún no están preparados para utilizar, y en 2020 esta avalancha será aún mayor. En consecuencia, las inversiones en proyectos de big data también aumentarán rápidamente. Bueno, permítenos recordarte que IoT también ama mucho a Java . Bueno, ¿quién no lo ama?

gemelos digitales

Los gemelos digitales son otra tendencia interesante del futuro próximo, que está directamente relacionada tanto con el Internet de las cosas como con el big data. Y por tanto, el uso de Java en el mismo será más que suficiente. ¿Qué es un gemelo digital? Esta es una imagen digital de un objeto o sistema real. Un análogo de software de un dispositivo físico le permite simular procesos internos, características técnicas y comportamiento de un objeto real en condiciones de interferencia y el medio ambiente. El funcionamiento de un gemelo digital es imposible sin una gran cantidad de sensores en el dispositivo real funcionando en paralelo. Se espera que en 2020 haya más de 20 mil millones de sensores conectados en el mundo, que transmitirán información a miles de millones de gemelos digitales. En 2020, esta tendencia debería cobrar impulso y pasar a primer plano.

La transformación digital será más inteligente

La transformación digital se menciona desde hace varios años como una tendencia importante. Pero el problema, dicen los expertos, es que muchas empresas y altos directivos tenían una comprensión extremadamente vaga de lo que significa esta frase. Para muchos, la transformación digital ha significado encontrar formas de vender los datos que recopila una empresa para crear nuevas fuentes de ganancias. Para 2020, cada vez más empresas se darán cuenta de que la transformación digital consiste en aplicar los datos correctamente a cada aspecto de su negocio para crear una ventaja competitiva. Por tanto, podemos esperar que las empresas aumenten los presupuestos de proyectos relacionados con el uso correcto y consciente de los datos.
"Estamos avanzando lentamente hacia una era en la que Big Data es el punto de partida, no el final".
Pearl Zhu, autora de los libros Digital Master

Resultados

Big Data es otra área de actividad realmente enorme con muchas oportunidades en las que un desarrollador de Java puede encontrar uso. Al igual que el Internet de las cosas, este campo está en auge y experimenta una grave escasez de programadores, así como de otros expertos técnicos. Por lo tanto, ¡ahora es el momento de dejar de leer artículos tan largos y comenzar a aprender Java! Java y Big Data: por qué los proyectos de Big Data no pueden prescindir de Java - 5
Comentarios
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION