JavaRush /จาวาบล็อก /Random-TH /Java และ Big Data: เหตุใดโครงการ Big Data ไม่สามารถทำได้ห...

Java และ Big Data: เหตุใดโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java

เผยแพร่ในกลุ่ม
ในบทความของเราเกี่ยวกับ JavaRush เราไม่เคยเบื่อที่จะพูดว่า Java ซึ่งอีกไม่นานจะมีอายุ 25 ปี กำลังประสบกับรุ่นเยาว์คนที่สองและมีแนวโน้มที่ยอดเยี่ยมในอนาคตอันใกล้นี้ มีเหตุผลหลายประการสำหรับเรื่องนี้ และหนึ่งในนั้นก็คือ Java เป็นภาษาการเขียนโปรแกรมหลักในตลาดไอทีที่กำลังได้รับความนิยมและเติบโตอย่างรวดเร็ว Java และ Big Data: เหตุใดโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java - 1บ่อยครั้งในบริบทของความรักอันลึกซึ้งและความรู้สึกอ่อนโยนต่อ Java นั้น มีการกล่าวถึง Internet of Things (IoT) และข้อมูลขนาดใหญ่ เช่นเดียวกับระบบธุรกิจอัจฉริยะ (ระบบธุรกิจอัจฉริยะ, BI) และการวิเคราะห์แบบเรียลไทม์ (การวิเคราะห์แบบเรียลไทม์) เมื่อเร็ว ๆ นี้เราได้พูดคุยถึงความเชื่อมโยงระหว่าง Java และ Internet of Thingsและพูดคุยเกี่ยวกับวิธีที่นักพัฒนา Java สามารถ “ปรับแต่ง” ตัวเองและทักษะของเขาให้เข้ากับกลุ่มเฉพาะนี้ได้อย่างไร ตอนนี้ถึงเวลาให้ความสนใจกับพื้นที่มาแรงอันดับสองซึ่งใช่แล้ว รัก Java และจินตนาการถึงชีวิตโดยขาดไม่ได้ ดังนั้น วันนี้เรากำลังวิเคราะห์ข้อมูลขนาดใหญ่: เหตุใด Java และผู้เขียนโค้ดที่ซื่อสัตย์ จึงเป็นที่ต้องการอย่างมากในกลุ่มนี้เช่นกัน ภาษานี้ถูกใช้ในโครงการที่มี "ข้อมูลขนาดใหญ่" อย่างไร สิ่งที่ต้องเรียนรู้เพื่อให้มีข้อมูลที่จำเป็น ทักษะในการจ้างงานและการทำงานใน Niche นี้ และแนวโน้มที่เกี่ยวข้องกับ Big Data ในปัจจุบัน ก่อนปี 2020 และในระหว่างนี้ นี่คือความคิดเห็นของผู้เชี่ยวชาญระดับโลกเกี่ยวกับ Big Data หลังจากนั้นแม้แต่ Homer Simpson ก็อยากจะเรียนรู้วิธีทำงานกับ "Big Data" Java และ Big Data: เหตุใดโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java - 2
“ฉันพูดอยู่เสมอว่าในอีก 10 ปีข้างหน้า เด็กผู้หญิงจะไม่วิ่งตามนักกีฬาและนายหน้าซื้อขายหุ้น แต่จะไล่ตามผู้ชายที่ทำงานเกี่ยวกับข้อมูลและสถิติ และฉันไม่ได้ล้อเล่น”
Hal Varian
หัวหน้านักเศรษฐศาสตร์ของ Google

Big Data กำลังครองโลก

แต่ก่อนอื่น เรามาพูดถึงข้อมูลขนาดใหญ่สักเล็กน้อย และเหตุใดกลุ่มนี้จึงมีแนวโน้มที่จะสร้างอาชีพในนั้น ในระยะสั้น ข้อมูลขนาดใหญ่อย่างหลีกเลี่ยงไม่ได้และมั่นคง และที่สำคัญที่สุดคือรวดเร็วมาก แทรกซึมกระบวนการทางธุรกิจของบริษัทต่างๆ ทั่วโลก และในทางกลับกัน พวกเขาถูกบังคับให้มองหาผู้เชี่ยวชาญที่จะทำงานกับข้อมูล (แน่นอนว่าสิ่งเหล่านี้ไม่ใช่แค่โปรแกรมเมอร์เท่านั้น) ) ล่อลวงพวกเขาด้วยเงินเดือนสูงและสินค้าอื่นๆ จากข้อมูลของ Forbes การใช้ข้อมูลขนาดใหญ่ในองค์กรเพิ่มขึ้นจาก 17% ในปี 2558 เป็น 59% ในปี 2561 Big Data กำลังแพร่กระจายอย่างรวดเร็วไปยังภาคส่วนต่างๆ ของเศรษฐกิจ รวมถึงการขาย การตลาด การวิจัยและพัฒนา โลจิสติกส์ และทุกอย่าง จากการศึกษาของ IBM จำนวนงานสำหรับมืออาชีพในสาขานี้ในสหรัฐอเมริกาเพียงอย่างเดียวจะเกิน 2.7 ล้านตำแหน่งภายในปี 2563 สัญญาเหรอ? ยังไงก็จะ.

ข้อมูลขนาดใหญ่และ Java

และตอนนี้เกี่ยวกับสาเหตุที่ Big Data และ Java มีอะไรเหมือนกันมากมาย ประเด็นก็คือเครื่องมือพื้นฐานมากมายสำหรับข้อมูลขนาดใหญ่เขียนด้วยภาษาจาวา นอกจากนี้ เครื่องมือเหล่านี้เกือบทั้งหมดยังเป็นโครงการโอเพ่นซอร์ส ซึ่งหมายความว่าทุกคนสามารถใช้ได้และด้วยเหตุผลเดียวกันกับที่บริษัทไอทีรายใหญ่ที่สุดทั่วโลกใช้งานพวกเขา “โดยส่วนใหญ่แล้ว Big Data คือ Java Hadoop และระบบนิเวศ Hadoop ส่วนใหญ่เขียนด้วยภาษา Java อินเทอร์เฟซ MapReduce สำหรับ Hadoop ก็เป็น Java เช่นกัน ดังนั้นจึงค่อนข้างง่ายสำหรับนักพัฒนา Java ที่จะย้ายเข้าสู่ข้อมูลขนาดใหญ่โดยเพียงแค่สร้างโซลูชัน Java ที่จะทำงานบน Hadoop นอกจากนี้ยังมีไลบรารี Java เช่น Cascading ที่ทำให้งานง่ายขึ้น Java ยังมีประโยชน์มากสำหรับการดีบัก แม้ว่าคุณจะใช้บางอย่างเช่น Hive [Apache Hive คือระบบจัดการฐานข้อมูลที่ใช้ Hadoop]” Marcin Mejran นักวิทยาศาสตร์ข้อมูลและรองประธานฝ่ายวิศวกรรมข้อมูลที่บริษัท Eight กล่าว “นอกเหนือจาก Hadoop แล้ว Storm ยังเขียนด้วยภาษา Java และ Spark (เช่น อนาคตที่เป็นไปได้ของ Hadoop) เขียนด้วย Scala (ซึ่งในทางกลับกัน ทำงานบน JVM และ Spark มีอินเทอร์เฟซ Java) อย่างที่คุณเห็น Java มีบทบาทสำคัญในข้อมูลขนาดใหญ่ ทั้งหมดนี้คือเครื่องมือโอเพ่นซอร์ส ซึ่งหมายความว่านักพัฒนาภายในบริษัทสามารถสร้างส่วนขยายสำหรับพวกเขาหรือเพิ่มฟังก์ชันการทำงานได้ งานนี้มักรวมถึงการพัฒนา Java ด้วย” ผู้เชี่ยวชาญกล่าวเสริม ดังที่เราเห็นในข้อมูลขนาดใหญ่ เช่นเดียวกับในอินเทอร์เน็ตของสิ่งต่าง ๆ การเรียนรู้ของเครื่องจักร และช่องทางอื่น ๆ อีกมากมายที่ยังคงได้รับความนิยม ความรู้เกี่ยวกับ Java จะไม่สามารถถูกแทนที่ได้ง่ายๆ
“ปัจจุบันทุกบริษัทมีแผนข้อมูลขนาดใหญ่ และบริษัทเหล่านี้ทั้งหมดก็จะจบลงที่ธุรกิจข้อมูลขนาดใหญ่”
Thomas H. Davenport
นักวิชาการชาวอเมริกันและผู้เชี่ยวชาญด้านการวิเคราะห์กระบวนการทางธุรกิจและนวัตกรรม
และตอนนี้เพิ่มเติมอีกเล็กน้อยเกี่ยวกับเครื่องมือข้อมูลขนาดใหญ่ที่กล่าวถึงข้างต้นซึ่งนักพัฒนา Java ใช้กันอย่างแพร่หลาย

อาปาเช่ ฮาดูป

Apache Hadoop เป็นหนึ่งในเทคโนโลยีพื้นฐานสำหรับ Big Data และเขียนด้วยภาษา Java Hadoop เป็นชุดยูทิลิตี ไลบรารี และเฟรมเวิร์กโอเพ่นซอร์สฟรีที่จัดการโดย Apache Software Foundation เดิมทีออกแบบมาสำหรับการประมวลผลและการจัดเก็บข้อมูลที่แตกต่างกันจำนวนมากที่ปรับขนาดได้และกระจายได้ แต่เชื่อถือได้ Hadoop กำลังกลายเป็นศูนย์กลางของโครงสร้างพื้นฐาน "ข้อมูลขนาดใหญ่" สำหรับหลายบริษัทโดยธรรมชาติ บริษัทต่างๆ ทั่วโลกกำลังมองหาผู้ที่มีความสามารถพิเศษของ Hadoop อย่างแข็งขัน และ Java ก็เป็นทักษะสำคัญที่จำเป็นในการฝึกฝนเทคโนโลยีนี้ จากข้อมูลของDevelopers Slashdot ในปี 2019 บริษัทขนาดใหญ่หลายแห่ง รวมถึง JPMorgan Chase ที่มีเงินเดือนเป็นประวัติการณ์สำหรับโปรแกรมเมอร์ ต่างกระตือรือร้นในการมองหาผู้เชี่ยวชาญ Hadoop ในการประชุม Hadoop World แต่ถึงอย่างนั้นพวกเขาก็ไม่สามารถหาผู้เชี่ยวชาญที่มีทักษะที่ต้องการได้เพียงพอ (ใน โดยเฉพาะความรู้เกี่ยวกับโมเดลการเขียนโปรแกรมและเฟรมเวิร์กสำหรับการเขียนแอปพลิเคชัน Hadoop MapReduce) ซึ่งหมายความว่าเงินเดือนในพื้นที่นี้จะเพิ่มขึ้นมากยิ่งขึ้น และพวกมันก็ใหญ่มากแล้ว โดยเฉพาะอย่างยิ่ง Business Insider ประมาณการค่าใช้จ่ายโดยเฉลี่ยของผู้เชี่ยวชาญ Hadoop ไว้ที่ 103,000 ดอลลาร์ต่อปี ในขณะที่ผู้เชี่ยวชาญด้านข้อมูลขนาดใหญ่โดยทั่วไปจะอยู่ที่ 106,000 ดอลลาร์ต่อปี การสรรหาผู้จัดการที่กำลังมองหาผู้เชี่ยวชาญ Hadoop เน้นให้ Java เป็นหนึ่งในทักษะที่สำคัญที่สุดสำหรับการจ้างงานที่ประสบความสำเร็จ Hadoop มีการใช้งานมาเป็นเวลานานหรือเพิ่งนำมาใช้โดยบริษัทขนาดใหญ่หลายแห่ง รวมถึง IBM, Microsoft และ Oracle ปัจจุบัน Amazon, eBay, Apple, Facebook, General Dynamic และบริษัทอื่นๆ ก็มีตำแหน่งผู้เชี่ยวชาญ Hadoop มากมายเช่นกัน
“เช่นเดียวกับที่ไม่มีไฟที่ปราศจากควัน ในปัจจุบันก็ไม่มีธุรกิจใดที่ปราศจากข้อมูลขนาดใหญ่”
ดร. โทมัส เรดแมน
ผู้เชี่ยวชาญที่มีชื่อเสียงด้านการวิเคราะห์ข้อมูลและเทคโนโลยีดิจิทัล

อาปาเช่ สปาร์ค

Apache Spark เป็นอีกหนึ่งแพลตฟอร์มข้อมูลขนาดใหญ่ที่สำคัญซึ่งแข่งขันกับ Hadoop อย่างจริงจัง ด้วยความเร็ว ความยืดหยุ่น และความเป็นมิตรของนักพัฒนา ทำให้ Apache Spark กลายเป็นเฟรมเวิร์กชั้นนำสำหรับ SQL ขนาดใหญ่ ข้อมูลแบบแบตช์และการสตรีม และการเรียนรู้ของเครื่อง เนื่องจากเป็นเฟรมเวิร์กสำหรับการประมวลผลข้อมูลขนาดใหญ่แบบกระจาย Apache Spark จึงทำงานบนหลักการที่คล้ายคลึงกับเฟรมเวิร์ก Hadoop MapReduce และกำลังค่อยๆ ดึงเอาส่วนสำคัญออกไปในแง่ของการใช้งานในด้านข้อมูลขนาดใหญ่ Spark สามารถใช้งานได้หลายวิธีและมีลิงก์ไปยัง Java รวมถึงภาษาการเขียนโปรแกรมอื่นๆ อีกจำนวนหนึ่ง เช่น Scala, Python และ R ปัจจุบัน Spark ถูกใช้อย่างกว้างขวางโดยธนาคาร บริษัทโทรคมนาคม นักพัฒนาวิดีโอเกม และแม้แต่ รัฐบาล แน่นอนว่ายักษ์ใหญ่ด้านไอที เช่น Apple, Facebook, IBM และ Microsoft ชอบ Apache Spark

อาปาเช่ ควาญช้าง

Apache Mahout เป็นไลบรารีการเรียนรู้ของเครื่อง Java แบบโอเพ่นซอร์สจาก Apache ควาญช้างเป็นเครื่องมือแมชชีนเลิร์นนิงที่สามารถปรับขนาดได้อย่างแม่นยำ โดยมีความสามารถในการประมวลผลข้อมูลในเครื่องตั้งแต่หนึ่งเครื่องขึ้นไป การใช้งานแมชชีนเลิร์นนิงนี้เขียนด้วยภาษา Java บางส่วนสร้างขึ้นบน Apache Hadoop

อาปาเช่ สตอร์ม

Apache Storm เป็นเฟรมเวิร์กสำหรับการประมวลผลสตรีมมิ่งแบบเรียลไทม์แบบกระจาย Storm ช่วยให้การประมวลผลสตรีมข้อมูลไม่จำกัดได้อย่างน่าเชื่อถือเป็นเรื่องง่าย โดยทำแบบเรียลไทม์เหมือนกับที่ Hadoop ทำกับชุดข้อมูล Storm ทำงานร่วมกับระบบคิวและระบบฐานข้อมูลใดๆ

Java JFreechart

Java JFreechart เป็นไลบรารีโอเพ่นซอร์สที่พัฒนาใน Java สำหรับใช้ในแอปพลิเคชันที่ใช้ Java เพื่อสร้างแผนภูมิที่หลากหลาย ความจริงก็คือการแสดงภาพข้อมูลเป็นงานที่ค่อนข้างสำคัญสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่ที่ประสบความสำเร็จ เนื่องจากข้อมูลขนาดใหญ่เกี่ยวข้องกับการทำงานกับข้อมูลปริมาณมาก จึงอาจเป็นเรื่องยากที่จะระบุแนวโน้มใดๆ และเพียงแต่ได้ข้อสรุปบางอย่างโดยดูจากข้อมูลดิบ อย่างไรก็ตาม หากข้อมูลเดียวกันแสดงเป็นกราฟ ข้อมูลจะเข้าใจได้ง่ายขึ้น ค้นหารูปแบบและระบุความสัมพันธ์ได้ง่ายขึ้น Java JFreechart ช่วยในการสร้างกราฟและแผนภูมิสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่ได้จริง

การเรียนรู้เชิงลึก4j

Deeplearning4j เป็นไลบรารี Java ที่ใช้ในการสร้างโครงข่ายประสาทเทียมประเภทต่างๆ Deeplearning4j ได้รับการปรับใช้ใน Java และทำงานในสภาพแวดล้อมที่เข้ากันได้กับ Clojure และมี API สำหรับภาษา Scala เทคโนโลยี Deeplearning4j ประกอบด้วยการใช้งานเครื่อง Boltzmann แบบจำกัด, เครือข่าย Deep Believe, โปรแกรมเข้ารหัสอัตโนมัติแบบลึก, โปรแกรมเข้ารหัสอัตโนมัติแบบสแต็กพร้อมตัวกรองสัญญาณรบกวน, เครือข่ายประสาทเทียมเทนเซอร์แบบเรียกซ้ำ, word2vec, doc2vec และ GloVe
“บิ๊กดาต้ากำลังกลายเป็นวัตถุดิบใหม่สำหรับธุรกิจ”
Craig Mundie
ที่ปรึกษาอาวุโสของ CEO ของ Microsoft

Big Data ใกล้ถึงปี 2020: เทรนด์ล่าสุด

ปี 2020 น่าจะเป็นอีกปีแห่งการเติบโตและการพัฒนาอย่างรวดเร็วของ Big Data โดยบริษัทและองค์กรต่างๆ ในสาขาต่างๆ จะนำ Big Data ไปใช้อย่างกว้างขวาง ดังนั้นเราจะมาสรุปแนวโน้ม Big Data ที่จะเข้ามามีบทบาทสำคัญในปีหน้าโดยย่อ Java และ Big Data: เหตุใดโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java - 3

Internet of Things - ข้อมูลขนาดใหญ่กำลังยิ่งใหญ่ยิ่งขึ้น

ดูเหมือนว่า Internet of Things (IoT) จะแตกต่างออกไปเล็กน้อย แต่ก็ไม่ใช่ IoT ยังคง "เทรนด์" ต่อไป โดยได้รับแรงผลักดันและแพร่กระจายไปทั่วโลก ด้วยเหตุนี้ จำนวนอุปกรณ์ “อัจฉริยะ” ที่ติดตั้งในบ้านและสำนักงาน ซึ่งส่งข้อมูลทุกประเภทตามที่จำเป็นก็เพิ่มขึ้นตามที่ควร ดังนั้นปริมาณข้อมูล "ขนาดใหญ่" จะเพิ่มขึ้นเท่านั้น ดังที่ผู้เชี่ยวชาญตั้งข้อสังเกตว่า หลายองค์กรมีข้อมูลจำนวนมากอยู่แล้ว โดยส่วนใหญ่มาจากภาค IoT ซึ่งพวกเขายังไม่พร้อมใช้งานมากนัก และในปี 2020 หิมะถล่มนี้จะยิ่งใหญ่ยิ่งขึ้น ส่งผลให้การลงทุนในโครงการข้อมูลขนาดใหญ่จะเพิ่มขึ้นอย่างรวดเร็วเช่นกัน เราขอเตือนคุณว่า IoT ก็ รัก Java เช่นกัน แล้วใครบ้างล่ะที่ไม่รักเขา?

ฝาแฝดดิจิตอล

Digital Twins เป็นอีกหนึ่งเทรนด์ที่น่าสนใจในอนาคตอันใกล้นี้ ซึ่งเกี่ยวข้องโดยตรงกับทั้ง Internet of Things และ Big Data ดังนั้นการใช้ Java ในนั้นจะมากเกินพอ แฝดดิจิทัลคืออะไร? นี่คือภาพดิจิทัลของวัตถุหรือระบบจริง ซอฟต์แวร์อะนาล็อกของอุปกรณ์ทางกายภาพช่วยให้คุณสามารถจำลองกระบวนการภายใน ลักษณะทางเทคนิค และพฤติกรรมของวัตถุจริงภายใต้เงื่อนไขของการรบกวนและสภาพแวดล้อม การทำงานของ Digital Twin นั้นเป็นไปไม่ได้หากไม่มีเซ็นเซอร์จำนวนมากในอุปกรณ์จริงที่ทำงานแบบขนาน คาดว่าภายในปี 2563 จะมีเซ็นเซอร์ที่เชื่อมต่อกันมากกว่า 2 หมื่นล้านตัวในโลก ส่งข้อมูลไปยังแฝดดิจิทัลหลายพันล้านตัว ในปี 2020 แนวโน้มนี้น่าจะได้รับแรงผลักดันและก้าวไปข้างหน้า

การเปลี่ยนแปลงทางดิจิทัลจะฉลาดขึ้น

การเปลี่ยนแปลงทางดิจิทัลได้รับการกล่าวถึงว่าเป็นเทรนด์สำคัญมาหลายปีแล้ว แต่ปัญหาคือผู้เชี่ยวชาญกล่าวว่า บริษัทและผู้จัดการระดับสูงหลายแห่งมีความเข้าใจที่คลุมเครืออย่างยิ่งว่าวลีนี้หมายถึงอะไร สำหรับหลายๆ คน การเปลี่ยนแปลงทางดิจิทัลหมายถึงการหาวิธีขายข้อมูลที่บริษัทรวบรวมเพื่อสร้างแหล่งผลกำไรใหม่ๆ ภายในปี 2563 บริษัทต่างๆ จำนวนมากขึ้นเรื่อยๆ ตระหนักว่าการเปลี่ยนแปลงทางดิจิทัลเป็นเรื่องเกี่ยวกับการนำข้อมูลอย่างถูกต้องไปใช้กับทุกแง่มุมของธุรกิจเพื่อสร้างความได้เปรียบทางการแข่งขัน ดังนั้นเราจึงคาดหวังได้ว่าบริษัทต่างๆ จะเพิ่มงบประมาณสำหรับโครงการที่เกี่ยวข้องกับการใช้ข้อมูลอย่างถูกต้องและมีสติ
“เรากำลังค่อยๆ ก้าวไปสู่ยุคที่ Big Data เป็นจุดเริ่มต้น ไม่ใช่จุดสิ้นสุด”
Pearl Zhu ผู้แต่งหนังสือ Digital Master

ผลลัพธ์

Big Data เป็นอีกหนึ่งกิจกรรมขนาดใหญ่อย่างแท้จริงพร้อมโอกาสมากมายที่นักพัฒนา Java สามารถนำไปใช้ได้ เช่นเดียวกับ Internet of Things สาขานี้กำลังเฟื่องฟูและประสบปัญหาการขาดแคลนโปรแกรมเมอร์อย่างรุนแรง รวมถึงผู้เชี่ยวชาญด้านเทคนิคอื่นๆ ดังนั้นตอนนี้เป็นเวลาที่จะหยุดอ่านบทความยาว ๆ และเริ่มเรียนรู้ Java! Java และ Big Data: เหตุใดโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java - 5
ความคิดเห็น
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION