JavaRush /وبلاگ جاوا /Random-FA /جاوا و داده های بزرگ: چرا پروژه های کلان داده بدون جاوا ن...

جاوا و داده های بزرگ: چرا پروژه های کلان داده بدون جاوا نمی توانند کار کنند

در گروه منتشر شد
در مقالات خود در مورد JavaRush، هرگز از گفتن این نکته خسته نمی شویم که جاوا که به زودی 25 ساله می شود، اکنون دومین جوانی خود را تجربه می کند و چشم اندازهای درخشانی در آینده نزدیک دارد. دلایل مختلفی برای این امر وجود دارد و یکی از آنها این است که جاوا زبان برنامه نویسی اصلی در تعدادی از بازارهای پرطرفدار و در حال رشد سریع در بازار فناوری اطلاعات است. جاوا و داده های بزرگ: چرا پروژه های کلان داده بدون جاوا نمی توانند انجام دهند - 1اغلب در زمینه عشق عمیق و احساسات لطیف به جاوا، اینترنت اشیا (IoT) و کلان داده و همچنین هوش تجاری (هوش تجاری، BI) و Real Time Analytics (تجزیه و تحلیل بلادرنگ) ذکر می شود. ما اخیراً در مورد ارتباط بین جاوا و اینترنت اشیاء بحث کردیم و در مورد اینکه چگونه یک توسعه دهنده جاوا می تواند خود و مهارت هایش را به این جایگاه اختصاص دهد صحبت کردیم. اکنون وقت آن است که به دومین منطقه فوق پرطرفدار توجه کنید، که - درست است - جاوا را نیز دوست دارد و نمی تواند زندگی را بدون آن تصور کند. بنابراین، امروز ما در حال تجزیه و تحلیل کلان داده‌ها هستیم: چرا جاوا، و در نتیجه کدنویسان وفادار آن، در این زمینه نیز تقاضای زیادی دارد، دقیقاً چگونه از این زبان در پروژه‌هایی با «داده بزرگ» استفاده می‌شود، برای داشتن اطلاعات لازم چه چیزی باید یاد گرفت. مهارت‌های شغلی و کار در این حوزه و اینکه چه روندهایی برای کلان داده در حال حاضر، در آستانه سال 2020 مرتبط است. و در بین همه اینها، در اینجا نظرات کارشناسان در سطح جهانی در مورد کلان داده ها وجود دارد، پس از آن حتی هومر سیمپسون نیز می خواهد یاد بگیرد که چگونه با "داده های بزرگ" کار کند. جاوا و داده های بزرگ: چرا پروژه های کلان داده بدون جاوا نمی توانند انجام دهند - 2
من مدام می گویم که در 10 سال آینده، دختران به دنبال ورزشکاران و دلالان سهام نیستند، بلکه پسرانی هستند که با داده ها و آمار کار می کنند. و من شوخی نمی کنم."
هال واریان،
اقتصاددان ارشد گوگل

کلان داده در حال تسخیر سیاره است

اما ابتدا، کمی در مورد کلان داده و اینکه چرا این طاقچه بسیار امیدوارکننده برای ایجاد یک حرفه در آن است. به طور خلاصه، داده های بزرگ به طور اجتناب ناپذیر و پیوسته، و مهمتر از همه بسیار سریع، به فرآیندهای تجاری شرکت ها در سراسر جهان نفوذ می کنند و آنها نیز به نوبه خود مجبور می شوند به دنبال افراد حرفه ای برای کار با داده ها باشند (البته اینها فقط برنامه نویس نیستند. ) آنها را با حقوق های بالا و سایر خوبی ها فریب می دهد. بر اساس گزارش فوربس، استفاده از داده های بزرگ در شرکت ها از 17 درصد در سال 2015 به 59 درصد در سال 2018 افزایش یافته است . کلان داده به سرعت در حال گسترش به بخش های مختلف اقتصاد، از جمله فروش، بازاریابی، تحقیق و توسعه، تدارکات و همه چیز است. بر اساس یک مطالعه IBM، تعداد مشاغل حرفه ای در این زمینه تنها در ایالات متحده تا سال 2020 از 2.7 میلیون نفر خواهد گذشت. امیدوار کننده؟ هنوز هم خواهد بود.

کلان داده و جاوا

و حالا در مورد اینکه چرا بیگ دیتا و جاوا این همه اشتراک دارند. مسئله این است که بسیاری از ابزارهای اساسی برای داده های بزرگ در جاوا نوشته شده اند. علاوه بر این، تقریباً همه این ابزارها پروژه های متن باز هستند. این بدان معنی است که آنها در دسترس همه هستند و به همان دلیلی که به طور فعال توسط بزرگترین شرکت های فناوری اطلاعات در سراسر جهان استفاده می شوند. «بیگ دیتا تا حد زیادی جاوا است. Hadoop، و بخش بزرگی از اکوسیستم Hadoop، به زبان جاوا نوشته شده است. رابط MapReduce برای Hadoop نیز جاوا است. بنابراین برای یک توسعه‌دهنده جاوا، حرکت به سمت داده‌های بزرگ با ایجاد راه‌حل‌های جاوا که در بالای Hadoop اجرا می‌شوند، بسیار آسان خواهد بود. همچنین کتابخانه های جاوا مانند Cascading وجود دارد که کار را آسان می کند. جاوا همچنین برای اشکال‌زدایی بسیار مفید است، حتی اگر از چیزی مانند Hive استفاده می‌کنید [Apache Hive یک سیستم مدیریت پایگاه داده مبتنی بر Hadoop است]. علاوه بر Hadoop، Storm در جاوا نوشته شده است، و Spark (یعنی آینده احتمالی Hadoop) در Scala نوشته شده است (که به نوبه خود بر روی JVM اجرا می شود و Spark یک رابط جاوا دارد). همانطور که می بینید، جاوا نقش بزرگی در داده های بزرگ بازی می کند. اینها همه ابزارهای منبع باز هستند، به این معنی که توسعه دهندگان در شرکت ها می توانند افزونه هایی را برای آنها ایجاد کنند یا قابلیت هایی را اضافه کنند. این کار اغلب شامل توسعه جاوا می شود. همانطور که می بینیم، در داده های بزرگ، و همچنین در اینترنت اشیا، یادگیری ماشینی و تعدادی از جایگاه های دیگر که همچنان محبوبیت پیدا می کنند، دانش جاوا به سادگی غیر قابل جایگزین خواهد بود.
اکنون هر شرکتی برنامه های کلان داده دارد. و همه این شرکت‌ها به تجارت کلان داده ختم خواهند شد.»
توماس اچ داونپورت،
آکادمیک آمریکایی و متخصص در تجزیه و تحلیل فرآیندهای کسب و کار و نوآوری
و اکنون کمی بیشتر در مورد ابزارهای داده بزرگ ذکر شده در بالا که به طور گسترده توسط توسعه دهندگان جاوا استفاده می شود.

آپاچی هادوپ

Apache Hadoop یکی از فناوری های اساسی برای داده های بزرگ است و به زبان جاوا نوشته شده است. Hadoop مجموعه ای رایگان و منبع باز از ابزارها، کتابخانه ها و چارچوب ها است که توسط بنیاد نرم افزار آپاچی مدیریت می شود. Hadoop که در اصل برای محاسبات مقیاس پذیر و توزیع شده و در عین حال قابل اعتماد و ذخیره مقادیر عظیمی از اطلاعات مختلف طراحی شده بود، طبیعتاً به مرکز زیرساخت "داده های بزرگ" برای بسیاری از شرکت ها تبدیل شده است. شرکت‌ها در سراسر جهان فعالانه به دنبال استعدادهای Hadoop هستند و جاوا یک مهارت کلیدی است که برای تسلط بر این فناوری لازم است. به گفته Developers Slashdot، در سال 2019، بسیاری از شرکت های بزرگ، از جمله JPMorgan Chase با دستمزد رکورددار برنامه نویسان، به طور فعال به دنبال متخصصان Hadoop در کنفرانس Hadoop World بودند، اما حتی در آنجا نیز نتوانستند متخصصان کافی با مهارت های مورد نیاز خود را بیابند. به ویژه، این دانش از مدل برنامه نویسی و چارچوب برای نوشتن برنامه های Hadoop MapReduce). این بدان معناست که حقوق ها در این زمینه بیش از پیش افزایش خواهد یافت. و آنها در حال حاضر بسیار بزرگ هستند. به طور خاص، Business Insider میانگین هزینه یک متخصص Hadoop را 103 هزار دلار در سال تخمین می زند، در حالی که برای متخصصان کلان داده به طور کلی این رقم 106 هزار دلار در سال است. مدیرانی که به دنبال کارشناسان Hadoop هستند، جاوا را به عنوان یکی از مهم ترین مهارت ها برای استخدام موفق برجسته می کنند. Hadoop برای مدت طولانی مورد استفاده قرار گرفته است یا به تازگی توسط بسیاری از شرکت های بزرگ از جمله IBM، Microsoft و Oracle پیاده سازی شده است. در حال حاضر، آمازون، eBay، اپل، فیس بوک، جنرال دینامیک و سایر شرکت ها نیز موقعیت های زیادی برای متخصصان Hadoop دارند.
همانطور که هیچ آتش سوزی بدون دود وجود ندارد، اکنون هیچ تجارتی بدون داده های بزرگ وجود ندارد.
دکتر توماس ردمن،
متخصص مشهور در تجزیه و تحلیل داده ها و فناوری های دیجیتال

آپاچی اسپارک

آپاچی اسپارک یکی دیگر از پلتفرم های کلیدی کلان داده است که به طور جدی با Hadoop رقابت می کند. Apache Spark با سرعت، انعطاف‌پذیری و سازگاری با توسعه‌دهندگان در حال تبدیل شدن به چارچوب پیشرو برای SQL در مقیاس بزرگ، داده‌های دسته‌ای و جریانی، و یادگیری ماشین است. Apache Spark که چارچوبی برای پردازش توزیع‌شده داده‌های بزرگ است، بر اساس اصل مشابه چارچوب Hadoop MapReduce کار می‌کند و به تدریج از نظر استفاده در حوزه داده‌های بزرگ، کف را از آن می‌گیرد. Spark را می توان به طرق مختلف مورد استفاده قرار داد و دارای پیوندهایی به جاوا و همچنین تعدادی از زبان های برنامه نویسی دیگر مانند Scala، Python و R است. امروزه Spark به طور گسترده توسط بانک ها، شرکت های مخابراتی، توسعه دهندگان بازی های ویدیویی و حتی استفاده می شود. دولت ها. البته غول های فناوری اطلاعات مانند اپل، فیسبوک، آی بی ام و مایکروسافت عاشق آپاچی اسپارک هستند.

آپاچی ماهوت

Apache Mahout یک کتابخانه یادگیری ماشین جاوا منبع باز از آپاچی است. Mahout دقیقاً یک ابزار یادگیری ماشینی مقیاس پذیر با توانایی پردازش داده ها در یک یا چند ماشین است. پیاده سازی های این یادگیری ماشینی به زبان جاوا نوشته شده اند، برخی از قسمت ها بر روی آپاچی هادوپ ساخته شده اند.

طوفان آپاچی

طوفان آپاچی چارچوبی برای محاسبات جریان بیدرنگ توزیع شده است. Storm پردازش قابل اعتماد جریان های نامحدود داده را آسان می کند و همان کاری را که Hadoop برای دسته ای از داده ها انجام می دهد در زمان واقعی انجام می دهد. Storm با هر سیستم صف و هر سیستم پایگاه داده ادغام می شود.

جاوا JFreechart

Java JFreechart یک کتابخانه منبع باز است که در جاوا برای استفاده در برنامه های کاربردی مبتنی بر جاوا برای ایجاد طیف گسترده ای از نمودارها توسعه یافته است. واقعیت این است که تجسم داده ها یک کار نسبتاً مهم برای تجزیه و تحلیل موفق کلان داده است. از آنجایی که کلان داده شامل کار با حجم زیادی از داده است، شناسایی هر روندی دشوار است و به سادگی با نگاه کردن به داده های خام به نتایج خاصی می رسید. با این حال، اگر همان داده ها در یک نمودار نمایش داده شود، قابل درک تر می شود و پیدا کردن الگوها و شناسایی همبستگی ها آسان تر می شود. جاوا JFreechart در واقع به ایجاد نمودارها و نمودارها برای تجزیه و تحلیل داده های بزرگ کمک می کند.

Deeplearning4j

Deeplearning4j یک کتابخانه جاوا است که برای ساخت انواع مختلف شبکه های عصبی استفاده می شود. Deeplearning4j در جاوا پیاده سازی شده و در محیطی اجرا می شود که با Clojure سازگار است و شامل یک API برای زبان اسکالا است. فناوری‌های Deeplearning4j شامل پیاده‌سازی ماشین محدود بولتزمن، شبکه باور عمیق، رمزگذار خودکار عمیق، رمزگذار خودکار پشته‌ای با فیلتر نویز، شبکه عصبی تانسور بازگشتی، word2vec، doc2vec و GloVe است.
"داده های بزرگ در حال تبدیل شدن به مواد خام جدید برای تجارت است."
کریگ موندی،
مشاور ارشد مدیرعامل مایکروسافت

کلان داده در آستانه سال 2020: آخرین روندها

سال 2020 باید سال دیگری از رشد و تکامل سریع داده های بزرگ با پذیرش گسترده داده های بزرگ توسط شرکت ها و سازمان ها در زمینه های مختلف باشد. بنابراین، به طور خلاصه روندهای کلان داده را که باید نقش مهمی در سال آینده ایفا کنند، برجسته می کنیم. جاوا و داده های بزرگ: چرا پروژه های کلان داده بدون جاوا نمی توانند انجام دهند - 3

اینترنت اشیا - داده های بزرگ حتی بزرگتر می شود

به نظر می رسد که اینترنت اشیا (IoT) داستان کمی متفاوت است، اما اینطور نیست. اینترنت اشیا به «روند» ادامه می‌دهد، شتاب می‌گیرد و در سراسر جهان گسترش می‌یابد. در نتیجه، تعداد دستگاه‌های «هوشمند» نصب‌شده در خانه‌ها و ادارات، که همانطور که باید، انواع داده‌ها را در صورت لزوم انتقال می‌دهند، نیز رو به افزایش است. بنابراین، حجم داده های "بزرگ" تنها افزایش می یابد. همانطور که کارشناسان خاطرنشان می کنند، بسیاری از سازمان ها در حال حاضر داده های زیادی دارند، در درجه اول از بخش اینترنت اشیا، که هنوز خیلی آماده استفاده نیستند و در سال 2020 این بهمن حتی بیشتر خواهد شد. در نتیجه، سرمایه گذاری در پروژه های کلان داده نیز به سرعت افزایش خواهد یافت. خوب، به شما یادآوری می کنیم که اینترنت اشیا نیز جاوا را بسیار دوست دارد . خوب، کی او را دوست ندارد؟

دوقلوهای دیجیتال

دوقلوهای دیجیتال یکی دیگر از روند جالب آینده نزدیک است که به طور مستقیم هم با اینترنت اشیا و هم به داده های بزرگ مرتبط است. و بنابراین، استفاده از جاوا در آن بیش از اندازه کافی خواهد بود. دوقلو دیجیتال چیست؟ این یک تصویر دیجیتالی از یک شی یا سیستم واقعی است. یک آنالوگ نرم افزاری یک دستگاه فیزیکی به شما امکان می دهد فرآیندهای داخلی، ویژگی های فنی و رفتار یک شی واقعی را در شرایط تداخل و محیط شبیه سازی کنید. عملکرد یک دوقلو دیجیتال بدون تعداد زیادی سنسور در دستگاه واقعی که به طور موازی کار می کنند غیرممکن است. پیش بینی می شود تا سال 2020 بیش از 20 میلیارد حسگر متصل در جهان وجود داشته باشد که اطلاعات را به میلیاردها دوقلو دیجیتال منتقل می کند. در سال 2020، این روند باید شتاب بیشتری بگیرد و به منصه ظهور برسد.

تحول دیجیتال هوشمندتر خواهد شد

چند سالی است که از تحول دیجیتال به عنوان یک روند مهم یاد می شود. اما به گفته کارشناسان، مشکل این است که بسیاری از شرکت ها و مدیران ارشد درک بسیار مبهمی از معنای این عبارت داشتند. برای بسیاری، تحول دیجیتال به معنای یافتن راه هایی برای فروش داده هایی است که یک شرکت جمع آوری می کند تا منابع جدید سود ایجاد کند. تا سال 2020، شرکت‌های بیشتر و بیشتری متوجه می‌شوند که تحول دیجیتال به معنای استفاده صحیح از داده‌ها در هر جنبه‌ای از کسب‌وکارشان برای ایجاد مزیت رقابتی است. بنابراین می توان انتظار داشت که شرکت ها بودجه پروژه های مربوط به استفاده صحیح و آگاهانه از داده ها را افزایش دهند.
ما به آرامی به سمت دورانی پیش می رویم که در آن کلان داده نقطه شروع است، نه پایان.
پرل ژو، نویسنده کتاب های Digital Master

نتایج

Big Data یکی دیگر از حوزه‌های واقعاً عظیم فعالیت با فرصت‌های زیادی است که یک توسعه‌دهنده جاوا می‌تواند از آن استفاده کند. این حوزه نیز مانند اینترنت اشیا در حال رونق است و با کمبود شدید برنامه نویس و سایر کارشناسان فنی مواجه است. بنابراین، اکنون زمان آن است که خواندن چنین مقالات طولانی را متوقف کنید و شروع به یادگیری جاوا کنید! جاوا و داده های بزرگ: چرا پروژه های کلان داده بدون جاوا نمی توانند انجام دهند - 5
نظرات
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION