JavaRush /Java блогы /Random-KK /Java және үлкен деректер: неге үлкен деректер жобалары Ja...

Java және үлкен деректер: неге үлкен деректер жобалары Javaсыз жасай алмайды?

Топта жарияланған
JavaRush туралы мақалаларымызда біз жақында 25 жасқа толатын Java қазір өзінің екінші жастығын бастан кешіріп жатқанын және жақын болашақта жарқын болашағы бар екенін айтудан жалықпаймыз. Мұның бірнеше себептері бар және олардың бірі Java IT нарығының бірқатар трендті және тез өсіп келе жатқан тауашаларындағы негізгі бағдарламалау тілі болып табылады. Java және үлкен деректер: неге Big Data жобалары Javaсыз жасай алмайды - 1Көбінесе Java-ға деген терең сүйіспеншілік пен нәзік сезім контекстінде заттар Интернеті (IoT) және үлкен деректер, сондай-ақ Бизнес интеллект (бизнес интеллект, BI) және Real Time Analytics (нақты уақыттағы аналитика) туралы айтылады. Жақында біз Java мен Интернет заттарының арасындағы байланысты талқыладық және Java әзірлеушісі өзін және оның дағдыларын осы тауашаға қалай «бейімдей» алатыны туралы айттық. Енді екінші супер тренд аймағына назар аударатын кез келді, ол да Java-ны жақсы көреді және онсыз өмірді елестете алмайды. Сонымен, бүгін біз үлкен деректерді талдап жатырмыз: неліктен Java, демек, оның сенімді codeерлері бұл тауашада да үлкен сұранысқа ие, бұл тіл «үлкен деректері» бар жобаларда қалай қолданылады, қажетті ақпаратты алу үшін нені үйрену керек. жұмысқа орналасу және осы тауашада жұмыс істеу дағдылары және дәл қазір, 2020 жыл қарсаңында үлкен деректер үшін қандай трендтер маңызды. Осының барлығының арасында үлкен деректер туралы әлемдік деңгейдегі сарапшылардың пікірлері бар, содан кейін тіпті Гомер Симпсон «үлкен деректермен» жұмыс істеуді үйренгісі келеді. Java және үлкен деректер: неге Big Data жобалары Javaсыз жасай алмайды - 2
«Мен алдағы 10 жылда қыздар спортшылар мен биржалық брокерлерді емес, деректермен және статистикамен жұмыс істейтін жігіттерді қуады деп айтамын. Ал мен қалжыңдамаймын».
Хал Вариан,
Google компаниясының бас экономисі

Үлкен деректер планетаны жаулап алуда

Бірақ алдымен үлкен деректер туралы және бұл тауашаның онда мансап құру үшін соншалықты перспективалы екендігі туралы аздап. Бір сөзбен айтқанда, үлкен деректер сөзсіз және тұрақты, ең бастысы өте жылдам, бүкіл әлемдегі компаниялардың бизнес-процестеріне енеді және олар өз кезегінде деректермен жұмыс істеу үшін кәсіби мамандарды іздеуге мәжбүр болады (бұл тек бағдарламашылар ғана емес, әрине ), оларды жоғары жалақымен және басқа да жақсылықтармен арбау. Forbes мәліметтері бойынша, кәсіпорындарда үлкен деректерді пайдалану 2015 жылы 17%-дан 2018 жылы 59%-ға дейін өсті . Үлкен деректер экономиканың әртүрлі секторларына, соның ішінде сату, маркетинг, зерттеулер мен әзірлемелер, логистика және барлығына тез таралуда. IBM зерттеуіне сәйкес, тек Америка Құрама Штаттарында осы саладағы мамандарға арналған жұмыс орындарының саны 2020 жылға қарай 2,7 миллионнан асады. Болашағы бар ма? Әрине.

Үлкен деректер және Java

Ал енді Big Data мен Java-ның неге ұқсастығы туралы. Мәселе мынада, үлкен деректерге арналған көптеген негізгі құралдар Java тілінде жазылған. Сонымен қатар, бұл құралдардың барлығы дерлік ашық бастапқы жобалар болып табылады. Бұл олардың барлығына қолжетімді екенін және сол себепті оларды әлемдегі ең ірі IT-компаниялар белсенді түрде қолданатынын білдіреді. «Көбінесе үлкен деректер Java болып табылады. Hadoop және Hadoop экожүйесінің едәуір бөлігі Java тілінде жазылған. Hadoop үшін MapReduce интерфейсі де Java болып табылады. Сондықтан Java әзірлеушісіне Hadoop үстінде жұмыс істейтін Java шешімдерін жасау арқылы үлкен деректерге өту оңай болады. Сондай-ақ жұмысты жеңілдететін Cascading сияқты Java кітапханалары бар. Java сонымен қатар Hive [Apache Hive - Hadoop негізіндегі дерекқорды басқару жүйесі] сияқты нәрсені пайдалансаңыз да, жөндеу үшін өте пайдалы», - деді Марсин Мейран, деректер ғалымы және Eight компаниясының деректер инженериясы вице-президенті. «Hadoop-тан басқа, Storm Java тілінде жазылған, ал Spark (яғни Hadoop-тың ықтимал болашағы) Scala тілінде жазылған (ол өз кезегінде JVM-де жұмыс істейді, ал Spark-тың Java интерфейсі бар). Көріп отырғаныңыздай, Java үлкен деректерде үлкен рөл атқарады. Мұның барлығы ашық бастапқы құралдар, яғни компаниялардағы әзірлеушілер олар үшін кеңейтімдер жасай алады немесе функционалдылықты қоса алады. Бұл жұмыс Java әзірлеуді жиі қамтиды», - деп қосты сарапшы. Көріп отырғанымыздай, үлкен деректерде, сондай-ақ заттардың интернетінде, машиналық оқытуда және танымал бола беретін бірқатар басқа тауашаларда Java білімі жай ғана алмастырылмайтын болады.
«Қазір әрбір компанияда үлкен деректер жоспарлары бар. Және бұл компаниялардың барлығы үлкен деректер бизнесіне айналады ».
Томас Х.Дэвенпорт,
американдық академик және бизнес-процестерді талдау және инновациялар саласындағы сарапшы
Ал енді Java әзірлеушілері кеңінен қолданатын жоғарыда аталған үлкен деректер құралдары туралы аздап толығырақ.

Apache Hadoop

Apache Hadoop үлкен деректерге арналған іргелі технологиялардың бірі болып табылады және ол Java тілінде жазылған. Hadoop - бұл Apache Software Foundation басқаратын утorталардың, кітапханалардың және фреймворктардың тегін және ашық бастапқы көзі. Бастапқыда масштабталатын және таратылатын, бірақ сенімді есептеуге және әртүрлі ақпараттың үлкен көлемін сақтауға арналған Hadoop, әрине, көптеген компаниялар үшін «үлкен деректер» инфрақұрылымының орталығына айналады. Дүние жүзіндегі компаниялар Hadoop таланттарын белсенді түрде іздейді және Java бұл технологияны меңгеру үшін қажетті негізгі дағды болып табылады. Developers Slashdot мәліметтері бойынша , 2019 жылы көптеген ірі компаниялар, соның ішінде JPMorgan Chase бағдарламашыларға рекордтық жалақысы бар Hadoop World конференциясында Hadoop мамандарын белсенді түрде іздестірді, бірақ сонда да олар қажетті дағдылары бар жеткілікті сарапшыларды таба алмады. атап айтқанда, Hadoop MapReduce қолданбаларын жазуға арналған бағдарламалау моделі мен құрылымы туралы бұл білім). Демек, бұл саладағы жалақы бұдан да артады деген сөз. Және олар қазірдің өзінде өте үлкен. Атап айтқанда, Business Insider Hadoop маманының орташа құнын жылына $103 мың деп бағалайды, ал үлкен деректер мамандары үшін бұл көрсеткіш жылына $106 мыңды құрайды. Hadoop сарапшыларын іздейтін жалдау менеджерлері табысты жұмысқа орналасудың маңызды дағдыларының бірі ретінде Java тілін атап көрсетеді. Hadoop ұзақ уақыт бойы қолданылған немесе IBM, Microsoft және Oracle сияқты көптеген ірі корпорацияларда салыстырмалы түрде жақында енгізілген. Қазіргі уақытта Amazon, eBay, Apple, Facebook, General Dynamic және басқа компанияларда Hadoop мамандары үшін көптеген позициялар бар.
«Түтінсіз өрт болмайтыны сияқты, қазір үлкен деректерсіз бизнес болмайды».
Доктор Томас Редман,
деректерді талдау және цифрлық технологиялар саласындағы танымал сарапшы

Apache Spark

Apache Spark - Hadoop-пен шындап бәсекелесетін тағы бір негізгі үлкен деректер платформасы. Жылдамдығымен, икемділігімен және әзірлеушілерге ыңғайлылығымен Apache Spark кең ауқымды SQL, пакеттік және ағындық деректер және машиналық оқыту үшін жетекші негізге айналуда. Үлкен деректерді үлестірілген өңдеуге арналған негіз бола отырып, Apache Spark Hadoop MapReduce құрылымына ұқсас принцип бойынша жұмыс істейді және үлкен деректер саласында пайдалану тұрғысынан бірте-бірте алақанды одан алып тастайды. Spark әртүрлі тәсілдермен пайдаланылуы мүмкін және Java-ға, сонымен қатар Scala, Python және R сияқты бірқатар басқа бағдарламалау тілдеріне сілтемелері бар. Бүгінгі күні Spark банктер, телекоммуникация компаниялары, бейне ойын әзірлеушілері және тіпті кеңінен қолданылады. үкіметтер. Әрине, Apple, Facebook, IBM және Microsoft сияқты IT алыптары Apache Spark-ті жақсы көреді.

Апачи Махут

Apache Mahout - бұл Apache ұсынған ашық бастапқы Java машиналық оқу кітапханасы. Mahout - бұл бір немесе бірнеше машиналарда деректерді өңдеу мүмкіндігі бар масштабталатын машинаны оқыту құралы. Бұл машиналық оқытуды іске асыру Java тілінде жазылған, кейбір бөліктері Apache Hadoop жүйесінде құрастырылған.

Апачи дауылы

Apache Storm - нақты уақыттағы таратылған ағындық есептеулерге арналған құрылым. Storm деректер топтамалары үшін Hadoop жасайтын нәрсені нақты уақыт режимінде жасай отырып, деректердің шексіз ағындарын сенімді өңдеуді жеңілдетеді. Storm кез келген кезек жүйесімен және кез келген дерекқор жүйесімен біріктірілген.

Java JFreechart

Java JFreechart - кең ауқымды диаграммаларды жасау үшін Java негізіндегі қолданбаларда пайдалану үшін Java тілінде әзірленген ашық бастапқы кітапхана. Мәліметтерді визуализациялау үлкен деректерді сәтті талдау үшін өте маңызды міндет болып табылады. Үлкен деректер үлкен көлемдегі деректермен жұмыс істеуді қажет ететіндіктен, кез келген трендті анықтау қиын болуы мүмкін және бастапқы деректерге қарап белгілі бір қорытындыға келуге болады. Дегенмен, егер бірдей деректер графикте көрсетілсе, ол түсінікті болады және үлгілерді табу және корреляцияларды анықтау оңайырақ болады. Java JFreechart шын мәнінде үлкен деректерді талдау үшін графиктер мен диаграммаларды жасауға көмектеседі.

Тереңдеу4j

Deeplearning4j - әртүрлі типтегі нейрондық желілерді құру үшін пайдаланылатын Java кітапханасы. Deeplearning4j Java тілінде жүзеге асырылады және Clojure-мен үйлесімді және Scala тіліне арналған API қамтитын ортада жұмыс істейді. Deeplearning4j технологияларына шектелген Больцман машинасын, терең сенім желісін, терең автоcodeерді, шуды сүзгілеуі бар жинақталған автоcodeерді, рекурсивті тензорлық нейрондық желіні, word2vec, doc2vec және GloVe енгізулерін қамтиды.
«Үлкен деректер бизнес үшін жаңа шикізатқа айналуда».
Крейг Мунди,
Microsoft бас директорының аға кеңесшісі

2020 жылдың табалдырығында үлкен деректер: соңғы трендтер

2020 жыл үлкен деректердің қарқынды өсуі мен эволюциясының тағы бір жылы болуы керек, бұл үлкен деректерді әртүрлі салалардағы компаниялар мен ұйымдардың кеңінен қабылдағаны. Сондықтан біз келесі жылы маңызды рөл атқаратын үлкен деректер трендтеріне қысқаша тоқталамыз. Java және үлкен деректер: неге Big Data жобалары Javaсыз жасай алмайды - 3

Заттар интернеті – үлкен деректер одан да ұлғайып келеді

Заттардың интернеті (IoT) сәл басқаша оқиға сияқты көрінеді, бірақ олай емес. IoT «тенденциясын» жалғастыруда, қарқын алып, бүкіл әлемге таралуда. Тиісінше, үйлер мен кеңселерде орнатылған «ақылды» құрылғылардың саны да артып келеді, олар қажет болған жағдайда деректердің барлық түрлерін жібереді. Сондықтан «үлкен» деректер көлемі тек өседі. Сарапшылар атап өткендей, көптеген ұйымдарда қазірдің өзінде көптеген деректер бар, бірінші кезекте IoT секторы, олар әлі пайдалануға дайын емес, және 2020 жылы бұл көшкін одан да көп болады. Демек, үлкен деректер жобаларына инвестициялар да тез өседі. Еске сала кетейік, IoT Java-ны өте жақсы көреді . Ал, оны кім жақсы көрмейді?

Сандық егіздер

Цифрлық егіздер - бұл заттар интернетімен де, үлкен деректермен де тікелей байланысты жақын болашақтың тағы бір қызықты тренді. Сондықтан Java-ны пайдалану жеткілікті болады. Сандық егіз дегеніміз не? Бұл нақты an objectінің немесе жүйенің цифрлық бейнесі. Физикалық құрылғының бағдарламалық аналогы кедергі және қоршаған орта жағдайында нақты an objectінің ішкі процестерін, техникалық сипаттамалары мен әрекетін модельдеуге мүмкіндік береді. Сандық егіздің жұмысы параллель жұмыс істейтін нақты құрылғыдағы көптеген сенсорларсыз мүмкін емес. 2020 жылға қарай әлемде миллиардтаған сандық егіздерге ақпаратты жіберетін 20 миллиардтан астам қосылған сенсор болады деп күтілуде. 2020 жылы бұл үрдіс қарқын алып, бірінші орынға шығуы тиіс.

Цифрлық трансформация ақылды болады

Цифрлық трансформация бірнеше жылдан бері маңызды тренд ретінде айтылып келеді. Бірақ мәселе, сарапшылардың пікірінше, көптеген компаниялар мен топ-менеджерлер бұл сөз тіркесінің нені білдіретінін өте анық түсінбеген. Көптеген адамдар үшін цифрлық трансформация жаңа пайда көздерін жасау үшін компания жинайтын деректерді сату жолдарын табуды білдіреді. 2020 жылға қарай көбірек компаниялар цифрлық трансформация бәсекелестік артықшылықты жасау үшін өз бизнесінің барлық аспектілеріне деректерді дұрыс қолдану екенін түсінеді. Сондықтан, компаниялар деректерді дұрыс және саналы пайдалануға байланысты жобалардың бюджеттерін арттырады деп күтуге болады.
«Біз үлкен деректер соңғы емес, бастапқы нүкте болатын дәуірге біртіндеп қадам басып келеміз».
Перл Жу, Digital Master кітаптарының авторы

Нәтижелер

Үлкен деректер - бұл Java әзірлеушісі пайдалана алатын көптеген мүмкіндіктерге ие тағы бір үлкен қызмет саласы. Заттар интернеті сияқты, бұл сала да қарқынды дамып келеді және бағдарламашылардың, сондай-ақ басқа да техникалық сарапшылардың тапшылығын сезінуде. Сондықтан, қазір осындай ұзақ мақалаларды оқуды тоқтатып, Java тілін үйренуді бастаудың уақыты келді! Java және үлкен деректер: неге Big Data жобалары Javaсыз жасай алмайды - 5
Пікірлер
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION