Apache Spark

Autor: Eugene Taylor
Datum Vytvoření: 8 Srpen 2021
Datum Aktualizace: 22 Červen 2024
Anonim
Что такое Apache Spark
Video: Что такое Apache Spark

Obsah

Definice - Co znamená Apache Spark?

Apache Spark je open-source program používaný pro analýzu dat. Je součástí větší sady nástrojů, včetně Apache Hadoop a dalších otevřených zdrojů pro dnešní analytickou komunitu.


Odborníci popisují tento relativně nový software s otevřeným zdrojovým kódem jako nástroj pro výpočetní klastrovou analýzu dat. Lze jej použít s distribuovaným souborovým systémem Hadoop (HDFS), což je konkrétní součást Hadoop, která usnadňuje složité zpracování souborů.

Někteří IT profesionálové popisují použití Apache Spark jako potenciální náhražky komponenty Apache Hadoop MapReduce. MapReduce je také klastrovací nástroj, který vývojářům pomáhá zpracovávat velké soubory dat. Ti, kteří rozumí designu Apache Spark, poukazují na to, že v některých situacích může být mnohokrát rychlejší než MapReduce.

Úvod do Microsoft Azure a Microsoft Cloud | V této příručce se dozvíte, o čem cloud computing je a jak vám může Microsoft Azure pomoci migrovat a řídit podnikání z cloudu.

Techopedia vysvětluje Apache Spark

Ti, kteří podávají zprávy o moderním používání Apache Spark, ukazují, že společnosti jej používají různými způsoby. Jedním z běžných způsobů použití je agregace dat a jejich strukturovanější zpracování. Apache Spark může být užitečný také při analytických strojích nebo při klasifikaci dat.


Organizace obvykle čelí výzvě rafinace dat efektivním a poněkud automatizovaným způsobem, kde může být Apache Spark použit pro tyto druhy úkolů. Někteří také naznačují, že používání programu Spark může pomoci zajistit přístup k těm, kteří mají méně znalostí o programování a chtějí se zapojit do analytického zpracování.

Apache Spark obsahuje API pro Python a související softwarové jazyky.