Proč Spark je budoucí velká datová platforma

Obsah

Co je to Apache Spark?
Proč je Spark tak důležitý než Hadoop
Jaké jsou jedinečné vlastnosti jisker?
Proč Spark není náhradou za Hadoop
Co společnosti myslí na Spark a Hadoop
Praktické implementace
Závěr

Zdroj: Snake3d / Dreamstime.com

Odnést:

Apache Spark je open-source nástroj pro zpracování velkých dat, která se plazí na (a v některých ohledech překonává) Hadoop.

Apache Hadoop je dlouhodobě základem velkých datových aplikací a je považován za základní datovou platformu pro všechny nabídky související s velkými daty. Databáze a výpočet v paměti však získává na popularitě kvůli rychlejšímu výkonu a rychlým výsledkům. Apache Spark je nový rámec, který využívá funkce v paměti pro rychlé zpracování (téměř 100krát rychlejší než Hadoop). Produkt Spark se tedy stále častěji používá ve světě velkých dat a hlavně pro rychlejší zpracování.

Co je to Apache Spark?

Apache Spark je open-source framework pro zpracování obrovských objemů dat (velkých dat) s rychlostí a jednoduchostí. Je vhodný pro analytické aplikace založené na velkých datech. Spark lze použít v prostředí Hadoop, samostatně nebo v cloudu. Byl vyvinut na University of California a později nabídnut Apache Software Foundation. Patří tedy k komunitě s otevřeným zdrojovým kódem a může být velmi efektivní z hlediska nákladů, což dále umožňuje amatérským vývojářům snadno pracovat. (Další informace o otevřeném zdrojovém kódu Hadoops naleznete v části Jaký je vliv otevřeného zdroje na ekosystém Apache Hadoop?)

Hlavním účelem Spark je to, že nabízí vývojářům aplikační rámec, který pracuje kolem středové datové struktury. Spark je také extrémně výkonný a má vrozenou schopnost rychle zpracovat obrovské množství dat v krátkém časovém úseku, což nabízí extrémně dobrý výkon.Díky tomu je mnohem rychlejší, než se říká, že je jeho nejbližším konkurentem, Hadoop.

Proč je Spark tak důležitý než Hadoop

Apache Spark byl vždy znám jako trumf Hadoop v několika funkcích, což pravděpodobně vysvětluje, proč je tak důležité. Jedním z hlavních důvodů by bylo zvážit rychlost zpracování. Ve skutečnosti, jak již bylo uvedeno výše, Spark nabízí přibližně 100krát rychlejší zpracování než Hadoop's MapReduce pro stejné množství dat. Ve srovnání s Hadoopem také používá podstatně méně zdrojů, čímž se stává nákladově efektivní.

Dalším klíčovým aspektem, kde má Spark navrch, je z hlediska kompatibility se správcem zdrojů. Je známo, že Apache Spark běží s Hadoopem, stejně jako MapReduce, ale ten je v současné době kompatibilní pouze s Hadoopem. Pokud jde o Apache Spark, může však pracovat s jinými správci zdrojů, jako jsou YARN nebo Mesos. Vědci dat to často uvádějí jako jednu z největších oblastí, kde Spark Hadoop skutečně předčí.

Pokud jde o snadné použití, Spark se opět stává mnohem lepší než Hadoop. Spark má API pro několik jazyků, jako je Scala, Java a Python, kromě toho, že má ráda Spark SQL. Je poměrně jednoduché psát uživatelem definované funkce. Také se může pochlubit interaktivním režimem pro spouštění příkazů. Hadoop, na druhé straně, je psán v Javě a získal pověst, že je docela obtížné programovat, ačkoli má nástroje, které pomáhají v tomto procesu. (Další informace o programu Spark naleznete v tématu Jak Apache Spark pomáhá rychlému vývoji aplikací.)

Jaké jsou jedinečné vlastnosti jisker?

Apache Spark má některé jedinečné vlastnosti, které jej skutečně odlišují od mnoha svých konkurentů v oblasti zpracování dat. Některé z nich byly stručně nastíněny níže.

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

Spark má také vrozenou schopnost načíst potřebné informace do svého jádra pomocí svých algoritmů strojového učení. To umožňuje, aby byl extrémně rychlý.

Apache Spark přichází se schopností zpracovat grafy nebo dokonce informace, které mají grafickou povahu, což umožňuje snadnou analýzu s velkou přesností.

Apache Spark má MLib, což je rámec určený pro strukturované strojové učení. Implementace je také převážně rychlejší než Hadoop. MLib je také schopen vyřešit několik problémů, jako je statistické čtení, vzorkování dat a testování předpokladů, abychom jmenovali alespoň některé.

Proč Spark není náhradou za Hadoop

Přestože Spark má několik aspektů, kde trumfuje rukama Hadoop, stále existuje několik důvodů, proč ho Hadoop opravdu nemůže nahradit.

Za prvé, Hadoop jednoduše nabízí větší sadu nástrojů ve srovnání se Sparkem. Má také několik postupů, které jsou v oboru uznávány. Apache Spark je však v doméně stále relativně mladý a bude potřebovat nějaký čas, než se vyrovná Hadoopovi.

Hadoop's MapReduce také stanovil určité průmyslové standardy, pokud jde o provozování plnohodnotných operací. Na druhou stranu se stále věří, že Spark není zcela připraven k provozu s naprostou spolehlivostí. Organizace, které používají Spark, jej musí často doladit, aby byly připraveny na splnění jejich požadavků.

Konfigurace Hadoop's MapReduce, která byla již delší dobu než Spark, se také snadněji konfiguruje. Toto však neplatí pro Spark, protože se nabízí, že nabízí zcela novou platformu, která ve skutečnosti netestovala drsné opravy.

Co společnosti myslí na Spark a Hadoop

Mnoho společností již začalo využívat Spark pro potřeby zpracování dat, ale příběh tam nekončí. Určitě má několik silných aspektů, díky kterým je úžasná platforma pro zpracování dat. Přichází však také se svým spravedlivým podílem na nevýhodách, které je třeba napravit.

Je to průmyslová představa, že Apache Spark je tu, aby zůstal a je dokonce možná budoucností pro potřeby zpracování dat. Stále však musí podstoupit řadu vývojových prací a leštění, které jí umožní skutečně využít jeho potenciál.

Praktické implementace

Apache Spark byl a je stále zaměstnán mnoha společnostmi, které vyhovují jejich požadavkům na zpracování dat. Jedním z nejúspěšnějších implementací byla společnost Shopify, která hledala výběr způsobilých obchodů pro obchodní spolupráci. Datový sklad však stále vypršel, když chtěl pochopit produkty, které zákazníci prodávali. S pomocí Spark dokázala společnost zpracovat několik milionů datových záznamů a poté během několika minut zpracovat 67 milionů záznamů. Stanovila také, které obchody byly způsobilé.

Použitím aplikace Spark je Pinterest schopen identifikovat vývojové trendy a poté je použít k porozumění chování uživatelů. To dále umožňuje lepší hodnotu v komunitě Pinterest. Spark také používá TripAdvisor, jeden z největších světových informačních webů o cestování, aby urychlil jeho doporučení návštěvníkům.

Závěr

Nelze pochybovat o apache Spark, ani v současnosti, a o unikátní sadě funkcí, které přináší ke stolu. Jeho výkon a rychlost zpracování spolu s kompatibilitou nastavují tón pro několik věcí, které přijdou v budoucnosti. Má však také několik oblastí, ve kterých se musí zlepšit, aby skutečně využil svůj plný potenciál. Zatímco Hadoop je stále pravidlem, která je v současné době hlavní stránkou, Apache Spark má před sebou světlou budoucnost a mnozí ji považují za budoucí platformu pro požadavky na zpracování dat.