10 nejdůležitějších podmínek Hadoop, které potřebujete znát a pochopit

Obsah

Nejprve se ale podívejme, jak Hadoop funguje
Hadoop obyčejný
Distribuovaný systém souborů Hadoop (HDFS)
MapReduce
HBase
Úl
Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života
Apache Pig
Apache Spark
Apache Cassandra
Ještě jeden vyjednávač zdrojů (YARN)
Impala

Zdroj: Trueffelpix / Dreamstime.com

Odnést:

Chcete-li opravdu porozumět velkým datům, musíte pochopit něco o Hadoopu a jazyce kolem něj.

Velká data, chytlavý název pro obrovské objemy strukturovaných, nestrukturovaných nebo polostrukturovaných dat, je notoricky obtížně zachycitelná, ukládat, spravovat, sdílet, analyzovat a vizualizovat, alespoň pomocí tradičních databázových a softwarových aplikací. Proto mají velké datové technologie potenciál pro efektivní a efektivní správu a zpracování obrovských objemů dat. A jeho Apache Hadoop, který poskytuje rámec a související technologie pro distribuci velkého množství dat napříč klastry počítačů. Abychom skutečně porozuměli velkým datům, musíte trochu porozumět Hadoopu. Tady se podívejme na ty nejlepší podmínky, které uslyšíte, pokud jde o Hadoop - a co znamenají.

Nejprve se ale podívejme, jak Hadoop funguje

Před vstupem do eko-systému Hadoop musíte jasně pochopit dvě základní věci. První je, jak je soubor uložen v Hadoop; Druhým je způsob zpracování uložených dat. Všechny technologie související s Hadoopem pracují hlavně v těchto dvou oblastech a jsou uživatelsky přívětivější. (Získejte základní informace o tom, jak Hadoop pracuje v tom, jak Hadoop pomáhá vyřešit problém s velkými daty.)

Nyní, podle podmínek.

Hadoop obyčejný

Rámec Hadoop má různé moduly pro různé funkce a tyto moduly mohou vzájemně spolupracovat z různých důvodů. Hadoop Common lze definovat jako knihovnu běžných utilit pro podporu těchto modulů v ekosystému Hadoop. Tyto nástroje jsou v zásadě založeny na archivovaných souborech JAR. Tyto nástroje používají hlavně vývojáři a vývojáři během doby vývoje.

Distribuovaný systém souborů Hadoop (HDFS)

Distribuovaný systém souborů Hadoop (HDFS) je dílčím projektem Apache Hadoop pod Apache Software Foundation. Toto je páteř úložiště v rámci Hadoop. Je to distribuovaný, škálovatelný a odolný vůči chybám souborový systém, který se rozprostírá na více komoditním hardwaru známém jako klastr Hadoop. Cílem HDFS je spolehlivé ukládání velkého objemu dat s vysokým výkonem pro přístup k aplikačním datům. HDFS sleduje architekturu master / slave, kde master je známý jako NameNode a slave jsou známé jako DataNodes.

MapReduce

Hadoop MapReduce je také podprojektem Apache Software Foundation. MapReduce je vlastně softwarový rámec čistě napsaný v Javě. Jeho primárním cílem je zpracovat velké soubory dat v distribuovaném prostředí (složeném z komoditního hardwaru) zcela paralelním způsobem. Rámec řídí všechny činnosti, jako je plánování úloh, monitorování, provádění a opětovné provedení (v případě neúspěšných úkolů).

HBase

Apache HBase je známá jako databáze Hadoop. Jedná se o sloupcový, distribuovaný a škálovatelný úložiště velkých dat. Je také znám jako typ databáze NoSQL, která není systémem správy relačních databází. Aplikace HBase jsou také psány v Javě, postaveny na Hadoopu a běží na HDFS. HBase se používá, když potřebujete číst / zapisovat v reálném čase a náhodný přístup k velkým datům. HBase je modelována na základě konceptů společnosti BigTable společnosti Google.

Úl

Apache Hive je softwarový systém s otevřeným zdrojovým datovým skladem. Úl byl původně vyvinut dříve, než se dostal pod Apache Software Foundation a stal se otevřeným zdrojovým kódem. Usnadňuje správu a dotazování velkých datových souborů na distribuovaném úložišti kompatibilním s Hadoop. Úl provádí všechny své činnosti pomocí jazyka typu SQL známého jako HiveQL. (Další informace naleznete v krátkém úvode k Apache Hive and Pig.)

Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

Apache Pig

Pig byl původně iniciován společností Yahoo pro vývoj a provádění úloh MapReduce na velkém objemu distribuovaných dat. Nyní se stal open source projekt pod Apache Software Foundation. Apache Pig lze definovat jako platformu pro efektivní analýzu velmi velkých datových souborů. Vrstva vepřové infrastruktury vytváří sekvence úloh MapReduce pro provádění skutečného zpracování. Jazyková vrstva prasat je známá jako prasečí latina a poskytuje funkce podobné SQL pro provádění dotazů na distribuované datové sady.

Apache Spark

Spark byl původně vyvinut společností AMPLab v UC Berkeley. V únoru 2014 se stal projektem nejvyšší úrovně společnosti Apache. Apache Spark lze definovat jako otevřený zdrojový, univerzální a klastrový výpočetní rámec, který výrazně urychluje analýzu dat. Je postaven na vrcholu distribuovaného systému souborů Hadoop, ale není propojen s rámcem MapReduce. Výkon jisker je ve srovnání s MapReduce mnohem rychlejší. Poskytuje rozhraní API na vysoké úrovni v programech Scala, Python a Java.

Apache Cassandra

Apache Cassandra je další open source databáze NoSQL. Cassandra se široce používá ke správě velkého objemu strukturovaných, polostrukturovaných a nestrukturovaných datových rozpětí napříč několika datovými centry a cloudovými úložišti. Cassandra je navržena na základě architektury „masterless“, což znamená, že nepodporuje model master / slave. V této architektuře jsou všechny uzly stejné a data jsou distribuována automaticky a rovnoměrně do všech uzlů. Nejdůležitější vlastnosti Cassandras jsou nepřetržitá dostupnost, lineární škálovatelnost, vestavěná / přizpůsobitelná replikace, žádný jediný bod selhání a jednoduchost provozu.

Ještě jeden vyjednávač zdrojů (YARN)

Ještě jiný prostředek pro vyjednávání zdrojů (YARN) je také známý jako MapReduce 2.0, ale ve skutečnosti spadá pod Hadoop 2.0. YARN lze definovat jako rámec pro plánování úloh a správu zdrojů. Základní myšlenkou YARN je nahradit funkce JobTracker dvěma samostatnými démony odpovědnými za správu zdrojů a plánování / monitorování. V tomto novém rámci bude existovat globální ResourceManager (RM) a aplikačně specifický master známý jako ApplicationMaster (AM). Globální ResourceManager (RM) a NodeManager (na uzel slave) tvoří rámec pro výpočet skutečných dat. Stávající aplikace MapReduce v1 lze také spouštět na YARN, ale tyto aplikace je třeba překompilovat pomocí sklenic Hadoop2.x.

Impala

Impala lze definovat jako dotazovací stroj SQL s výkonem masivního paralelního zpracování (MPP). Nativně běží na rámci Apache Hadoop. Impala je navržena jako součást ekosystému Hadoop. Sdílí stejný flexibilní systém souborů (HDFS), metadata, správu zdrojů a bezpečnostní rámce, jaké používají ostatní komponenty ekosystému Hadoop. Nejdůležitějším bodem je poznamenat, že Impala je ve zpracování dotazů mnohem rychlejší než Hive. Měli bychom však také pamatovat na to, že Impala je určena k dotazování / analýze na malém souboru dat a je určena především jako analytický nástroj, který pracuje na zpracovaných a strukturovaných datech.

Hadoop je důležitým tématem v oblasti IT, ale existují lidé, kteří jsou skeptičtí ohledně jeho dlouhodobé životaschopnosti. Číst dál Co je Hadoop? Cynická teorie.