Jak může SQL na Hadoop pomoci s analýzou velkých dat?

Obsah

Definice SQL na Hadoopu
Jak funguje SQL na Hadoopu?
Nejlepší výhody SQL na Hadoopu
Více lidí má nyní přístup k Hadoop
Analýza velkých dat pomocí Hadoop je nyní jednodušší
Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života
Další pohled na SQL na Hadoopu
Závěr

Zdroj: Maciek905 / Dreamstime.com

Odnést:

SQL na Hadoop kombinuje tyto dvě metody správy dat a vytváří nový nástroj pro analýzu dat.

SQL on Hadoop je skupina analytických aplikačních nástrojů, které kombinují dotazování a zpracování dat ve stylu SQL s nejnovějšími prvky rámce dat Hadoop. Vznik SQL na Hadoopu je důležitým vývojem pro zpracování velkých dat, protože umožňuje širším skupinám lidí úspěšně spolupracovat s rámcem pro zpracování dat Hadoop spuštěním SQL dotazů na obrovské objemy velkých dat, které Hadoop zpracovává. Je zřejmé, že rámec Hadoop nebyl dříve lidem tak přístupný, zejména pokud jde o jeho schopnost dotazování. Na základě vývoje bylo v dílech několik nástrojů, které slibují zlepšení produktivity podniků, pokud jde o zpracování a analýzu velkých dat s kvalitou a rychlostí. Není také nutné hodně investovat do učení tohoto nástroje, jak by to mělo dělat tradiční znalosti jazyka SQL.

Definice SQL na Hadoopu

SQL on Hadoop je skupina aplikací, která vám umožní spouštět dotazy ve stylu SQL na velkých datech hostovaných rámcem pro zpracování dat Hadoop. Je zřejmé, že dotazování, získávání a analýza dat byly jednodušší přidáním SQL na Hadoop. Protože SQL byl původně určen pro relační databáze, musel být upraven podle modelu Hadoop 1, který zahrnuje MapReduce a Hadoop Distributed File System (HDFS), a modelu Hadoop 2, který nemá MapReduce a HDFS.

Jedním z prvních pokusů o kombinaci SQL s Hadoopem bylo vytvoření datového skladu Hive se softwarem HiveQL, který mohl převádět dotazy ve stylu SQL do úloh MapReduce. Poté bylo vyvinuto několik aplikací, které by mohly dělat podobné úkoly. Mezi pozdější nástroje jsou dominantní Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) a Tez (Hive on Tez).

Jak funguje SQL na Hadoopu?

SQL na Hadoop pracuje s Hadoop následujícími způsoby:

Konektory v prostředí Hadoop převádějí dotaz SQL do formátu MapReduce, takže Hadoop dotaz chápe.
Systémy pushdown provádějí dotaz SQL v klastrech Hadoop.
Systémy rozdělují obrovský objem dotazů SQL mezi klastry MapReduce-HDFS v závislosti na pracovní zátěži klastrů.

Zdá se, že dotaz SQL nezmění jeho povahu; je to Hadoop, který přizpůsobuje dotaz do formátu, kterému rozumí.

Nejlepší výhody SQL na Hadoopu

Jak již bylo uvedeno, SQL na Hadoopu je důležitým vývojem v tom smyslu, že analýza velkých dat je přístupná více lidem a usnadňuje a zrychluje analýzu dat. Není pochyb o tom, že datový rámec Hadoop je skvělým nástrojem pro analýzu velkých dat, ale je stále přístupný pouze omezené skupině lidí, a to nejen kvůli obrovskému úsilí, které je třeba naučit se jeho jedinečné architektuře, ale také proto, že má problémy s kompatibilitou s jinými technologiemi. SQL na Hadoop slibuje tyto problémy řešit.

Více lidí má nyní přístup k Hadoop

Zdá se, že SQL na Hadoopu učinilo Hadoop rovnoprávnějším v tom smyslu, že širší skupiny lidí mohou nyní Hadoop používat ke zpracování a analýze dat. Dříve, abyste mohli používat Hadoop, musíte mít znalosti o architektuře Hadoop - MapReduce, Hadoop Distributed File System nebo HBase. Nyní můžete připojit téměř jakýkoli analytický nebo reportovací nástroj a přistupovat k datům a analyzovat je.Díky SQL na Hadoopu je nyní na trhu k dispozici řada SQL na Hadoop motorech, jako jsou Cloudera Impala, Souběžné lingvální, Hadapt, CitusDB, InfiniDB, MammothDB, MemSQL, Pivotal HAWQ, Apache Drill, ScleraDB, Progress DataDirect, Simba a Splice Machine pro použití s velkými daty. To zjevně otevřelo Hadoop širšímu publiku, které nyní může očekávat zvýšení návratnosti investic do velkých dat.

Analýza velkých dat pomocí Hadoop je nyní jednodušší

Nyní vše, co musíte udělat, je spustit starý dobrý dotaz SQL na velká data, abyste mohli data načíst a analyzovat. SQL se vyvinulo z pouhého nástroje relační databáze na nástroj pro analýzu velkých dat, což je skutečně významná změna. Nemusíte se obávat, jak Hadoop zpracovává dotazy - má svůj vlastní způsob interpretace dotazů SQL a poskytování výsledků. Odborníci se domnívají, že ačkoli distribuovaný souborový systém Hadoop má paralelní zpracování klastrů komodit pro velká data, může zlepšit své možnosti zpracování, pokud pracuje s interaktivním dotazováním ve stylu SQL. Než bude systém HDFS kombinován s SQL, bude zpracování dat pomocí systému HDFS trvat dlouho a úkol vyžaduje specializované vědecké pracovníky. A dotazy nebyly interaktivní. V rámci Apache Tez framework, který zahrnuje analytický motor Spark a interaktivní urychlovač dotazů Stinger pro datový sklad Hive, byly tyto problémy vyřešeny. Podle Anu Jain, skupinového manažera strategie a architektury v maloobchodě Target Corporation, „Je pro nás velmi důležité zajistit, abychom uživatelům poskytovali interaktivní přístup k dotazům. S Tez jsme schopni poskytnout tuto schopnost podnikání. “

Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

Popularita interaktivní analytiky mezi uživateli Hadoop rostla, jak odhalil průzkum společnosti Gartner. Podle průzkumu 32% respondentů používá rozhraní třetích stran s HDFS nebo HBase, 27% používá dotazy vytvořené pomocí Hive, zatímco 23% používá nástroje specifické pro distribuci Hadoop, jako jsou Cloudera Impala a Pivotal HAWQ.

Další pohled na SQL na Hadoopu

I když se zdá, že SQL na Hadoopu vyřeší mnoho problémů, které máme s Hadoopem, existuje jiný názor, který věří, že SQL může mít mnoho problémů, zejména v kombinaci s Hadoopem. Podle tohoto pohledu nemusí být SQL nakonec tak účinný jako analytický nástroj, pokud jde o velká data. Podle uživatelského panelu Hadoop Summada Johna Williamsa nemusí být SQL nejlepším analytickým nástrojem pro práci s velkými daty. Podle Williamsa, který je senior viceprezidentem pro provozování platformy TrueCar, který uživatelům nabízí online platformu pro nákup automobilů, „doba provádění SQL na velké datové sadě je pomalá. Mezitím se Hadoop na SQL rychlejší s věcmi jako YARN a Tez. “

A to není jediný problém s SQL. Existuje mnoho režijních úkolů, jako je studium dat, vytváření schémat, vytváření indexů a dotazů a normalizace, o které je třeba se starat, když kombinujete SQL s Hadoop, a můžete strávit spoustu času a úsilí. Po tom všem úsilí není žádná záruka, že jste dosáhli něčeho trvalého. Pokud se něco změní, může se stát, že budete muset znovu provést to, co jste již udělali. Místo SQL by se měl velký vývoj zaměřený na data provádět na základě Java a Pythonu, protože tyto jazyky jsou vhodnější pro nestrukturované zpracování dat.

Závěr

Porota stále zkoumá, zda je SQL na Hadoopu odpovědí na problémy lidí, s nimiž se Hadoop potýká. Je však zřejmé, že průmysl potřebuje lepší alternativu k vlastním možnostem dotazování dat společnosti Hadoop a tato alternativa musí být interaktivní. Nástroje SQL na Hadoop poskytují interaktivní analytiku, což je užitečné. Podniky nechtějí ztrácet čas tím, že se snaží vykládat smysl z komplikované a časově náročné analýzy. Podniky prozatím shledávají, že nástroje SQL pro nástroje Hadoop jsou velmi užitečné.