Jaký je rozdíl mezi velkými daty a Hadoopem?

Obsah

Q:

A:

Rozdíl mezi velkými daty a open source softwarovým programem Hadoop je zřetelný a zásadní. První je aktivum, často složité a nejednoznačné, zatímco druhé je program, který splňuje řadu cílů a cílů pro řešení tohoto aktiva.

Velká data jsou jednoduše velké soubory dat, které podniky a další strany sestavují, aby sloužily konkrétním cílům a operacím. Velká data mohou zahrnovat mnoho různých druhů dat v mnoha různých formátech. Podniky by například mohly věnovat spoustu práce shromažďování tisíců údajů o nákupech v měnových formátech, o identifikátorech zákazníků, jako je jméno nebo číslo sociálního zabezpečení, nebo o informacích o výrobcích ve formě čísel modelů, prodejních čísel nebo čísel zásob. To vše, nebo jakákoli jiná velká množství informací, lze nazvat velkými daty. Je zpravidla syrové a netříděné, dokud není provedeno různými druhy nástrojů a manipulátorů.

Hadoop je jedním z nástrojů navržených pro zpracování velkých dat. Hadoop a další softwarové produkty se snaží interpretovat nebo analyzovat výsledky vyhledávání velkých dat pomocí specifických proprietárních algoritmů a metod. Hadoop je open-source program pod licencí Apache, který je spravován globální komunitou uživatelů. Zahrnuje různé hlavní komponenty, včetně sady funkcí MapReduce a distribuovaného systému souborů Hadoop (HDFS).

Myšlenka MapReduce spočívá v tom, že Hadoop může nejprve namapovat velkou datovou sadu a poté provést redukci tohoto obsahu pro konkrétní výsledky. Funkci redukce lze považovat za druh filtru pro nezpracovaná data. Systém HDFS pak provádí distribuci dat v síti nebo migraci podle potřeby.

Správci databází, vývojáři a další mohou používat různé funkce Hadoopu k řešení velkých dat různými způsoby. Například, Hadoop lze použít k provádění datových strategií, jako je shlukování a cílení s nejednotnými daty, nebo dat, která se nevejde úhledně do tradiční tabulky nebo dobře reagují na jednoduché dotazy.