Hadoop Analytics: Kombinace dat vyžaduje přístup založený na zdroji a agnosti

Zdroj: Agsandrew / Dreamstime.com

Odnést:

Zdroj-agnostické metody jsou ideální pro zpracování dat pro analytiku Hadoop.

Kombinování zdrojů dat v Hadoopu je složitá záležitost. Důvody pro to zahrnují:

Vlastní skripty specifické pro zdroj, které kombinují zdroje dat, jsou problematické.
Použití nástrojů pro integraci dat nebo nástrojů pro vědu o údajích přináší přílišnou nejistotu.
Přidání dat z externích zdrojů je téměř nemožné.

Dnes se chystám diskutovat o tom, jak je analytika Hadoop vylepšena pomocí zdrojově agnostických technologií, které usnadňují kombinování interních a externích zdrojů dat. Kromě popisu toho, jak fungují analytické metody založené na zdrojích, se také zabývám tím, proč analytici Hadoop potřebují vestavěné funkce přenosu inteligence a znalostí, porozumění vztahům a charakteristikám dat a škálovatelnou a vysoce výkonnou architekturu.

Zdroj-agnostické metody zahrnují flexibilní model rozlišení entity, který umožňuje přidávání nových zdrojů dat pomocí statisticky spolehlivých, opakovatelných procesů vědy o datech. Tyto procesy využívají algoritmy pro shromažďování znalostí z dat a jejich vyhodnocování, analýzu za účelem stanovení nejlepšího integračního přístupu.
Bez ohledu na to, jak fragmentované nebo neúplné původní zdrojové záznamy, analytické technologie Hadoop by měly být zdrojové agnostiky a měly by být schopny sjednotit data beze změny nebo manipulace se zdrojovými daty. Tyto technologie by také měly vytvářet indexy entit na základě datového obsahu a atributů o jednotlivcích a o tom, jak existují ve světě. Aby toho dosáhli, musí pochopit datový obsah, kon, strukturu a to, jak se komponenty vzájemně vztahují.
Vestavěná data věda a integrace dat odborné znalosti umožňuje očištění, standardizaci a korelaci dat s vysokou mírou přesnosti a přesnosti. Vizualizační nástroje a sestavy pomáhají analytikům vyhodnotit a učit se z dat a provádět vyladění systému na základě znalostí získaných z různých kroků v procesu.
Porozumění vztahům mezi entitami vede k přesnějším procesům řešení entit. Protože entity reálného světa nejsou jen součtem jejich atributů, ale také jejich souvislostí, měly by se znalosti o vztazích použít ke zjištění, kdy jsou záznamy stejné. To je zvláště důležité pro zpracování rohových případů a velkých dat.
Charakterizace dat zlepšuje analýzu, rozlišení a propojení dat tím, že identifikuje a poskytuje informace o zdrojích dat. Může pomoci ověřit obsah, hustotu a distribuci dat ve sloupcích strukturovaných informací. Charakterizaci dat lze také použít k identifikaci a extrakci důležitých dat souvisejících s entitami (jméno, adresa, datum narození atd.) Z nestrukturovaných a polostrukturovaných zdrojů pro korelaci se strukturovanými zdroji.
Škálovatelná paralelní architektura provádí analytiku rychle, i když podporuje stovky strukturovaných, polostrukturovaných a nestrukturovaných zdrojů dat a desítky miliard záznamů.

Hadoop mění způsob, jakým svět provádí analytiku. Když jsou do ekosystémů Hadoop přidány nové analytické zdroje založené na zdrojích, mohou organizace propojit tečky přes mnoho interních a externích zdrojů dat a získat informace, které dříve nebyly možné.

Tento článek byl původně zveřejněn na Novetta.com. Tady to bylo se svolením. Novetta si zachovává všechna autorská práva.