Může být ve velkých datech příliš mnoho dat?

Obsah

Q:

A:

Odpověď na otázku zní jednoznačně ANO. Ve velkém datovém projektu může být absolutně příliš mnoho dat.

Existuje mnoho způsobů, jak k tomu může dojít, a různé důvody, proč odborníci potřebují omezit a opatřit data mnoha způsoby, aby dosáhli správných výsledků. (Přečtěte si 10 velkých mýtů o velkých datech.)

Obecně platí, že odborníci hovoří o odlišení „signálu“ od „šumu“ v modelu. Jinými slovy, v moři velkých dat je obtížné zacílit na relevantní údaje o statistikách. V některých případech jste hledali jehlu v kupce sena.

Předpokládejme například, že se společnost snaží použít velká data k vytvoření konkrétních poznatků o segmentu zákaznické základny a jejich nákupech v konkrétním časovém rámci. (Přečtěte si, co dělá velká data?)

Přijetí obrovského množství datových aktiv může mít za následek příjem náhodných dat, které nejsou relevantní, nebo by to mohlo dokonce způsobit zkreslení, které zkresluje data v jednom nebo druhém směru.

Také to dramaticky zpomaluje proces, protože počítačové systémy se musí potýkat s většími a většími datovými soubory.

V mnoha různých druzích projektů je pro datové inženýry velmi důležité, aby data upravovali na omezené a specifické datové soubory - ve výše uvedeném případě by to byla pouze data pro tento segment zkoumaných zákazníků, pouze data za tu dobu rámec, který je studován, a přístup, který vylučuje další identifikátory nebo základní informace, které mohou zaměňovat věci nebo zpomalit systémy. (ReadJob Role: Data Engineer.)

Pro více se podívejme, jak to funguje na hranici strojového učení. (Přečtěte si strojové učení 101.)

Odborníci na strojové učení hovoří o něčem, co se nazývá „overfitting“, kdy příliš složitý model vede k méně efektivním výsledkům, když je program strojového učení na nových výrobních datech uvolněn.

K přeplnění dochází, když složitá sada datových bodů příliš dobře zapadá do počáteční sady školení a neumožní programu snadno se přizpůsobit novým datům.

Technicky je přebytek způsoben nikoli existencí příliš velkého počtu datových vzorků, ale korunováním příliš velkého množství datových bodů. Dalo by se však tvrdit, že příliš mnoho údajů může být také faktorem přispívajícím k tomuto typu problému. Řešení kletby dimenze zahrnuje některé stejné techniky, jaké byly provedeny v dřívějších velkých datových projektech, když se odborníci snažili přesně určit, co napájí IT systémy.

Pointa je, že velká data mohou být pro společnosti nesmírně užitečná, nebo se mohou stát velkou výzvou. Jedním z aspektů je to, zda má společnost ve hře správná data. Odborníci vědí, že není vhodné jednoduše skládat veškerá datová aktiva do zásobníku a přicházet s poznatky tímto způsobem - v nových cloudových nativních a sofistikovaných datových systémech existuje úsilí o kontrolu a správu a správu dat za účelem získání přesnějších a efektivní využití datových aktiv.