Jak strukturovaná jsou vaše data? Zkoumání strukturovaných, nestrukturovaných a polostrukturovaných dat

Obsah

Co jsou strukturovaná data?
Co jsou nestrukturovaná data?
Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života
Padající mezi: Polostrukturovaná data
Lze nestrukturovaná data transformovat na strukturovaná data?

Zdroj: monsitj / iStockphoto

Odnést:

Další informace o strukturovaných, nestrukturovaných a polostrukturovaných datech.

Historicky byli analytici dat schopni dešifrovat a extrahovat informace pouze z jednoho typu dat: strukturovaných dat. Tento typ dat byl snadno prohledávatelný kvůli jeho jasným vzorům, ale představoval malé procento z celkových dostupných údajů.

Nestrukturovaná data zahrnovala video, audio, a data pocházející také ze sociálních médií a mobilních zařízení. Byla to, ruce dolů, největší rezerva dostupných nezpracovaných informací, nikdo však nebyl schopen spolehlivě využít tento zdroj.

Věci se však změnily, protože zvýšená dostupnost úložiště a vynikající možnosti zpracování vedly k nestrukturované analýze dat - nové, a tedy nezralé formě technologie. Lepší obchodní zpravodajství plně využívá této příležitosti a vynakládají se značné investice do agregace strukturovaných a nestrukturovaných datových analytiků pro přístup k tomuto zdánlivě nekonečnému zlatému dolu informací.

Podívejme se na tyto dva datové formáty, abychom pochopili jejich rozdíly a to, co budoucnost platí pro všechny datové analytiky.

Co jsou strukturovaná data?

Strukturovaná data jsou člověkem nebo strojem generované a vysoce organizované informace, které lze snadno uložit do struktur databází řádků známých jako relační databáze (RDB). Je to cokoli, co existuje ve formátu, který lze snadno zachytit, uložit a uspořádat ve struktuře RDB, která bude později analyzována. (Další informace o databázích naleznete v našem úvodu do databází.)

Příklady zahrnují PSČ, telefonní čísla a demografické údaje o uživateli, jako je věk nebo pohlaví. Data nalezená v těchto databázích lze dotazovat pomocí funkcí Structured Query Language (SQL) nebo VLOOKUP v tabulkách Excelu. Algoritmy mohou být také vytvořeny pro rychlé vyhledávání dat nalezených v různých polích pomocí jejich indexů nebo jejich číselných a abecedních dat. Všechna data jsou však přesně definována z hlediska typu pole a názvu a schopnost ukládat, dotazovat a analyzovat je tedy do určité míry omezena.

Mezi typické aplikace, které používají strukturovaná data, patří software pro správu nemocnic, aplikace pro správu vztahů se zákazníky (CRM) a rezervační systémy leteckých společností. Strukturovaná data jsou díky své úhledné organizaci a snadné dostupnosti užitečná a efektivní při řešení velkých objemů informací. Při vrtání černého oleje skrytého v nekonečném množství dat, které každý den vytváří lidstvo, však hledání strukturovaných dat není ničím jiným než poškrábáním povrchu.

Co jsou nestrukturovaná data?

Převážná většina dat nalezených v organizaci je nestrukturovaná a někteří ji odhadují až na 80 procent celkových dostupných dat. Nestrukturovaná data jsou podle definice vše, co nemá identifikovatelnou vnitřní strukturu. Některé typy údajů však spadají do této kategorie ano nějaká forma nejasné vnitřní struktury, přesto však není v souladu s databází nebo tabulkou.

Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

Většina podnikových dat je nestrukturovaná, od interakce se zákaznickými službami, souborů, webových protokolů, videí a dalšího multimediálního obsahu, automatizace prodeje, příspěvků na sociálních médiích. Není třeba vysvětlovat, jak hodnotná by tato data mohla být, pokud by mohla být těžena, organizována a analyzována.

Většina nestrukturovaných dat je vytvářena lidmi, a proto je chápána jinými lidmi. To znamená, že inteligentní počítačová inteligence nerozumí tomuto typu informací, protože je příliš vzdálená od linearity strojového jazyka a strukturovaných databází.

Padající mezi: Polostrukturovaná data

Polostrukturovaná data jsou třetím typem dat, který představuje mnohem menší část celého koláče (5-10 procent). Polostrukturovaná data, která jsou doslova zachycena mezi oběma světy, obsahují vnitřní sémantické značky a značky, které identifikují samostatné prvky, ale postrádá strukturu potřebnou k tomu, aby se vešla do relační databáze.

Například se může zdát jako strukturovaná data, protože je lze roztřídit podle data, velikosti souboru nebo času. Nejsou to však, protože nejcennější informace jsou v nich nalezené, spíše než jejich relativně jednoduché štítky. Nemůžeme být skutečně uspořádáni podle obsahu a předmětu, protože lidé nemluví v tak přísných vzorcích, aby jim stroj jednoznačně porozuměl. Další příklady polostrukturovaných dat zahrnují databáze NoSQL, otevřený standard JSON a značkovací jazyk XML.

Polostrukturovaná data jsou obvykle dotazována a katalogizována pro analýzu pomocí analýzy metadat. Například rentgenové skenování sestává z velkého počtu pixelů, které tvoří obraz - což jsou ve své podstatě nestrukturovaná data, ke kterým nelze přistupovat. Soubor prohledávání však bude stále obsahovat část metadat, která o něm poskytuje informace, jako jsou anotace a ID uživatele.

Lze nestrukturovaná data transformovat na strukturovaná data?

Základním úkolem, kterému musí každý datový analytik čelit, je uspořádat informace po ruce úhledným a uspořádaným způsobem, aby k nim bylo možné získat přístup a porozumět jim. Nástroje pro dolování dat obvykle nejsou vybaveny k analýze informací, které jsou podle definice příliš podobné lidskému jazyku, což znamená, že je může shromažďovat a kategorizovat pouze další člověk.

Samotný objem nestrukturovaných dat však činí jakýkoli pokus o jejich uložení nebo uspořádání velmi pracným a nákladným. Soubor informací pocházejících například z internetového vyhledávače je tak masivní, že většina prvků vyžaduje obrovskou investici, pokud jde o práci a zdroje, aby se extrahovaly ty nejzákladnější. Dokonce i nejúčinnější techniky dolování dat stále chybí značné množství informací nalezených na webu a ještě horší, uvnitř hlubokého webu.

Ale techniky existují. A vyvíjejí se úžasnou rychlostí. Například metadata by mohla být použita pro spojení strukturovaných a nestrukturovaných dat dohromady. Shromážděné informace mohou být filtrovány a indexovány jak uživateli, tak algoritmy a také analyzovat relevantní data. Mezi další řešení patří „wrangling dat“, což je proces, pomocí kterého jsou složitá data postupně organizována netechnickými uživateli. (Další informace o běžných uživatelích zpracovávajících údaje naleznete v tématu Jak velká data mohou pomoci v samoobslužných analýzách.)

V určitém okamžiku budeme schopni efektivně transformovat tato masivně neorganizovaná množství informací do organizovanějšího a restrukturalizovanějšího formátu. Možná ne dnes, možná ne zítra, ale brzy budeme moci přepadnout největší lidstvo v trezoru, jaké kdy bylo: velká data.