Katalogy dat a zrání trhu strojového učení

Obsah

The Infonomics Imperative
Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života
Co katalogy dat mohou udělat pro firmy
Přidání strojového učení
Jak si vybrat

Zdroj: Nmedia / Dreamstime.com

Odnést:

Trh MLDC roste a podniky usilující o efektivní využití velkých dat pomocí strojového učení by si měly být vědomy nejvyšších jmen v oboru a jejich individuálních hodnocení.

Toto je věk velkých dat. Zaplavujeme informacemi a podniky považují za výzvu spravovat a extrahovat z nich hodnotu.

Dnešní tok velkých dat s sebou nese nejen objem, rozmanitost a rychlost, ale také složitost. Jak uvádí SAS v historii velkých dat a současných úvahách, jedná se o faktor toků „z více zdrojů, což ztěžuje propojování, porovnávání, čištění a transformaci dat napříč systémy“. (Chcete se dozvědět více o velkých datech? Podívejte se na (Big) Datas Big Future.)

Nalezení cenných poznatků není otázkou prostého shromažďování co největšího množství dat, ale nalezení správných dat. Je nemožné pracovat skrz to všechno s manuálními procesy. Z tohoto důvodu se stále více podniků „obrací k katalogům dat, aby demokratizovalo přístup k datům, umožnilo znalostním kmenovým datům zpracovávat informace, uplatňovat zásady dat a rychle aktivovat všechna data pro obchodní hodnotu“.

To je místo, kde na obrázku vstupují datové katalogy (někdy také známé jako informační katalogy). Jak je zde definováno, zmocňují „uživatele zkoumat jejich požadované zdroje dat a porozumět prozkoumávaným zdrojům údajů a zároveň pomáhat organizacím dosáhnout větší hodnoty ze svých současných investic.“ Jedním ze způsobů, jak to dělá, je umožnění mnohem většího přístupu k datům mezi různými typy uživatelů, kteří je mohou využívat nebo k nim přispívat.

The Infonomics Imperative

Gartner si všiml dramaticky zvýšené poptávky po katalogech dat na konci roku 2017 a nazval je „novou černou“. Stali se uznávanými jako rychlé a ekonomické řešení „inventarizovat a klasifikovat organizace, které stále více distribuují a narušují datová aktiva a mapují své dodavatelské řetězce informací“. Nutnost toho vyvstala v důsledku vzestupu „infonomie“, která vyžaduje použití stejné pečlivosti pro sledování informací jako pro správu jiných obchodních aktiv. (Další informace o dodavatelských řetězcích naleznete v tématu Jak strojové učení může zlepšit účinnost dodavatelského řetězce.)

Gartnerové se vydávají s The Forrester Wave ™: Machine Learning Data Catalogs, Q2 2018. Více než polovina účastníků průzkumu v této zprávě uvedla, že plánují vybudovat implementaci svého datového katalogu. Pravděpodobně byly do velké míry motivovány skutečností, že každý měl ve své organizaci nejméně sedm datových jezer. Jak Gartner vysvětluje katalogy dat, katalogy dat jsou zvláště užitečné pro vytažení „kon, význam a hodnota dat“, která je obvykle ponechána v nezařazené podobě v datovém jezeře.

Společnost Forrester uvádí, že více než třetina osob s rozhodovacími pravomocemi v oblasti dat a analytiků se v roce 2017 zabývala 1 000 TB nebo více dat, což byla částka vykázaná pouze mezi 10 a 14 procenty před rokem. Správa dat v tomto měřítku je rostoucí výzvou, konkrétně dvěma výzvami:

„1) sloučení stávajících obchodních procesů se zdrojovými daty za účelem jejich analýzy a implementace poznatků a 2) získávání, shromažďování, správa a řízení dat v průběhu jejich růstu.“

Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

Co katalogy dat mohou udělat pro firmy

Gartner identifikuje konkrétní způsoby, jak mohou katalogy dat zlepšit tok informací a produktivity organizací:

Seskupování a předávání aktuálních informací o inventáři majetku, který má organizace k dispozici.
Vytváření společného glosáře obchodních termínů, které definuje sémantickou interpretaci a význam dat organizace, a tím poskytuje prostředky pro zprostředkování a řešení definitivních nesrovnalostí.
Umožnění dynamického a agilního prostředí pro spolupráci umožňující obchodním a IT kolegům komentovat, dokumentovat a sdílet data.
Zajištění transparentnosti využití dat pomocí analýzy počtu řádků a dopadů.
Monitorování, audit a sledování dat na podporu procesů správy informací.
Zachycení metadat pro zlepšení interní analýzy využití a opakovaného použití dat, optimalizace dotazů a certifikace dat.
Kvalifikace informací v rámci jejího obchodního využití prostřednictvím zachycení, komunikace a analýzy, jaké údaje existují, odkud pocházejí, v jakých nevýhodách jsou používána, proč jsou zapotřebí, jak proudí mezi procesy a systémy, kdo za ně odpovídá, co to znamená a jakou hodnotu má.

Správná identifikace a přístupnost údajů klíčovým lidem v organizaci je důležitá, uvádí zpráva společnosti Gartner nejen pro nalezení způsobu „zpeněžení datových aktiv pro výsledky digitálního podnikání“, ale také pro dodržování předpisů, ať už jde o průmyslové konkrétní, jako je zákon o přenositelnosti a odpovědnosti ve zdravotním pojištění (HIPAA), nebo obecnější povahy, jako je obecné nařízení o ochraně údajů (GDPR).

Přidání strojového učení

Nic však není bez jeho nedostatků. U datových katalogů je problémem pomalý a zdlouhavý proces vyžadovaný při jejich ručním sestavování se všemi metadaty, které je třeba zavést. Zde přichází součást strojového učení.

Datové katalogy, které Forrester hodnotil, se nazývají MLDC, protože využívají sílu strojového učení, jedné ze složek AI. Jak vysvětlil blog Podium Data, umožňuje to „vybudovat trvalé úložiště metadat a poté aplikovat ML / AI na fretku a odhalit potenciálně užitečné poznatky kolem podkladových datových aktiv“.

Jak si vybrat

Aby pomohl organizacím posoudit, který podnik by měl vybrat, použil Forrester 29 nejlepších bodů na 12 nejlepších MLDC. Identifikovala vůdce na tomto trhu jako: IBM, Relito, Unifi Software, Alation a Collibra. Mezi silné výkony, které našla, patří Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics a Cloudera. Hortonworks stojí sám v pozici „uchazeče“.

Člověk by se však neměl řídit pouze celkovým hodnocením. Zpráva rozebírá konkrétní silné a slabé stránky každé z nich. Pokud je tedy určitá vlastnost, jako je výzkum a vývoj, pro organizaci nanejvýš důležitá, může pro tento aspekt považovat Hortonworks za rovnocennou IBM a Colilbra, protože tito tři sdílí nejvyšší skóre pěti pro tuto kvalitu, což bylo dva body lepší než Alation a Coloudera a čtyři body lepší než Cambridge Semantics.

V souladu s tím zpráva Forrester radí těm, kteří tuto zprávu používají jako vodítko, aby nepředpokládali, že nejlepší společnost je nejlepší volbou pro každého. Měli by věnovat pozornost rozpisu posouzení, aby zjistili, co splňuje jejich konkrétní požadavky.