5 klíčových oblastí, ve kterých mají velká data velký dopad

Obsah

Jak se to stalo
Velká data, velká příležitost
Něco na co se dívat

Zdroj: Nmedia /Dreamstime.com

Odnést:

Velká data jsou všude velkým podnikem, ale několik konkrétních oblastí využívá tuto technologii nejvíce.

Když jsem začal tento článek, měl jsem v plánu uvést různé typy velkých datových platforem. Ale po třech dnech, kdy jsem se pokusil ohradit všechny různé nabídky velkých dat - relační versus nerelační, SQL versus NoSQL a databázi versus rámec - do nějaké podoby řádu, rozhodl jsem se tomuto nepořádku vyhnout.

Abych dodal urážku zranění, doufal jsem, že představím osobu, která v rámci článku vytvořila termín „velká data“. Ale nemohu to ani udělat. Neexistuje žádná dohodnutá odpověď. Ve skutečnosti existuje výzkumný projekt zaměřený na to, kdo původně přišel s velkými daty. Místo toho se podívám na některé z klíčových způsobů využití velkých dat. To je mnohem důležitější. A je to zajímavější a překvapivější, než si možná myslíte.

Jak se to stalo

Analytici používající tradiční těžbu dat manipulovali s daty roky. Stejným analytikům je nyní obtížné vyrovnat se s množstvím a rozmanitostí údajů ukládaných podniky, soukromými organizacemi a vládními agenturami.

Zadejte velká data, další vývojový krok v těžbě dat. Velká data byla navržena pro zpracování rozsáhlých databází a nesčetných typů dat vytvářených v dnešním digitálním světě. Pokud jste „masivní“ přemýšleli o Googlu a všech shromážděných datech, byli byste v parkovišti. Možná vás překvapí, že Google je na čtvrtém místě v první desítce největších světových databází na čtvrtém místě. Od ledna 2014 bylo Světové datové centrum pro klima na prvním místě seznamu s 220 terabajty dat a je to kdokoli hádat, pokud jde o velikost databází kontrolovaných některými vládními agenturami.

Velká data se samozřejmě vzlétla, protože umožňuje manipulovat s obrovským množstvím odlišných dat a objevovat úžasné - a úžasně podrobné a osobní - věci. John Sumser, analytik HR odvětví, poskytuje následující příklad:

"Dnes vytváříme hypotézy a sbíráme data. Zítra budeme dělat inverzi. Neustálé, stabilní shromažďování dat nám umožní podívat se na data dříve, než položíme otázky. To znamená, že dostaneme odpovědi na otázky, které jsme nedostali." Nevím se zeptat. Budeme přemýšlet o spoustě věcí, které považujeme za fakta. “

Samozřejmě, všichni jsme slyšeli o některých strašidelných způsobech, jakými jsou tato data používána, jako je například schopnost Targů rozeznat těhotenství mladých ženách dříve, než její rodina zjistí. Velká data se však používají také pro mnohem méně zlověstné příčiny. Zde je několik organizací, které jej využívají nejvíce:

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

Jedna zjevná oblast, která velká data pomohou, je bezpečné a přesné nakládání s elektronickými zdravotními záznamy v lékařských organizacích. Přesné záznamy poskytnou pacientům lepší služby a sníží chyby. Oblast zdravotnictví ze zřejmých důvodů přizpůsobuje velké údaje pomalejším tempem, aby vyhovovala vládním předpisům týkajícím se důvěrnosti pacientů.

Jak již bylo zmíněno dříve, je známo, že velká data poskytují odpovědi na nevyřešené otázky. V oblasti zdravotnictví to může znamenat nalezení nového léku nebo léčby, která by nebyla nalezena jinak. Podle společnosti McKinsey & Company mohou velká data v budoucnosti, která není tak vzdálená, umožnit následující:

Prediktivní modelování biologických procesů a drog se stává sofistikovanější a rozšířenější.
Pacienti jsou zařazeni do klinických studií na základě více zdrojů informací, jako jsou sociální média.
Zkoušky jsou monitorovány v reálném čase, aby se rychle identifikovaly bezpečnostní nebo provozní problémy.
Namísto pevných datových sil, která se těžko využívají, jsou data zachycena elektronicky a snadno se pohybují mezi různými jednotkami.

Velká data, velká příležitost

I když se v některých konkrétních oblastech využívají velká data, nabízí příležitost všem organizacím v následujících oblastech:

Téměř všechna počítačová a síťová zařízení zaznamenávají data. Množství zaznamenaných dat se rychle stává obtížným. Velká data mohou snadno spravovat toto množství dat, což správcům umožňuje monitorovat síťovou aktivitu, diagnostikovat problémy nebo v příkladu, který mi dal Rubin, hledat určité vzory síťového provozu, které by naznačovaly aktivitu malwaru.

Pokud čtete tento článek, je to docela bezpečná sázka, že víte o problému Heartbleed kolem OpenSSL. Kromě technického problému existují obavy, že zranitelnost existuje již několik let. Rubin zmínil, že velká data umožňují správcům sítě ve spolupráci s analytiky dat vytvořit program, který bude prohledávat ve všech síťových protokolech škodlivé údery srdce. Tento příspěvek EFF uvádí:

„Každý síťový operátor, který má rozsáhlé protokoly paketů, může zkontrolovat škodlivé prezenční signály, které mají nejčastěji užitečné zatížení TCP 18 03 02 00 03 01 nebo 18 03 01 00 03 01 (nebo možná dokonce 18 03 03 00 03 01).“

Následující příklad je ukázkovým výstupem z příkazu show audit:

Router # show audit

* 14. září 18: 37: 31,535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Uživatel:

* 14. září 18: 37: 31,583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Uživatel:

* 14. září 18: 37: 31,595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Uživatel:

* 14. září 18: 37: 32,107:% AUDIT-1-FILESYSTEM: Hash:

330E7111F2B526F0B850C24ED5774EDE Uživatel:

* 14. září 18: 37: 32,107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Uživatel:

Pokud sledujete časová razítka, byl časový interval pro všechny tyto záznamy kratší než jedna sekunda. To bych ani nechtěl extrapolovat na jeden den, natož na dva roky!

Něco na co se dívat

Pokud zkontrolujete pracovní nabídky, existuje velká potřeba odborníků na velké údaje. Zeptal jsem se na to Rubina. Souhlasil a zmínil, že jeho studenti jsou nadšeni jejich vyhlídkami. Pak jsem si uvědomil, že velké datové platformy, zejména ty, které jsou považovány za open source, sledují časovou osu velmi podobnou tomu, jak se Linux stal mainstreamem.

Univerzity přijímají open-source verze velkých datových platforem, zejména Hadoop, protože jsou zdarma a studenti mohou manipulovat se zdrojovým kódem. Absolventi, kteří vyplní všechny tyto pracovní nabídky, budou raději pracovat s platformami s otevřeným zdrojovým kódem, protože to vědí nejlépe. Bude zajímavé sledovat.