Klíč k kvalitě analýzy velkých dat: Porozumění jiným - přepis TechWise Episode 4 - Technologie

Obsah

Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Zdroj: Jakub Jirsak / Dreamstime.com

Odnést:

Host Eric Kavanagh diskutuje s analytiky velkých dat s odborníky v oboru.

Eric: Dámy a pánové, je to konec roku 2014 - alespoň téměř. Je to naše poslední webové vysílání roku, lidi! Vítejte v TechWise! Ano vskutku! Jmenuji se Eric Kavanagh. Budu vaším moderátorem úžasného webcastu, lidi. Jsem opravdu, opravdu nadšený. Máme online dva úžasné analytiky a dvě velké společnosti - skutečné inovátory v tomto celém datovém ekosystému. A budeme mluvit vše o klíči pro analýzu velkých dat je rozdíl v porozumění. Tak pojďme se do toho ponořit, lidi.

Máme několik moderátorů. Jak vidíte, vaše je opravdu nahoře. Mike Ferguson volá celou cestu z Velké Británie, kde musel získat zvláštní privilegia, aby zůstal ve své kancelářské budově tak pozdě. Tak je pro něj pozdě. Máme zde Dr. Robina Bloora, našeho vlastního hlavního analytika zde ve skupině Bloor. A budeme mít George Corugedo, generálního ředitele a spoluzakladatele RedPoint Global a Keith Renison, Senior Solutions Architect z SAS Institute. Jsou to fantastické společnosti, lidi. To jsou společnosti, které skutečně inovují. A chystáme se kopat do některých dobrých věcí toho, co se právě teď děje v celém světě velkých dat. A přiznejme si to, malá data neodešla. A k tomu mi dovolte uvést své shrnutí zde.

Existuje tedy starý francouzský výraz: „Čím více věcí se mění, tím více zůstávají stejné.“ A řekněme si zde některá fakta - velká data nevyřeší problémy malých dat. Malá firemní data stále existují. Je to stále všude. Je to palivo operací pro dnešní informační ekonomiku. A velká data nabízejí těmto tzv. Malým podnikovým datům kompliment, ale malá data nenahrazují. Stále to bude kolem. Mám ráda spoustu věcí o velkých datech, zejména o strojích generovaných datech.

A dnes si asi povíme trochu o sociálních médiích, což jsou také velmi mocné věci. A pokud například přemýšlíte o tom, jak se změnilo sociální podnikání, stačí si zde promyslet tři rychlé webové stránky:, LinkedIn a. Přemýšlejte o tom, že před pěti lety nikdo nic takového nedělal. je v těchto dnech absolutním juggernautem. , samozřejmě, je obrovský. Je to chrlič. A pak je LinkedIn de facto standardem pro firemní sítě a komunikaci. Tyto weby jsou hloupé a aby bylo možné využít data, která jsou v nich, oživí některé funkce měnící hru. Pro mnoho organizací to bude opravdu hodně dobré - přinejmenším pro ty, které to využívají.

Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

Takže správa - na správě věcí věcí stále záleží. Velká data opět nezruší potřebu správy. Upřímně řečeno, je zcela nová potřeba zaměřit se na to, jak ovládat svět velkých dat. Jak se ujistíte, že máte své postupy a zásady zavedeny; že správní lidé získávají přístup ke správným údajům; že máš kontakty, máš sem zapojenou linii? Vlastně víte, odkud data pocházejí, co se s nimi stalo. A to se všechno mění.

Upřímně řečeno, opravdu jsem ohromen některými z toho, co jsem tam viděl v tomto novém světě využívajícím ekosystém Hadoop, což je samozřejmě mnohem více než funkčnost úložiště. Hadoop je také výpočetní motor. A společnost musí přijít na to, jak využít tuto výpočetní sílu, tuto schopnost paralelního zpracování. Budou dělat opravdu, opravdu skvělé věci. Dozvíte se o tom dnes.

Další věcí, o které je třeba zmínit, o tom je něco, o čem Dr. Bloor v nedávné minulosti hovořil, je to, že inovační vlna neskončila. Takže jsme kolem Hadoopu viděli hodně pozornosti. Viděli jsme společnosti jako Cloudera a Hortonworks, jak víte, opravdu dělají nějaké vlny. A dnes upřímně rozvíjejí partnerství se společnostmi, které jsou v pohotovosti. A rozvíjejí partnerství se spoustou lidí. Inovační vlna však neskončila. Z Apache Foundation se točí více projektů, které mění nejen konečný bod, pokud chcete - aplikace, které lidé používají -, ale samotnou infrastrukturu.

Celý tento vývoj YARN - dalšího vyjednávače zdrojů - je tedy jako operační systém pro velká data. A je to velký, velký obchod. Takže se naučíme, jak se to mění také. Takže, jen pár bitů zřejmé rady, dávejte si pozor na dlouhé smlouvy do budoucna, víte, pět, desetileté smlouvy budou vlnou, cestou, která se mi zdá. Budete se chtít vyhnout zablokování za každou cenu. Dnes se o tom všem naučíme.

Takže náš první analytik dnes mluví - naším prvním řečníkem celého programu je Mike Ferguson, který volá z Velké Británie. S tím ti dám klíče, Miku, a nechám tě to vzít pryč. Miku Fergusone, podlaha je na vás.

Miku, jsi tam? Možná jste na němý. Neslyším ho. Možná ho budeme muset zavolat zpět. A my skočíme přímo na snímky Robina Bloora. Robine, budu sem hodit hodnost u chudého Mika Fergusona. Jdu na vteřinu.

Jste to vy, Miku? Slyšíš nás? Ne. Myslím, že nejdřív musíme jít dopředu a jít s Robinem. Vydržte jednu sekundu, lidi. Některé odkazy na snímky sem přitáhnu také za pár minut. Díky tomu mi dovolte klíče od Robina Bloora. Robine, můžeš jít první místo Mika a já zavolám Mike za sekundu.

Robin: Dobře.

Eric: Vydrž, Rob. Nechte mě jít dopředu a posuňte vaše snímek sem, Robe. Chvíli to zabere.

Robin: Dobře.

Eric: Jo. Můžete však mluvit o tom, s čím se zabýváme, zde však z hlediska správy věcí veřejných. Vím, že budete mluvit o správě věcí veřejných. O tom se obvykle uvažuje v případě malých podnikových dat. Takže teď mám skluzavka, Robine. Nehýbejte se ničím. A tady máš. Podlaha je vaše. Vzít to pryč.

Robin: Dobře. To jo. Chci říct, dobře, předem jsme byli nějak uspořádáni, Mike mluvil o analytické stránce a mluvím o vládní straně. Řízení do jisté míry sleduje analytiku v tom smyslu, že je to důvod, proč děláte velké datové materiály, a důvodem, proč sestavujete veškerý software pro provádění analýzy, je hodnota, kde je.

Je tu problém. A problém je v tom, že víte, že data musí být hádána. Data musí být zařazena. Data musí být sbírána a spravována způsobem, který umožňuje analytice probíhat s plnou důvěrou - myslím, že je to slovo. Takže jsem si myslel, že mluvím o vládní straně rovnice. Myslím, že se dá říci, že správa věcí veřejných už byla problémem. Řízení již bylo problémem a začalo se to stát problémem v celé hře datového skladu.

Ve skutečnosti se stalo, že se změnil na mnohem větší problém. A důvod, proč se to změnilo v mnohem větší problém a další data, ale myslím, že to jsou důvody, opravdu. Počet zdrojů dat se dramaticky zvýšil. Dříve byly zdroje dat, které máme, z velké části definovány tím, co krmilo datový sklad. Datový sklad by byl obvykle napájen systémy RTP. Je možné trochu externí data, ne moc.

Nyní jsme šli do světa, kde, jak víte, trh dat právě začíná, a proto bude obchodování s daty. Máte již spoustu různých zdrojů datových proudů, které můžete do organizace skutečně přenést. Máme data sociálních médií, která je vzala, vzala na vlastní účet, abych tak řekl. Myslím tím, že na webových stránkách sociálních médií je opravdu velká hodnota informací, které agregují, a mohou je proto zpřístupnit lidem.

Máme také objev, víte, je to, jako by už existovali. Tyto logovací soubory jsme již měli, v příchodu Splunk. A brzy se ukázalo, že v souboru protokolu je hodnota. V rámci organizace tedy existovala data, která bychom mohli nazvat novými zdroji dat i externími zdroji. To je jedna věc. A to ve skutečnosti znamená, že víte, bez ohledu na jakákoli pravidla pro správu dat, která jsme dříve zavedli, musí být nějakým způsobem rozšířena a bude třeba je i nadále rozšiřovat, aby skutečně spravovala data. Ale teď se začínáme nějakým způsobem shromažďovat.

A po tomto seznamu máme streamování a rychlost příchodu dat. Myslím si, že jedním z důvodů popularity Hadoopu je to, že se dá hodně využít k zachycení velkého množství dat. Může také přijímat rychlost dat, takže pokud je nepotřebujete okamžitě, je to pěkné paralelní, obrovské paralelní prostředí. Ale také jste dostali skutečnost, že se nyní děje velké množství analytiků streamování. Bývaly to právě bankovní sektory, které se zajímaly o streamování aplikací, ale nyní je to trochu globální. A každý se tak či onak dívá na streamování aplikací, což je potenciální prostředek k odvozování hodnoty z dat a provádění analýz pro organizaci.

Máme nestrukturovaná data. Statistiky, obvykle část pouhých 10% světových dat, byly v relačních databázích. Nyní byl jedním z hlavních důvodů to, že to bylo ve skutečnosti nestrukturované, a bylo to - hodně z toho bylo na webu, ale do značné míry se to týkalo různých webů. Ukázalo se, že tato data jsou také analyzovatelná a použitelná. A s příchodem technologie Symantec, která se postupně vkrádá do situace, se stává stále více.Existuje tedy potřeba skutečně shromažďovat a spravovat nestrukturovaná data, což znamená, že je mnohem větší, než tomu bylo dříve. Máme sociální údaje, které jsem již zmínil, ale to, co je hlavní, je asi potřeba vyčistit.

Máme data o internetu věcí. To je jiná situace. To bude pravděpodobně tolik, ale hodně z toho bude muset zůstat distribuované někde poblíž místa, kde běží. Ale budete chtít, ať už tak či onak, zatáhnout za účelem analýzy dat v organizaci v rámci organizace. To je ještě další faktor. A tato data budou strukturována odlišným způsobem, protože to bude pravděpodobně - pravděpodobně bude formátováno v JSON nebo XML, takže se deklaruje sama. A nejen to tak či onak, že ve skutečnosti stahujeme data a dokážeme udělat určitý druh schématu čtení na tomto konkrétním kusu dat.

Máme problém s provenience a je to analytický problém. Výsledky v jakékoli analýze, kterou děláte data, nemohou být - pokud chcete - schváleny, považovány za platné, pokud neznáte původ dat. Myslím, že je to jen profesionalita, pokud jde o činnost vědců s údaji. Ale víte, abychom měli datový původ, to znamená, že musíme skutečně spravovat data a držet si poznámku k jejich počtu řádků.

Máme problém s počítačovým výkonem a paralely a vše, co dělá, je, že vše jde rychleji. Problém je v tom, že některé procesy, které jsme zavedli, mohou být pro všechno ostatní příliš pomalé. Takže existuje možná neshoda z hlediska rychlosti.

Máme příchod strojového učení. Strojové učení má ve skutečnosti za následek to, že se z analytiky stala jiná hra, než tomu bylo dříve. Ale můžete to opravdu použít, pouze pokud máte sílu.

Dostali jsme fakt nové analytické pracovní zátěže. Máme paralelní svět a některé analytické algoritmy je třeba provádět paralelně, aby se dosáhlo maximálního účinku. A problém tedy spočívá v tom, jak vlastně tak či onak nějak tlačíte data, zpřístupníte data, pokud jsou dostupná. A kde skutečně provádíte analytická pracovní zatížení, protože to můžete dělat v databázi. Možná to děláte v analytických aplikacích.

Existuje tedy celá řada výzev v oblasti správy. Co jsme letos udělali - výzkum, který jsme provedli tento rok, byl opravdu kolem architektury velkých dat. A když se to vlastně pokusíme zobecnit, závěr, ke kterému jsme dospěli - schéma, se kterým jsme přišli, vypadalo hodně podobně.

Nebudu se tím zabývat, zejména proto, že Mike udělá pro analytiku spravedlivou částku na architektuře dat. Ale to, co se mi ve skutečnosti líbí, aby se lidé jen soustředili, je tato oblast dna, kde nějakým způsobem shromažďujeme data. Máme něco, o čem bych se chtěl zmínit, je datová rafinerie nebo centrum pro zpracování dat. A tam se vládne. Takže, víte, pokud se na něco takového zaměříme, vypadá to takto. Víte, je to způsobeno daty z interních a externích zdrojů. Hub by teoreticky měl brát všechna generovaná data. Pokud potřebujete provádět analytické a datové proudy, měli byste jej streamovat a spravovat tak, jak jsou streamováni, a poté předat do hubu. Nebo jinak, to všechno přichází do hubu. A tady se děje řada věcí - to se děje v centru. A v rozbočovači nemůžete mít určité množství analytik a SQL. Máte však také potřebu virtualizace dat v každé buňce, aby bylo možné data posunout do jiných oblastí. Ale předtím, než se něco z toho stane, musíte vlastně, tak či onak, udělat zpřesnění přípravy dat. Můžete to nazvat příprava dat. Je to mnohem větší. To jsou věci, o kterých si myslím, že to zahrnuje.

Máme správu systému a správu služeb v tom smyslu, že se jedná o hlavní část datové vrstvy, pak musíme skutečně použít všechny systémy, které řídí úsilí o správu operačního systému, které jsme tradičně udělali, téměř do všech operačních systémů. Potřebujeme však také nějakým způsobem sledovat další věci, které se chystají zajistit, aby byly splněny tyto různé úrovně služeb, protože musí být definovány úrovně služeb nebo jakýkoli druh analytiky jako akce, nebo jsou data BI být zasažen.

Potřebujeme sledování a správu výkonu. Pokud něco jiného, potřebujeme to, abychom věděli, jaké další počítačové zdroje můžeme potřebovat k přidělování v různých časových bodech. Ale ve skutečnosti je zde také spousta práce, ve skutečnosti je poměrně složitá a vzájemně si konkurují o zdroje. V této oblasti je třeba udělat něco docela sofistikovaného.

Nyní máme životní cyklus dat způsobem, který jsme nikdy předtím neměli. Dohoda je opravdu nad a za čímkoli jiným, že jsme neshromažďovali data a nevyhodili je dříve. Měli jsme tendenci shromažďovat data, která jsme potřebovali a pravděpodobně jsme si je nechali, a poté je archivovali. Ale strašně mnoho toho, co odtud uděláme, je zkoumání dat. A pokud data nechcete, pohřbíme je. Životní cykly dat se tedy liší v závislosti na situaci, ale budou také mnohem větší agregací dat. Proto víte, víte, kde agregát pochází z toho, co ... co je zdroj agregace, a tak dále a tak dále. To je vše potřebné.

Datová linie přirozeně půjčuje. Bez něj musíte znát problémy, takže data… Musíme vědět, že data jsou platná, ale s tím, jak spolehlivá jsou ve skutečnosti.

Také jsme dostali mapování dat, protože spousta dat skutečně bude, tak či onak. A pokud se vám to líbí, vztahuje se to do určité míry na MDM. Jde jen o to, že je to mnohem složitější, protože když máte ohromné množství dat definovaných JSONem nebo na základě našeho schématu XML ve čtení, pak budete muset, ať už tak či onak, mít velmi aktivní pokračuje činnost mapování dat.

Existuje situace správy metadat, která je více než MDM, protože je třeba nějakým způsobem vybudovat to, o čem bych teď rád přemýšlel, jako jakýsi sklad metadat všeho, o co máte zájem. Metadata zjišťování, protože u některých dat nemusí být nutně deklarována její metadata a my je chceme okamžitě použít. A pak je tu čištění dat, což je obrovská věc, jak se tam může dělat řada věcí. A je zde také zabezpečení dat. Všechna tato data musí být zabezpečena na přijatelné úrovni, což může v některých případech znamenat - například šifrování mnoha hodnot.

Takže veškerá tato pracovní zátěž je ve skutečnosti vládnoucí říše. To všechno, ať už tak či onak, musí probíhat současně nebo dříve, veškerá naše analytická činnost. Jedná se o velké množství koordinovaných aplikací. Je to systém sám o sobě. A pak ti, kteří to nedělají v různých časových okamžicích, budou trpět nedostatkem toho, jak postupují vpřed, protože spousta těchto věcí není opravdu volitelná. Skončíte jen s narůstající entropií, pokud je neuděláte.

Pokud jde o analytiku a správu dat, řekl bych, že skutečně jedna ruka umývá druhou. Bez vládnutí se analytika a BI nebudou vrhnout včas. A bez analytiků a BI by nebylo vůbec nutné spravovat data. Takže dvě věci skutečně chodí ruku v ruce. Jak říkají na Středním východě: „Jedna ruka umývá druhou.“ A to je vlastně všechno, co musím říct. Doufám - doufejme, že teď máme Mika zpět.

Eric: My ano. Miku, předpokládám, že jsi tam. Budu tlačit vaše snímek nahoru.

Mike: Já jsem. Dobře, slyšíš mě?

Eric: Jo, slyším tě. Zníš skvěle. Takže, dovolte mi představit ... Tady to máte. A vy jste nyní přednášející. Vzít to pryč.

Mike: Dobře, děkuji! Dobré ráno, dobré odpoledne, dobrý večer pro vás všechny. Odpusťte škytku na začátku. Z nějakého důvodu jsem se ztlumil a viděl všechny, ale nemohli mě slyšet.

V pořádku. Takže o tom, co chci rychle udělat, je mluvit o ekosystému velkých analytických dat. Pokud se mě chcete na něco zeptat, řeknu vám, že v této relaci nebo později ji můžete chytit za mé kontaktní údaje zde. Jak jsem řekl, uprostřed noci tady ve Velké Británii.

No, dovolte mi dostat se k tomu, o čem chci mluvit. Je zřejmé, že v posledních několika letech jsme zaznamenali vznik všech druhů nově nalezených typů dat, které podniky nyní chtějí analyzovat - vše od dat clickstream k porozumění online chování, dat sociálních médií, o kterých Eric hovořil na začátek programu zde. Myslím, že Robin zmínil JSON, BSON, XML - tedy polostrukturovaná data, která se popisují. Máme samozřejmě i spoustu dalších věcí - vše od nestrukturovaných dat, protokolů IT infrastruktury, dat senzorů. Všechny tyto relativně nové zdroje dat, o které se podniky nyní zajímají, protože obsahují cenné poznatky, které by mohly potenciálně prohloubit to, co víme.

To tedy v podstatě znamená, že analytické prostředí se posunulo nad rámec tradičního skladování dat. Stále strukturujeme data do světa kombinace strukturovaných a více strukturovaných dat, kde více strukturovaná data mohou v mnoha případech pocházet zevnitř nebo zvnějšku podniku. A díky těmto novým datovým typům a novým potřebám analyzovat jsme viděli vznik nových analytických pracovních zátěží - vše od analýzy dat v pohybu, což trochu mění tradiční architekturu datových skladů na hlavě, kde jsme , v tradičních kruzích integrovat data, vyčistit je, transformovat, uložit a analyzovat. Ale analyzujeme data v pohybu, zachycujeme je, integrujeme je, připravujeme je pomocí jejich analýzy a poté je ukládáme. Takže data probíhají před tím, než jsou uložena kdekoli.

Komplexní analýza strukturovaných dat, snad pro vývoj modelu, statistický a prediktivní vývoj modelu, to není pro některé lidi v tradičním datovém skladovacím prostoru nic nového. Máme průzkumnou analýzu dat na modelu. To je množství strukturovaných dat. Máme novou pracovní zátěž ve formě grafové analýzy, která pro mé klienty ve finančních službách zahrnuje věci jako podvod. Zahrnuje také počítačové zabezpečení. Zahrnuje to samozřejmě sociální sítě, pochopení vlivných osob a podobně. Dokonce jsem zvládl to v řízení, má několik let grafové analýzy.

Máme optimalizaci datového skladu nebo vykládku zpracování ETL, což je spíš druh využití IT, může to CIO financovat. A dokonce archivaci dat a datových skladů, aby je bylo možné udržovat online ve věcech, jako je Hadoop. Takže všechna tato nová analytická pracovní zatížení přidala do analytického prostředí nové platformy, nové úložné platformy. Takže místo toho, abychom měli pouze tradiční datové sklady, datové servery, máme nyní Hadoop. Máme databáze NoSQL, jako jsou grafové databáze, které se často používají pro analytické pracovní vytížení. Samozřejmě můžeme provést grafovou analýzu nyní na samotném Hadoopu i v grafu DBS NoSQL. Máme analytiku streamování, o které se zmínil Robin. A máme - pokud chcete - stavbu modelů, snad i na analytické datové skladovací zařízení. Ale to všechno komplikovalo analytické prostředí, nyní je potřeba více platforem. A myslím, že výzvou pro jakékoli podnikání s front office nebo back office, nebo s financováním, zadáváním zakázek, HR a nějakým druhem operací je zjistit, které analytické projekty jsou spojeny s tradiční scénou skladování dat. A jakmile víte, že analytické projekty jsou spojeny s těmito novými velkými datovými platformami a kde provozovat, víte, které analytické pracovní vytížení, ale neztratit ze zřetele podnikání v tom smyslu, že - nyní uvidíte, že je to kombinace velkých datové analytické projekty a tradiční velké datové skladovací projekty, které jsou společně potřebné k posílení uvnitř zákazníka nebo kolem operací, kolem rizika nebo financování nebo udržitelnosti. A proto chceme, aby všechny tyto byly v souladu s našimi strategickými obchodními prioritami, abychom se drželi na cestě, víte, tlačili jehly, které je třeba zasunout, víte, aby se zlepšila výkonnost podniku, snížily náklady, abyste snížili rizika atd., víte, pro naši společnost jako celek. Není to tak, že by jeden nahradil tu druhým velkými daty a tradičními. Oba se používají společně. A to dramaticky mění architekturu, víte.

Mám tedy relativně novou architekturu, kterou budu používat se svými klienty. A tak, jak vidíte nyní dole, existuje celá řada zdrojů dat, nejen strukturovaná. Někteří z nich streamují živá data, jako jsou senzory, jako jsou tržní data, a tak. Mohlo by to být dokonce i živé kliknutí. Mohla by to být živá data pro přenos videa. Takže to nemuselo být strukturováno. Můžeme tedy provádět zpracování datových proudů, abychom mohli provádět automatické akce v reálném čase, a všechna zájmová data mohla být filtrována a předána do nástrojů pro správu podnikových informací, které lze použít k naplnění úložišť analytických dat. Pokud zde nevidíte mix, máme nyní tradiční datové sklady, databáze Hadoop a NoSQL. Ve směsi máme také správu kmenových dat. A to vyvíjí větší tlak na celou sadu nástrojů pro správu dat, nejen k naplnění těchto úložišť dat, ale také k přesunu dat mezi nimi.

Kromě toho musíme zjednodušit přístupové nástroje. Nemůžeme se pouze obrátit na uživatele a říci: „získejte všechny tyto datové úložiště, přidržte tato API - váš problém.“ Musíte jen zjednodušit přístup. A tak, tam, kde jsou tečkované čáry, uvidíte, že virtualizace a optimalizace dat skrývají složitost vícenásobného ukládání dat, zkuste a usnadněte přístup koncovým uživatelům. A samozřejmě, že existuje řada nástrojů nahoře, víte - všechno od tradičních BI nástrojů, které začaly na začátku datových skladů, postupně se pohybovaly vlevo od vašeho grafu a připojovaly se k Hadoops a pak NoSQL databáze světa.

Hledáme hledání nového životního pojištění, zejména kolem těla, strukturovaných, nestrukturovaných dat, která jsou často uložena v Hadoopu. Máme vlastní analytické aplikace, které se mají provádět na platformě Hadoop s MapReduce, tedy například Spark framework. Máme nástroje pro grafovou analýzu, které se, jak víte, zaměřují na velmi specifické pracovní vytížení. Takže řada nástrojů a datové toky jsou také složitější. Není to jen jednosměrná ulice v datovém skladu. Nyní jsou to samozřejmě hlavní data.

Máme nové zdroje dat, ať už jsou zachyceny v NoSQL, víte, datové úložiště jako MongoDB, jako Cassandra, jako HBase. Dostali jsme data přímo do Hadoopu pro analýzu a přípravu dat. Z Hadoopu a datových skladů máme nové poznatky. Máme archiv, který vychází z datových skladů do Hadoopu. Nyní jsme dostali datové zdroje do všech databází NoSQL a datových serverů. Takže zde vidíte, že ve správě dat se odehrává mnohem více aktivit. A to znamená, že software pro správu dat staví pod značný tlak. Už to není jen jednosměrná ulice. Je to obousměrný pohyb dat. Děje se mnohem více činnosti, a proto je škálovatelnost důležitá jak u nástroje pro správu dat, tak u zdroje dat.

Takže tento graf se vrací k té architektuře, kterou jsem zmínil před chvílí. Ukazuje vám různá analytická pracovní zatížení běžící v různých částech této architektury. Vlevo dole dole máte streamování v reálném čase, zpracování proudu probíhá na datech vycházejících z jakéhokoli druhu živého datového úložiště. Děláme třídní analýzu v grafických databázích NoSQL. Může se to také stát na Hadoopu. Například v rámci Spark a GraphX máme vyšetřovací analýzu a rafinérii dat, o kterých Robin mluvil o tom, že se děje na Hadoopu. Stále máme tradiční pracovní vytížení a skladování dat, víte, uživatelé energie vytvářejí statistické a prediktivní modely, možná na zařízení pro datový sklad. A stále se snažíme zjednodušit přístup k tomuto všemu, aby bylo pro konečné uživatele snadné.

Úspěch kolem celého tohoto nastavení je tedy více než jen analytická stránka. Víte, můžeme analytické platformy zavést na místo, ale pokud nedokážeme zachytit a přijímat data, jak je to u údajů o vysoké rychlosti a velkém objemu, v měřítku není moc místa. Víte, nemám co analyzovat. Úspěch analytiky velkých dat tedy vyžaduje rozšíření operačních systémů. To znamená, abyste mohli podporovat nové transakce, víte, vrcholy. Víš, jakákoli netransakční data, která jsou zde zachycena, by mohla být, jak víte, jakákoli nová míra příchodu velmi, velmi vysoká míra příchodu vysokorychlostních dat, jako jsou senzory nebo jakýkoli příjem. Musíme být schopni se o to postarat - být schopni zachytit tento druh dat a přivést je pro analýzu. Musíme také upravit analytiku sami, zjednodušit přístup k údajům, které jsem již zmínil. A pak to uvázat. Víte, musíme být schopni upřesnit zpět do těchto operačních systémů, abychom to uzavřeli.

Takže, měřítko provozní stránky domu pro sběr dat, víte, se dostává do světa NoSQL databáze. Tady vidíte pět kategorií NoSQL databáze. Tato kategorie bude modelována jako kombinace dalších čtyř výše. Obecně víte, jeho klíčové hodnoty, uložené dokumenty a databáze rodin sloupců - první tři v nich - které se používají k více druhům transakčních a netransakčních dat.

Některé z těchto databází podporovaných jako vlastnosti; některé ne. Ale přesto víte, vidíme představení těch, kteří škálovali tyto druhy aplikací. A tak například, protože jsme se vzdálili od pouhých zaměstnanců, kteří zadávají transakce na klávesnici, nyní zákazníkům a masám využívajícím nová zařízení, aby to dokázali. Viděli jsme obrovský nárůst počtu transakcí zadávaných do podniků. Abychom toho mohli udělat, musíme přizpůsobit transakční aplikace.

Obecně lze říci, že to lze udělat na databázích NewSQL jako relační databáze jako NuoDB a VoltDB zde. Nebo mohou být ve hře některé z databází NoSQL, které možná podporují vlastnosti ACID, které mohou zaručit zpracování transakcí. To platí také pro netransakční data, jako jsou údaje o nákupním košíku před transakcí, víte, než lidé kupují věci, data senzorů, víte, protože ztratím čtení senzorů mezi stovkami milionů senzorů. Není to žádný velký problém. Kliknutí, víte, ve světě clickstream - pokud použiji kliknutí, není to nic moc.Takže víte, nemusíme tam nutně mít vlastnosti ACID, a to je místo, kde se začínají hrát databáze NoSQL, bylo to tam - ta schopnost provádět velmi vysoké, správné zpracování v měřítku pro zachycení těchto nových druhů dat.

Zároveň chceme, aby se analytika rozšířila. A tak tahání dat z datových obchodů na analytické platformy ji již nebude hackovat, protože data jsou příliš velká. To, co opravdu chceme, je posunout analytiku opačně, do podnikového datového skladu do Hadoopu, do zpracování toku, aby bylo možné posunout analytiku k datům. Avšak jen proto, že někdo říká, že je v analytice databáze nebo v analytice Hadoop, nutně neznamená, že analytika běží paralelně. A upřímně řečeno, pokud se chystáte investovat do těchto nových masivně paralelních škálovatelných technologií, jako je Hadoop, jako jsou zařízení pro datový sklad a podobně, jako jsou procesory klastrovaného proudu, potřebujeme, aby analytika fungovala paralelně.

Takže, to je jen kontrola. Víte, pokud máme analytiky, které pomáhají předpovídat věci pro zákazníky, pro operace, pro rizika atd., Chceme, aby fungovaly paralelně, nikoli pouze na platformě. Chceme obojí. A to proto, že víte, že technologie je jako tyto nové nástroje pro vizuální objevy, jako je SAS. Ve skutečnosti je to jeden z našich sponzorů.

Jedna věc, kterou lidé chtějí, je alespoň vykořisťovat ty, kteří jsou v Hadoopu, a poté v databázi. A chceme, aby tyto programy běžely paralelně, aby byly schopny poskytovat výkon potřebný pro tak velké objemy dat. Zároveň se snažíme zjednodušit přístup k tomuto všemu. A SQL je nyní opět na programu. Víte, SQL je - SQL na Hadoop je právě teď horké. Momentálně to sleduji v 19 iniciativách SQL a Hadoop. Navíc, jak vidíte, můžeme se k těmto datům dostat, víte, mnoha způsoby, takže přímý přístup k SQL na samotném Hadoopu, můžeme přejít do vyhledávacího indexu SQL. Tímto způsobem, jak víte, někteří z dodavatelů vyhledávání v tomto prostoru, můžeme mít přístup SQL k analytickým relačním databázím, které mají tabulky Excelu pro Hadoop.

Nyní můžeme mít přístup SQL k serveru pro virtualizaci dat, který sám pak může být připojen k datovému skladu na Hadoopu. Už nyní začínám vidět vznik přístupu SQL k živým datovým proudům. SQL přístup ke všemu tak rychle roste. A část výzvy je jen proto, že přístup na SQL se tam prodává. Otázkou je, zda může SQL řešit složitá data? A to není nutně jednoduché. Jsou zde všechny druhy komplikací, včetně skutečnosti, že data JSON mohla být vnořena. Můžeme mít záznamy variant schématu. První záznam má tedy jedno schéma. Druhý záznam má jiné schéma. Tyto věci se velmi liší od toho, co se děje v relačním světě.

Musíme se tedy ptát, jaké údaje se pokoušíme analyzovat a jaké jsou analytické charakteristiky. Je to, víte, panel, který chcete udělat? Je to strojové učení? Je to grafová analýza? Můžete to udělat z SQL? Víte, je to fakturovatelné z SQL? Kolik souběžných uživatelů to děláme? Víte, máme stovky souběžných uživatelů. Je to možné u složitých dat? Víte, všechny tyto věci jsou klíčové otázky. Takže jsem zde vytvořil seznam několika, které si myslím, že byste měli zvážit. Víte, jaké formáty souborů? O jakých typech dat mluvíme? Jaké analytické funkce můžeme vyvolat z SQL, abychom získali komplexní data? A druh funkcí běží paralelně. Myslím, že musí běžet paralelně, pokud to musíme umět přizpůsobit. A můžu se dnes připojit k datům v Hadoopu mimo to, víš, nebo to není možné? A co budu dělat se všemi těmito různými druhy pracovních úloh dotazu?

A jak uvidíme, víte, z toho, co jsem viděl, existuje mnoho rozdílů v distribuci SQL a Hadoop. To jsou všechny ty, které sleduji. A mimochodem, to je čistě SQL na Hadoopu. To v tomto okamžiku nezahrnuje ani virtualizaci dat. A tak tam hodně a spousta prostoru pro konsolidaci, o kterém si myslím, že se stane v příštím roce, asi osmnácti měsících. Ale také to otevírá další věc, kterou je, že v Hadoopu mohu mít potenciálně více SQL strojů na stejných datech. A to je něco, co byste nemohli udělat ve vztahu.

To samozřejmě znamená, že musíte vědět, jaký druh pracovního vytížení dotazu mám spuštěný? Měl bych to spustit po dávkách na konkrétní SQL z iniciativy Hadoop? Měl bych spustit pracovní zátěž interaktivního dotazu prostřednictvím jiného SQL z iniciativy Hadoop atd., Abych věděl, ke kterému se připojit? V ideálním případě bychom to samozřejmě neměli dělat. Měli jsme na to jen položit otázku. Víš, někteří optimalizátoři vymýšlejí nejlepší způsob, jak to udělat. Ale podle mého názoru tam ještě nejsme úplně.

Ale i tak, virtualizace dat, kterou jsem zmínil výše, má velmi důležitou roli pro zjednodušení přístupu k více datovým obchodům. A pokud vytvoříme nové poznatky o Hadoopu, určitě je pro nás pravděpodobné, abychom se připojili k datovým datům a tradičním datovým skladům například prostřednictvím virtualizace dat, aniž bychom museli nutně přesouvat data z Hadoopu do tradičních datových skladů. Samozřejmě to můžete udělat také. Je také pravděpodobné, pokud archivuji data z tradičních datových skladů do Hadoopu. Stále se k tomu mohu dostat a připojit se k tomu, co je v našem datovém skladu, k virtualizaci dat. Takže si myslím, že virtualizace dat má v této celkové architektuře velkou budoucnost a zjednodušuje přístup ke všem těmto datovým obchodům.

A nezapomínejme, že když vytváříme tyto nové poznatky, ať už se jedná o relační nebo NoSQL systémy, stále chceme tyto poznatky vracet zpět do našich operací, abychom mohli maximalizovat hodnotu toho, co jsme našli, abychom mohli Využijte toho pro efektivnější a včasnější rozhodnutí v tomto prostředí k optimalizaci našeho podnikání.

Abych tedy zabalil to, co vidím, potřebujeme, víte, nové zdroje dat. Máme nové platformy na komplikovanější architektuře, pokud chcete, abychom to zvládli. A Hadoop se stává velmi, velmi důležitým, dost pro přípravu dat pro naše tekuté karantény, pro archivační dotaz, archiv z datového skladu, správu dat rozšiřující křídla, aby překročil skladiště dat do správy dat na všech těchto platformách a nové nástroje, které mají být je schopen analyzovat a přistupovat k datům v těchto prostředích, mít možnost škálovatelných technologií pro lepší přijímání dat a škálovat analytiku tak, že je tlačí dolů do platforem, aby byly paralelnější. A pak, doufejme, také zjednodušit přístup ke všemu prostřednictvím vznikající SQL přicházející přes vrchol. Takže vám dává představu o tom, kam směřujeme. Takže s tím se vrátím zpět, myslím, Ericu, že?

Eric: Dobře, to je fantastické. A lidi, musím říci, že mezi tím, co jste právě dostali od Robina a Mika, je to asi tak komplexní a výstižný přehled o celé krajině, než když se na ně podíváte, protože jdete kdekoli. Nech mě jít dopředu a nejprve se postavit do fronty George Corugeda. A tady to je. Dovolte mi to na chvilku vzít. Dobře, Georgi, chystám se ti podat klíče a vzít je pryč. Podlaha je vaše.

George: Skvělé! Velice vám děkuji, Ericu, a děkuji, Rob a Mike. To byly skvělé informace a spousty, na kterých se shodujeme. Takže, vraťme se zpět k Robinově diskuzi, protože, jak víte, není náhoda, že je tady RedPoint a SAS je tady. Vzhledem k tomu, RedPoint, jsme opravdu zaměřit na datové straně je na správu, na zpracování dat a příprava pro použití v analytice. Dovolte mi tedy projít těmito dvěma snímky. A opravdu mluvit o Robinově otázce o MDM a o tom, jak je to důležité a jak užitečné, a jak užitečné, myslím, že - a myslíme si - může být Hadoop ve světě MDM a kvality dat.

Víte, Robin mluvil trochu o tom, jak to souvisí se světem datových skladů a já přijdu - víte, strávil jsem několik let v Accenture. Zajímavé je, kolikrát jsme museli jít do společností a pokusit se zjistit, co dělat s datovým skladem, který byl v podstatě opuštěn. A to se stalo hodně, protože tým datového skladu ve skutečnosti jejich sestavení nepřizpůsobil podnikovým uživatelům ani spotřebitelům dat. Nebo to prostě trvalo tak zatraceně dlouho, že v době, kdy tuto věc postavili, se vyvinulo obchodní využití nebo obchodní zdůvodnění.

A jedna z věcí, o které si myslím, že jsem tak nadšená, je myšlenka použití Hadoopu pro správu kmenových dat, pro kvalitu dat a pro přípravu dat, skutečnost, že se vždy můžete vrátit k atomovým datům v Datové jezero Hadoop nebo zásobník dat nebo úložiště dat nebo rozbočovač nebo jakýkoli formulář buzz, který chcete použít. Ale protože si vždy uchováváte ta atomová data, máte vždy příležitost se vyrovnat s obchodními uživateli. Protože jako analytik - protože jsem vlastně začal svou kariéru jako statistik - víte, nic není horšího, jak víte, sklady podnikových dat jsou skvělé pro řízení sestav, ale pokud chcete dělat opravdu prediktivní analýzu, jsou to opravdu to není tak užitečné, protože to, co opravdu chcete, jsou podrobná behaviorální data, která se nějak zhrnula a agregovala v datovém skladu. Takže si myslím, že je to opravdu důležitá vlastnost, a to je jedna věc, o které si myslím, že s Robinem nesouhlasím, je to, že osobně nechávám data v datovém jezeře nebo v datovém centru co nejdéle, protože tak dlouho, jak data jsou tam a jsou čistá, můžete se na ně dívat z jednoho směru, z jiného směru. Můžete je sloučit s dalšími daty. Vždy máte tu příležitost, abyste se k ní vrátili a restrukturalizovali, a poté se znovu zarovnejte s obchodní jednotkou a potřebou, kterou tato jednotka může mít.

Jednou z dalších zajímavých věcí na tom je, že protože je to tak výkonná výpočetní platforma, spousta toho pracovního zatížení, o kterém jsme mluvili, vidíme, že vše přichází přímo do Hadoopu. A zatímco si myslím, že Mike hovořil o všech různých technologiích, které existují ve světě - v tomto typu ekosystému velkých dat si myslíme, že Hadoop je skutečně pracovní kůň dělat tak velké měřítko ve výpočetně náročném zpracování, které kmenová data a kvalita dat vyžadují. Protože pokud to dokážete, víte, jen pouhá ekonomika přesunu dat z vašich drahých databází do ekonomických databází, to právě teď ve velkých podnicích skutečně pohání tolik vychytávání.

Teď samozřejmě existují nějaké výzvy, ne? Technologie má problémy. Mnoho z nich je velmi nezralých. Řekl bych, víš, nevím kolik, ale řada technologií, které Mike zmínil, je stále ve verzi s nulovým bodem, že? Tyto technologie jsou tedy velmi mladé, velmi nezralé, stále založené na kódech. A to pro podniky skutečně představuje výzvu. A opravdu se zaměřujeme na řešení problémů na podnikové úrovni. A tak si myslíme, že musí existovat jiný způsob, a to je to, co navrhujeme, jiný způsob, jak získat některé z věcí při používání některých těchto velmi vznikajících technologií.

A tak, a pak další zajímavý problém zde, který byl zmíněn dříve, který je, když máte data, která jste zachytili v prostředí Hadoop jakéhokoli typu, víte, je to obvykle schéma na čtení spíše než schéma na psaní až na některé výjimky. A to čtení, hodně to dělají statistici. Statistici tedy musí mít nástroje, které jim umožní správně strukturovat data pro analytické účely, protože na konci dne, aby byla data užitečná, musí být nějakým způsobem strukturována, aby některé viděla nebo odpovídala na otázku nebo podnikání, nějaký druh podnikání, vytváří obchodní hodnotu.

Takže tam, kde přicházíme, je to, že máme velmi široký a vyspělý EPL, ELT hlavní klíč kvality dat a aplikaci pro správu. Je na trhu mnoho, mnoho let. A má veškerou funkčnost nebo mnoho funkcí, které Robin uvedl v tomto kruhovém grafu - vše od čistě nezpracovaných dat v celé řadě formátů a struktur XML a dalších věcí, až po schopnost provádět veškeré čištění, doplnění dat, oprava dat, geospatiální jádro bitů dat. To je v dnešní době s internetem věcí stále důležitější. Víš, je to geografie spojená s mnoha z toho, co děláme, nebo s mnoha údaji. A tak se veškerá analýza, tokenizace, čištění, oprava, formátování, strukturování atd. To vše provádí v naší platformě.

A pak, a možná, myslíme na nejdůležitější, je myšlenka deduplikace. Víte, v jádru, pokud se podíváte na jakoukoli definici správy kmenových dat, jeho jádrem je deduplikace. Je schopen identifikovat entity napříč různými zdroji dat a poté pro tuto entitu vytvořit hlavní záznam. A tou entitou by mohla být osoba. Subjekt by mohl být například součástí letadla. Tato entita by mohla být jídlem, jaké jsme udělali pro jednoho z našich klientů v klubu zdraví. Vytvořili jsme pro ně hlavní databázi potravin. Takže ať už jsou entity jakékoli, s nimiž pracujeme - a samozřejmě stále více jsou lidé a zástupci pro svou identitu, což jsou věci jako sociální kliky nebo účty, jakákoli zařízení, která jsou spojena s lidmi, některé věci, jako jsou auta a telefony a cokoli jiného, co si dokážete představit.

Víš, spolupracujeme s klientem, který do sportovního oblečení vkládá nejrůznější senzory. Data tedy přicházejí ze všech směrů. A tak či onak, je to odraz nebo reprezentace hlavní entity. A čím dál tím více jsou to lidé a schopnost identifikovat vztahy mezi všemi těmito zdroji dat a jak se vztahují k této základní entitě, a pak být schopni sledovat tuto základní entitu v průběhu času, abyste mohli analyzovat a porozumět změnám mezi touto entitou. a všechny ty další prvky, které jsou v reprezentacích té entity, například kritické pro dlouhodobou a dlouhodobou analýzu lidí. A to je opravdu jedna z opravdu důležitých výhod, která, myslím, že velká data nám mohou přinést, je mnohem lepší porozumění lidem a v dlouhodobém horizontu a pochopení kon a toho, jak se lidé chovají, když se chovají prostřednictvím jakých zařízení atd. .

Dovolte mi tedy rychle se sem dostat. Eric zmínil YARN. Víš, vrhám to na chvilku na vteřinu, protože zatímco YARN - lidé mluví o YARN. Myslím, že stále existuje hodně nevědomosti o YARN. A opravdu hodně lidí - o YARN je stále hodně nedorozumění. A faktem je, že pokud vaše aplikace byla správně navržena a máte správnou úroveň nebo paralelizaci ve své aplikační architektuře, můžete využít YARN k použití Hadoop jako škálovací platformy. A to je přesně to, co jsme udělali.

Znovu víte, jen poukázat na některé definice kolem YARN. Opravdu, co YARN znamená, nám a dalším organizacím umožňujeme stát se vrstevníky MapReduce a Spark a všech ostatních nástrojů, které jsou tam. Faktem je, že naše aplikace vedou optimalizovaný kód přímo do YARN do Hadoopu. A je tu opravdu zajímavý komentář, který Mike zmínil, protože, jak víte, otázka týkající se analytiků a našich analytiků, právě proto, že jsou v klastru, skutečně běží paralelně? Stejnou otázku můžete položit na spoustu nástrojů kvality dat, které jsou k dispozici.

Většinu dne musí nástroje kvality, které jsou tam, buď data odebrat, nebo tlačí kód dovnitř. A v mnoha případech je to jediný tok dat, který se zpracovává kvůli způsobu, jakým musíte porovnávat záznamy, někdy v typu činností v kvalitě dat. A faktem je, že protože využíváme YARN, dokázali jsme opravdu využít výhody paralelizace.

A jen proto, abychom vám poskytli rychlý přehled, protože další poznámka se týká důležitosti schopnosti rozšířit tradiční databáze, nové databáze atd., Implementujeme nebo instalujeme mimo klastr. A naše binární soubory tlačíme přímo do správce zdrojů, YARN. A to, a pak YARN distribuuje to přes uzly v clusteru. A co to dělá, je to, že YARN - dovolujeme YARN řídit a vykonávat svou práci, což znamená zjistit, kde jsou data, a přenést práci na data, kódovat data a nepohybovat s nimi. Když uslyšíte nástroje pro kvalitu dat a oni vám říkají, že nejlepší praxí je přesunout data z Hadoopu, běžte o život, protože to prostě není tak. Chcete práci přenést na data. A to je to, co YARN dělá první. Odvádí naše binární soubory do uzlů, kde jsou uložena data.

A také proto, že jsme mimo klastr, můžeme také přistupovat ke všem tradičním a relačním databázím, takže můžeme mít úlohy, které jsou 100% klientským serverem na tradiční databázi, 100% Hadoop nebo hybridní úlohy, které procházejí klientským serverem Hadoop , Oracle, Teradata - cokoli chcete a to vše ve stejné práci, protože tato implementace může přistupovat na obě strany světa.

A pak, vraťme se zpět k celé myšlence vycizenosti nástrojů, vidíte tady, je to jen jednoduchá reprezentace. A to, co se snažíme udělat, je zjednodušit svět. A způsob, jakým to děláme, je, že do systému HDFS přineseme velmi širokou sadu funkcí ... A není to proto, že se snažíme vyloučit všechny inovativní technologie tam venku. Pouze podniky potřebují stabilitu a nemají rádi řešení založená na kódech. Snažíme se tedy podnikům poskytnout známé, opakovatelné a konzistentní aplikační prostředí, které jim dává schopnost vytvářet a zpracovávat data velmi předvídatelným způsobem.

Rychle, to je druh dopadu, který získáme s naší aplikací. Vidíte MapReduce vs. prase vs. RedPoint - v RedPoint nejsou žádné řádky kódu. Šest hodin vývoje v MapReduce, tři hodiny vývoje v Pig a 15 minut vývoje v RedPoint. A tam máme opravdu obrovský dopad. Čas zpracování je také rychlejší, ale čas lidí, čas produktivity lidí, je výrazně zvýšen.

A můj poslední snímek zde, chci se vrátit k této myšlence, protože to je náš přístup k používání datového jezera nebo datového centra nebo datové rafinerie jako ústředního bodu požití. S tímto nápadem nemohu více souhlasit. A v současné době vedeme diskuse s mnoha vedoucími údajovými referenty hlavních světových bank, a to je architektura výběru.Přijímání dat ze všech zdrojů provádí zpracování kvality dat a správu kmenových dat uvnitř datového jezera a poté tlačí data tam, kde je třeba jít do podpůrných aplikací, na podporu BI, ať už je to cokoli. A pokud máte analytiky v BI, mohou běžet přímo uvnitř datového jezera, kde o to lépe, že to může začít hned. Ale s touto myšlenkou velmi na palubě. Tato topologie je taková, že - zjišťujeme, že na trhu získává hodně trakce. A to je vše.

Eric: Dobře, dobře. Pojďme tady. Jdu do toho a předám to Keithovi. A, Keithe, máš asi 10, 12 minut na to, abys tu houpal dům. V těchto show jsme si vzali trochu dlouho. A na tuto jsme inzerovali 70 minut. Takže, prostě jděte do toho a klikněte kamkoli na tento snímek a použijte šipku dolů a odeberte ji.

Keith: Jasně. Žádný problém, Ericu. Vážím si toho. Budu pokračovat a zasáhnu jen pár kousků o SAS, pak se přesunu do, přímo do technologických architektur, kde se SAS protíná s velkým datovým světem. Ve všech těchto věcech je toho hodně co vysvětlit. Mohli bychom strávit hodiny tím, že to projdeme velmi podrobně, ale deset minut - měli byste být schopni odejít s pouhým krátkým pochopením toho, kam SAS zavedla technologie analytiky, správy dat a business intelligence do tohoto velkého světa dat.

Nejprve jen trochu o SAS. Pokud nejste s touto organizací obeznámeni, už 38 let děláme pokročilé analýzy, business intelligence a správu dat nejen s velkými daty, ale za posledních 38 let s malým množstvím dat a dat. Máme obrovskou existující zákaznickou základnu, asi 75 000 webů po celém světě a spolupracujeme s některými z nejlepších organizací. Jsme soukromá organizace s přibližně 13 000 zaměstnanci a příjmy ve výši 3 miliard dolarů. A opravdu, myslím, že důležitou součástí je, že jsme tradičně měli dlouholetou historii reinvestování významného množství našich výnosů zpět do naší organizace pro výzkum a vývoj, která skutečně přinesla spoustu těchto úžasných technologií a platforem, které ' uvidíme se dnes.

Takže se chystám skočit přímo do těchto opravdu děsivých architektonických diagramů. Ve svých snímcích budeme pracovat zleva doprava. Uvnitř této platformy jsou tedy známé věci, které uvidíte. Na levé straně jsou všechny ty zdroje dat, o kterých mluvíme o požití do těchto velkých datových platforem. A pak máte tuto velkou datovou platformu.

Nenavrhl jsem tam jen slovo Hadoop nahoře, protože nakonec, příklady, které dnes uvedu, se konkrétně týkají všech technologií, kde se protínáme s těmito velkými datovými platformami. Hadoop je prostě jednou z těch, kde máme některé z nejrobustnějších možností nasazení, ale také se trochu protínáme a nějakou dobu jsme vyvinuli mnoho těchto technologií s některými z našich dalších partnerů s datovými sklady, jako je Teradata, Oracle, Pivotal a podobně. Nemohu tedy jít do detailů, pokud jde o všechny různé technologie, které jsou na které platformě podporovány, ale buďte si jisti, že všechny ty, které dnes popisuji, jsou většinou všechno, co se Hadoop a velké množství z nich protíná s dalšími technologickými partnery, které my máme. Takže tu máme tak velkou tu platformu.

Další právě vpravo máme analytický server SAS LASR. Nyní je to v podstatě masivně paralelní v aplikačním serveru pro analýzu paměti. Bylo by jasné, že se nejedná o databázi v paměti. Je to opravdu navržené od základů. Nejedná se o dotazovací stroj, ale je navržen tak, aby obsluhoval analytické požadavky ve velkém měřítku masivně paralelně. Jedná se tedy o aplikace klíčových služeb, které vidíte na pravé straně.

Trochu se dostaneme do podobných věcí, víte, jak lidé tyto věci implementují. Ale v zásadě, aplikace - jak vidíte - první, je naše vysoce výkonná analytika SAS. To bude - používám spoustu našich stávajících technologií a platforem, jako je Enterprise Miner nebo jen SAS, a ne jen dělám multithreading s některými z těch algoritmů, které jsme zabudovali do těch nástrojů, které jsme udělali pro roky, ale také je masivně paralelizovat. Takže přesunout data z této velké datové platformy do paměťového prostoru na tento analytický server LASR, abychom mohli provádět analytické algoritmy - víte, spousta nového strojového učení, neuronových sítí, náhodných regresí doménových struktur, takových druhů věci - znovu data uložená v paměti. Takže, jak se zbavit toho určitého problému MapReduce paradigmatu, kde se dostáváme k těmto platformám, není to způsob, jakým chcete provádět analytickou práci. Chceme tedy mít možnost jednou zvednout data do paměťového prostoru a iterovat jej, jak víte, někdy tisíckrát. Jedná se tedy o koncept využití tohoto vysoce výkonného analytického serveru LASR.

Také jsme - další aplikace pod tím, vizuální analytika, která nám umožňují vytrvat tato data v paměti a obsluhovat větší populaci na stejných datech. Takže umožňuje lidem provádět průzkum velkých dat. Předtím, než začneme pracovat na vývoji modelu, zkoumáme data, porozumíme jim, provádíme korelace, provádíme prognózy nebo trendujeme rozhodovací stromy - tyto druhy věcí - ale velmi vizuálním a interaktivním způsobem na datech, která sedí v paměti plošina. To také slouží naší komunitě BI, pokud má velmi široké základny uživatelů, kteří mohou zasáhnout tuto platformu, aby mohli provádět standardní druhy nahrávání, které byste viděli - což je téměř jakékoli, víte, prodejce BI tam venku.

V dalším kroku se přesuneme do služby. A pomoci našim statistikům a analytikům, aby byli schopni provádět tento druh ad hoc modelování s daty uloženými v paměti, odstraněnými z vizuální analýzy a průzkumu do naší aplikace pro vizuální statistiku. To je příležitost pro lidi, aby vzali, neběhali statistiky v dávkách, které dříve používaly k opakování, spouštěly modely, zobrazovaly výsledky. Takže, to může spustit model, podívejte se na výsledky. To je vizuální přetažení do interaktivního statistického modelování. To tedy našim statistikům a našim vědcům v oblasti dat slouží k tomu, aby vykonali spoustu této rané průzkumné vizuální statistické práce.

A pak jsme nezapomněli na naše kodéry - lidé, kteří to opravdu chtějí, umí odloupnout vrstvy rozhraní naproti, je psát aplikace a psát vlastní kódovou základnu v SAS. A to jsou naše statistiky v paměti pro Hadoop. A to je - v podstatě kódová vrstva, která nám umožnila interagovat s tímto analytickým serverem LASR, abychom mohli přímo vydávat příkazy a přizpůsobovat tyto aplikace na základě naší žádosti. To je analytická část.

Jak se tyto věci nastavují ... Jejda, omlouvám se, lidi. Tam jedeme.

Existuje tedy opravdu několik způsobů, jak to udělat. Jeden je udělat to s velkými daty - v tomto případě s Hadoopem. A tam máme analytický server SAS LASR spuštěný v samostatném klastru strojů, které jsou optimalizovány pro tvrdou analytiku. To je zasazeno pěkně a blízko k velké datové platformě, což nám umožňuje škálovat ji odděleně od velké datové platformy. Vidíme lidi, jak to dělají, když nechtějí, aby se něco, co charakterizuji, jako upírský software pohltil na každém z uzlů v jejich clusteru Hadoop. A nemusí nutně škálovat tak velkou datovou platformu, která je vhodná pro provádění analytických analýz v paměti. Můžete tedy mít 120 uzlů jejich klastru Hadoop, ale mohou mít 16 uzlů analytických serverů, které jsou navrženy k provádění takové práce.

Stále si můžeme dovolit udržet tento paralelismus z velké datové platformy, aby byla data přenesena do paměti. Takže je to opravdu použití SAS s platformou Hadoop. Jiným modelem jmenování je tedy říci, dobře, můžeme také použít tuto komoditní platformu a prosadit ji - v podstatě provozovat analytický server LASR na platformách Hadoop. Tady tedy… pracujete uvnitř velké datové platformy. To je také několik našich dalších prodejců zařízení. To nám umožnilo k tomu, abychom tuto práci v zásadě používali tuto komoditní platformu.

Vidíme, že častěji s takovými věcmi, jako je vysoce výkonná analytika, kde se jedná o analytický běh na jedno použití nebo na jedno použití, více na dávkové zaměření tam, kde jste - nechcete nutně spotřebovat paměťový prostor v Hadoopu plošina. V tomto modelu nasazení jsme velmi flexibilní, určitě v mnoha případech spolupracujeme s YARN, abychom se ujistili, že hrajeme pěkné klastry.

Dobře, takže je to analytický svět, abych si s analytickou aplikací ujasnil. Ale zmínil jsem se, že SAS je na samém začátku také platformou pro správu dat. A tam jsou věci, které jsou vhodné, aby se logika na tuto platformu v případě potřeby přenesla. Takže existuje několik způsobů, jak to děláme. Jeden je ve světě integrace dat, provádění transformace dat na datech nemusí mít smysl je vytáhnout zpět, jak jsme již slyšeli, spuštěním rutin kvality dat, které jsou velké. Chceme rozhodně tlačit věci, jako jsou rutiny kvality dat, na tuto platformu. A pak věci jako modelování bodů. Takže jsem svůj model vyvinul. Nechci přepsat tuto věc v MapReduce a ztěžovat a časově náročné pro mě opakování práce na nativní databázové platformě.

Takže pokud se podíváte například na náš akcelerátor bodování pro Hadoop, který nám umožňuje v zásadě vzít model a posunout matematickou logiku SAS dolů na tuto platformu Hadoop a provést ji tam pomocí paralelismu, který je uvnitř této velké datové platformy. Potom máme náš akcelerátor kódu pro různé platformy, včetně Hadoop, a to nám umožňuje v podstatě spouštět krokový kód dat SAS uvnitř platformy masivně paralelním způsobem - takže při práci na platformě provádíme různé druhy transformace dat. A pak náš akcelerátor kvality dat SAS, který nám umožňuje mít k dispozici kvalitativní znalostní základnu, která dokáže dělat věci, jako je přizpůsobení pohlaví, standardizační kód shody - všechny různé věci, které jste již dnes slyšeli.

A pak poslední kus, tam je Data Loader. Víme, že naši obchodní uživatelé budou muset být schopni psát kód, dělat transformaci dat v těchto velkých datových platformách. Data Loader je pěkné WYSIWYG GUI, které nám umožňuje zabalit tyto další technologie dohromady. Je to jako průvodce, který říká například spuštění dotazu Úlu nebo spuštění rutiny kvality dat a v tomto případě nemusí psát kód.

Poslední věc, kterou zmíním, je tato přední část. Jak jsem již zmínil, máme na světě obrovskou nohu SAS. A tohle nemůžeme jen nutně udělat všechny ty platformy, které jsou tam, aby byly okamžitě v tomto prostoru. Rozhodně tedy máme existující skupinu uživatelů, kteří potřebují sedět data na těchto velkých datových platformách, jako je například získávání dat z Teradaty a jejich zpět do Hadoopu a naopak. Běh modelů, které již umím běžet na svých serverech SAS, ale musím získat data, která jsou nyní umístěna na platformě Hadoop. Je tu tedy další malá ikona zvaná „from“, která nám umožňuje připojit se pomocí našich přístupových motorů SAS - přístupových motorů k Hadoopu, Cloudera v Pola, Teradata, k Greenplum do ... A seznam pokračuje. To nám umožňuje používat naše stávající zralé platformy SAS, které již existují, k získávání dat z těchto platforem, dělat práci, kterou musíme udělat, a posunout výsledky zpět do těchto oblastí.

Poslední věc, kterou uvedu, je, že všechny tyto technologie, které vidíte, se řídí stejnými standardními běžnými metadaty. Mluvíme tedy o tom, že transformační práce, pravidlo kvality dat v práci, přesuneme je do paměti, abychom mohli provádět analytiku, vývoj modelů v bodování. Máme tam celý analytický životní styl. Životní cyklus je řízen běžnými metadaty, správou, bezpečností a všemi věcmi, o kterých jsme dnes hovořili.

Takže jen rekapitulace, tam jsou opravdu ty tři velké věci, které se tam vezmou. Jedním z nich je, že můžeme s datovou platformou zacházet stejně jako s jakýmkoli jiným zdrojem dat, tahat od nich, tlačit na ně, když je to vhodné a pohodlné. Můžeme pracovat s těmito velkými datovými platformami a zaznamenávat data do účelové pokročilé analytické platformy v paměti. To je server LASR.

A konečně můžeme pracovat přímo v těchto velkých datových platformách a využívat jejich distribuční zpracování, aniž bychom museli data pohybovat.

Eric: No, to jsou fantastické věci, lidi. Jo, to je skvělé! Pojďme se tedy ponořit přímo k několika otázkám. Obvykle na tyto události běžíme asi 70 minut nebo trochu déle. Takže vidím, že tam stále máme velké publikum. Georgi, myslím, že ti dám první otázku. Pokud mluvíte o vtlačení vašeho binárního zvuku do Hadoopu, myslím, že to zní jako kdybyste skutečně optimalizovali výpočetní pracovní postup. A to je celý klíč k tomu, aby bylo možné provádět tyto druhy správy dat v reálném čase, styly kvality dat, protože to je hodnota, kterou chcete získat, že? Pokud se nechcete vrátit do starého světa MDM, kde je to velmi těžkopádné a časově náročné, a opravdu musíte lidi nutit, aby jednali určitými způsoby, což téměř nikdy nefunguje. A tak jste udělali to, že jste zhuštěli cyklus toho, co bylo. Říkejme tomu dny, týdny, někdy i měsíce až vteřiny, že? Děje se to?

George: Přesně tak, protože měřítko, které dostaneme, a výkon, který dostaneme ze shluku, je opravdu ohromující, pokud jde o, jen, víte, vždycky jsem trochu váhavý ohledně benchmarků. Ale jen pro řádovou velikost, kdy bychom provozovali miliardu, 1,2 miliardy záznamů a provedli úplnou standardizaci adresy - říkám HP stroj střední třídy - bude to trvat, jako víte, osm procesorových strojů, víte , 2 koncerty RAM na jádro, to by trvalo 20 hodin běhu. Můžeme to udělat asi za osm minut v klastru s 12 uzly. A tak, rozsah zpracování, které nyní můžeme udělat, je tak dramaticky odlišný, že - a jde to velmi pěkně s myšlenkou, že máte všechna tato data k dispozici. Takže zpracování není tak riskantní. Pokud jste to udělali špatně, můžete to opakovat. Máš čas, víš. Opravdu to změnilo rozsah, kde, jak víte, se taková rizika skutečně stala skutečnými obchodními problémy pro lidi, když se snažili provozovat řešení MDM. Musíte mít 30 lidí na moři, kteří dělají správu dat a všechno. A ještě něco musíte mít, ale rychlost a měřítko, ve kterém je nyní můžete zpracovat, vám opravdu poskytne mnohem více dýchací místnosti.

Eric: Jo, to je opravdu, opravdu dobrý bod. Miluji ten komentář. Takže máte čas to znovu zopakovat. To je fantastické.

George: Jo.

Eric: No, mění to dynamiku, že? Mění to, jak přemýšlíte o tom, co chcete zkusit. Myslím, že si to pamatuji před 18 lety v oboru provádění zvláštních efektů, protože jsem měl klienta, který byl v tomto prostoru. A stiskli byste tlačítka, abyste ji vykreslili, a šli byste domů. A vrátil byste se, možná v sobotu odpoledne, abyste viděli, jak to chodí. Ale pokud jste to udělali špatně, bylo to velmi, velmi, velmi bolestivé. A teď to není zdaleka - není ani blízko tomu být tak bolestivý, takže máte příležitost vyzkoušet více věcí. Musím říct, myslím, že to je opravdu, opravdu dobrý bod.

George: Přesně tak. Jo, a vyhodíš další nohu. Víš, dostaneš se do práce za starých časů a selže, vyfoukl jsi SOS. A je to.

Eric: Správně. A máte velké potíže, jo. To je správně.

George: Správně. To je správně.

Eric: Keith, nech mě jednu hodit k tobě. Pamatuji si, že jsem dělal rozhovor s vaší CIL, Keithem Collinsem, myslím, že v roce 2011 možná. A hodně hovořil o směru, kterým se SAS ubírala konkrétně s ohledem na práci se zákazníky na začlenění analytiky odvozené od SAS do operačních systémů. A samozřejmě jsme slyšeli Mika Fergusona mluvit o důležitosti zapamatování. Celá myšlenka je, že chcete být schopni spojit tyto věci s vašimi operacemi. Nechcete analýzu ve vakuu, odpojenou od podniku. To vůbec nic nemá.

Pokud chcete analýzu, která může přímo ovlivnit a optimalizovat operace. A když se ohlédnu zpět - a musím říct, myslel jsem si, že je to dobrý nápad - vypadá to jako retrospektivní, opravdu chytrý nápad. A myslím, že je to skutečná výhoda, kterou máte. A samozřejmě, tento skvělý odkaz, tato obrovská instalační základna a skutečnost, že jste se zaměřili na začlenění těchto analytik do operačních systémů, což znamená nyní - a udělené, bude to trvat nějakou práci - jsem si jistý, že “ Pracoval jsem na tom docela těžce. Nyní však můžete využít všechny tyto nové inovace a skutečně se jedná o to, že dokážete všechny ty věci provozovat se svými zákazníky. Je to spravedlivé hodnocení?

Keith: Jo, absolutně. Koncept je, že získáte představu o rozhodování o návrhu nebo o rozhodovacích vědách, což je, do jisté míry, průzkumné, vědecké a podobné věci. Pokud nemůžete udělat strojní proces opravdu ... Pokud přemýšlíte o vývoji automobilu, máte designéry, kteří dělají toto krásné auto, ale není to, dokud inženýři nezavedou tento plán na místo a nevyrobí skutečně životaschopný produkt před vámi může ve skutečnosti věci na místě, a to je v podstatě to, co SAS udělal. Spojila rozhodnutí - proces rozhodování s procesem rozhodování, takže když mluvíte o akcelerátorech, konkrétně bodových akcelerátorech, víte, že pokud vezmete model, který jste vyvinuli, a budete jej moci vytlačit do Teradata, nebo ji vytlačit do Oracle nebo Hadoop, s nulovým prostojem pro vývoj modelu, k nasazení modelu. To je klíčové, protože modely se postupem času zhoršují, přesnost těchto modelů. Čím déle bude trvat, než to vezmete a uvedete do výroby, to je ztráta přesnosti modelu.

A pak, další kus je, chcete být schopni sledovat a řídit tento proces v průběhu času. Chcete zastaralé modely, jakmile stárnou a budou nepřesné. Chcete se na to podívat, zkontrolovat jejich přesnost v průběhu času a znovu je postavit. A navíc máme k dispozici nástroje pro správu modelů, které také sedí a které skutečně sledují metadata kolem modelového procesu. A lidé říkali, že modelování, víte, že tento koncept je jako továrna na model, nebo cokoli, čemu chcete říkat. Jde o to, že zavádějí metadata a správu, a tam jsou tři velké věci, které zasáhneme - pomáháme lidem vydělávat peníze, šetřit peníze a držet je mimo vězení.

Eric: Ten poslední je taky docela velký. Těším se tomu vyhnout. Pojďme tedy mluvit o ...Dávám ještě jednu poslední otázku, možná si na to můžete oba skočit. Zdá se mi, že heterogenita našeho světa se jen zvýší. Myslím, že určitě uvidíme nějakou krystalizaci v hybridních cloudových prostředích. Ale přesto uvidíte, jak se tu drží mnoho hlavních hráčů. IBM nikam nevede. Oracle nejde nikam. SAP nikam nevede. A do této hry je zapojeno tolik dalších prodejců.

Také z provozního hlediska, kde máte doslova tisíce a tisíce různých druhů aplikací. A slyšel jsem - většina z vás o tom mluví, ale myslím, že oba souhlasíte s tím, co jsem řekl. Tento trend jsme již viděli, pokud jde o výpočetní sílu v analytických motorech, architekturu. Společnosti již léta mluví o tom, že se mohou zapojit do ostatních motorů a obsluhovat určitý druh orchestračního bodu. A myslím, Georgi, nejdřív ti to hodím. Zdá se mi, že se něco nezmění. Budeme mít toto heterogenní prostředí, což znamená, že existují věci jako CRM v reálném čase a kvalita dat a správa dat. Jako dodavatel budete potřebovat rozhraní se všemi těmito různými nástroji. A to je to, co zákazníci chtějí. Nebudou chtít něco, co by s těmito nástroji bylo v pořádku a s těmito nástroji není v pořádku. Budou chtít Švýcarsko MDM a CRM, že?

George: Správně. A je to zajímavé, protože jsme toho velmi přijali. Součástí je historie, kterou jsme měli v prostoru. A očividně jsme již pracovali na všech ostatních databázích, Teradatách a částech světa. A pak jsme - v implementačním procesu, přesně tak, jak jsme to udělali - jen tak, aby to bylo - máte rozpětí napříč všemi těmito různými databázemi. Jednou z věcí, které mi připadají zajímavé, je to, že máme některé klienty, kteří jsou jen s peklem zaměřeni na odstranění všech relačních databází. A to je zajímavé. Víš, myslím, je to v pořádku. To je zajímavé. Ale já prostě nevidím, že se to opravdu děje ve velkém měřítku podniku. Nevidím to tak dlouho. Takže si myslím, že hybrid je tu na dlouhou dobu a na druhé straně naší aplikace, kde máme naši platformu pro zasílání zpráv v naší platformě pro správu kampaní. Vlastně jsme to vytvořili speciálně. Nyní jsme vydali verzi, která to dělá a která se nyní může připojit k hybridnímu datovému prostředí a dotazovat Hadoop nebo dotazovat jakoukoli databázi, jakoukoli analytickou databázi. Takže si myslím, že je to jen vlna budoucnosti. A souhlasím s tím, že virtualizace v tom bude určitě hrát velkou roli, ale my jsme jen - jdeme přímo k datům ve všech našich aplikacích.

Eric: Dobře, skvělé. A, Keithe, dám ti to. Co si myslíte o heterogenním světě, kterému čelíme, když se chováme jako noha?

Keith: Jo, je to opravdu fascinující. Myslím, že to, co najdeme více - nejen na straně správy dat, ale co je nyní fascinující, je open-source povaha analytické základny. Takže vidíme organizace jako nebo technologie jako Spark přicházející na palubu a lidi používající Python a R a všechny tyto ostatní open-source technologie. Myslím, že by to mohlo být interpretováno jako určitý konflikt nebo hrozba do určité míry. Ale realita je, že se všemi těmito open-source technologiemi máme nějaké opravdu skvělé komplimenty. Myslím tím, že například pracujeme na platformách s otevřeným zdrojovým kódem, pro Boží dobro.

Ale také, jako byste byli schopni integrovat například model R do modelu paradigmatu SAS, můžete použít to nejlepší z obou světů, že? Stejně tak víme, že některé experimentální věci v akademickém světě a některé práce na vývoji modelu jsou v procesu vývoje modelu mimořádné a velmi užitečné. Ale také, pokud byste to mohli spárovat s nástrojem třídy výroby, dělá to hodně čištění a kvality a kontroluje a ujišťuje, že data předávající modelu jsou, byla správně předpřipravena, aby nedošlo k selhání při popravě. A pak, být schopen dělat věci, jako jsou modely šampionů s otevřenými zdroji. To jsou věci, které se chystáme umožnit, a jako součást tohoto skutečně heterogenního ekosystému všech těchto technologií. Jo, takže je to víc - pro nás je to spíše o osvojení těchto technologií a hledání komplimentů.

Eric: No, tohle byly fantastické věci, lidi. Chodili jsme sem trochu dlouho, ale rádi bychom se dostali k co nejvíce otázkám. Dnes zašleme soubor otázek a odpovědí našim moderátorům. Pokud tedy na žádnou z vašich otázek neodpovíte, zajistíme, aby byla zodpovězena. A lidi, tohle to zabalí na rok 2014. Vaše zítra a příští týden opravdu v DM Radio, a pak je vše hotovo a je to prázdninová přestávka.

Děkuji vám všem za váš čas a pozornost, za dodržení všech těchto úžasných webcastů. Máme rok 2015 uspořádaný skvělý rok. Brzy s vámi budeme mluvit, lidi. Ještě jednou děkuji. Postaráme se o to. Ahoj.