Využití Firehose: Získejte obchodní hodnotu pomocí Streaming Analytics: Webinar Transcript

Autor: Louise Ward
Datum Vytvoření: 5 Únor 2021
Datum Aktualizace: 17 Smět 2024
Anonim
Využití Firehose: Získejte obchodní hodnotu pomocí Streaming Analytics: Webinar Transcript - Technologie
Využití Firehose: Získejte obchodní hodnotu pomocí Streaming Analytics: Webinar Transcript - Technologie

Odnést: Hostitel Rebecca Jozwiak diskutuje o analytice streamování s předními odborníky v oboru.




Momentálně nejste přihlášeni. Chcete-li zobrazit video, přihlaste se nebo se zaregistrujte.

Rebecca Jozwiak: Dámy a pánové, ahoj a vítejte v Hot Technologies roku 2016! Dnešní název zní „Využití Firehose: získávání obchodní hodnoty pomocí Streaming Analytics.“ Toto je Rebecca Jozwiak. Jsem druhým velitelem hostitele webového vysílání, kdykoli tady nemůže být náš milý Eric Kavanagh, takže je hezké dneska venku vidět tolik z vás.

Tato epizoda se trochu liší od našich ostatních. Mluvili jsme o tom, co je horké a tento rok je samozřejmě horko. Posledních několik let bylo horkých. Vždy přicházejí nové věci. Dnes mluvíme o streamování analytiků. Analytika streamování je sama o sobě něco nového. Streamování, středová data, data RFID samozřejmě nejsou nutně nová. Ale v kontextu datových architektur jsme se po celá desetiletí soustředili na data v klidu. Databáze, souborové systémy, datové úložiště - vše za účelem převážně dávkového zpracování. Ale nyní, s posunem vytvářet hodnotu ze streamovaných dat, datových emocí, někteří to nazývají žijícími proudy, skutečně vyžadují architekturu založenou na streamování, nikoli data v klidových architekturách, na které jsme byli zvyklí, a musí být schopen zpracování rychlého požití, zpracování v reálném čase nebo téměř v reálném čase. Musí být schopna zajistit nejen internet věcí, ale internet všeho.


V ideálním případě by samozřejmě bylo hezké mít obě architektury vedle sebe, jednu ruku mýt druhou, abych tak řekl. Zatímco data stará, data stará týdny, data stará roky mají samozřejmě hodnotu, historickou analýzu, analýzu trendů, živá inteligence v těchto dnech řídí právě živá data, a proto se streamingová analytika stala tak důležitou.

Dnes o tom mluvím víc. Máme datového vědce Dez Blanchfielda, který volá z Austrálie. Je pro něj brzy ráno. Máme našeho hlavního analytika, Dr. Robina Bloora. Připojili jsme se k Anand Venugopal, produktové hlavě pro StreamAnalytix ve společnosti Impetus Technologies. Skutečně se zaměřují na analytické aspekty tohoto prostoru.

S tím budu pokračovat a předat to Dezovi.

Dez Blanchfield: Děkuju. Musím tady chytit ovládání obrazovky a vyskočit dopředu.


Rebecca Jozwiak: Tady to máte.

Dez Blanchfield: Zatímco popadáme snímky, dovolte mi, abych se zabýval jen hlavním tématem.

Budu si to udržovat na poměrně vysoké úrovni a udržím to zhruba 10 minut. Toto je velmi velké téma. Zúčastnil jsem se události, kde jsme strávili dva až tři dny potápěním v podrobnostech o tom, co je zpracování toků a současných rámcích, které vyvíjíme, a co by mělo znamenat analytické zpracování v těchto velkoobjemových proudech.

Chceme jen objasnit, co tím myslíme, streamováním analytiků a poté se ponořit do toho, zda lze obchodní hodnotu odvodit, protože to je to, co podniky skutečně hledají. Hledají lidi, kteří jim vysvětlují velmi rychle a stručně, kde mohu odvodit hodnotu použitím nějaké formy analytiky na naše datové proudy?

Co je to streamovací analytika?

Analytika datových proudů poskytuje organizacím způsob, jak extrahovat hodnotu z velkoobjemových a vysokorychlostních dat, která podnikům procházejí, v různých formách v pohybu. Významný rozdíl je v tom, že jsme měli dlouhou historii vývoje analytiků a objektivů a pohledů na data, která jsme zpracovávali v klidu po celá desetiletí od doby, kdy byl vynalezen mainframe. Masivní posun paradigmatu, který jsme viděli v posledních třech až pěti letech u toho, čemu říkáme „webové měřítko“, je napojení na toky dat přicházejících do nás v reálném čase nebo téměř v reálném čase a nejen zpracování a hledání korelace událostí nebo událost se spouští, ale provádí skutečně podrobnou a podrobnou analýzu těchto toků. Je to významný posun k tomu, co jsme dříve dělali, a to buď sbírání dat, jejich vkládání do jakéhokoli úložiště, tradičně velké databáze, velké velké datové rámce, jako je platforma Hadoop a provádění dávkového režimu, a získávání nějaký pohled.

Velmi rychle se nám to daří a zkoušíme spoustu těžkého železa, ale stále opravdu zachycujeme data, ukládáme a poté se na ně díváme a získáváme k nim nějaké poznatky nebo analýzy. Posun k provádění těchto analytiků, když se data streamují, byl velmi novou a vzrušující oblastí růstu pro typy věcí, které se dějí kolem velkých dat. Vyžaduje zcela odlišný přístup k zachycení, uložení a zpracování a provádění analytických analýz.

Jedním z klíčových faktorů pro posun a zaměření na provádění analýzy ve streamu je to, že můžete získat významnou obchodní hodnotu tím, že získáváte tyto poznatky rychleji a snadněji, jak data přicházejí k vám, protože informace jsou poskytovány podnikům. Myšlenka provádět zpracování na konci dne již není v některých průmyslových odvětvích relevantní. Chceme být schopni provádět analytiku za chodu. Na konci dne už víme, co se stalo, protože se to stalo, spíše než se dostat na konec dne a dělat 24hodinovou dávkovou práci a získávat tyto poznatky.

Analytika datových proudů je o klepnutí přímo do tohoto proudu, zatímco datové proudy jsou obvykle vícenásobné datové toky velmi velkých objemů dat a dat přicházejících k nám v pohybu velmi, velmi rychle a získávání poznatků nebo analytik o těchto proudech, když k nám přicházejí na rozdíl k tomu, že to vyjde v klidu a provádí na nich analýzy.

Jak jsem již zmínil, měli jsme desetiletí a desetiletí provádění toho, čemu říkám dávková analýza. Dal jsem zde opravdu skvělý obrázek. Toto je obrázek gentlemana stojícího před zesměšňovaným počítačem, který vytvořila společnost RAND Corporation před celým životem, a tak vypadali jako počítač v domě. Zajímavé je, že i tehdy měli tento koncept všech těchto malých číselníků a tyto číselníky představovaly informace přicházející z domu a zpracovávané v reálném čase a sdělující vám, co se děje. Jednoduchým příkladem je sada barometrického tlaku a teploty, kterou můžeme vidět, kde vidíme, co se děje v reálném čase. Ale myslím si, že i tehdy, když společnost RAND Corporation dala dohromady ten malý model, ve skutečnosti přemýšleli o zpracování dat a provádění analytických analýz, protože přichází ve formátu stream. Nejsem si úplně jistý, proč do počítače vložili volant, ale to je docela v pohodě.

Od doby, kdy jsme objevili vynález, jsme měli přehled o zachycování dat a provádění dávkové analýzy. Jak jsem již řekl s velkým posunem a viděli jsme to od hráčů na internetu, kteří všichni víme, jsou to všechny značky domácnosti a LinkedIn, že interaktivní chování, které máme s těmito sociálními platformami, vyžaduje Nejen že snímají, ukládají a zpracovávají v dávkovém režimu, ale ve skutečnosti zachycují a řídí analytiku za chodu z proudů dat, která prochází. Když něco pípám, nejenže je musí zachytit a uložit a něco udělat později, ale také musí být schopni dát jej okamžitě zpět do mého proudu a sdílet je s ostatními lidmi, kteří mě sledují. To je model dávkového zpracování.

Proč bychom měli jít touto cestou? Proč by organizace investovaly čas, úsilí a peníze, dokonce i když zvažovaly výzvu snažit se cestou analytiků proudu? Organizace mají tuto obrovskou touhu získat výkonový zisk oproti svým konkurentům v průmyslových odvětvích, ve kterých se nacházejí, a že tento výkon lze rychle implementovat pomocí jednoduché analytické analýzy proudu a může začít jednoduchým sledováním dat v reálném čase, která již jsme obeznámeni s. Tam jsem dostal malý screenshot Google Analytics. Pravděpodobně je to poprvé, kdy jsme skutečně získali praktickou analytiku pro spotřebitele. Takže když lidé navštívili váš web a vy se vám tyto počty zásahů počítají, s malým kouskem JavaScriptu ve spodní části webové stránky v HTML vloženým na vašem webu byly tyto malé kódy vytvářeny v reálném čase zpět na Google a byly provádíme analýzu těch toků dat přicházejících z každé stránky na vašem webu, z každého objektu na vašem webu v reálném čase a oni se vám vracejí zpět na této opravdu roztomilé webové stránce v řídicím panelu grafu v reálném čase, roztomilé histogramy a linie graf zobrazující X počet lidí, kteří na vaši stránku narazili historicky, ale tady je kolik jich právě teď je.

Jak vidíte na tomto snímku obrazovky, právě teď je uvedeno 25. To je teď 25 lidí v okamžiku, kdy byl na této stránce snímek obrazovky. Toto je první skutečná šance, kterou jsme hráli na analytickém nástroji pro spotřebitele. Myslím, že to hodně lidí opravdu pochopilo. Prostě pochopili sílu vědět, co se děje a jak na to mohou reagovat. Když přemýšlíme o rozsahu avioniky, letících kolem, je v USA pouze 18 700 domácích letů denně. Před nějakou dobou jsem četl referát - to bylo asi před šesti nebo sedmi lety - že množství dat, která tyto letouny vyráběly, bylo ve starém strojírenském modelu asi 200 až 300 megabajtů. V dnešních konstrukcích letadel tato letadla produkují asi 500 gigabajtů dat nebo asi půl terabajtu dat za let.

Když matematiku děláte velmi rychle z hlavy, že 18 700 tuzemských letů každých 24 hodin pouze v americkém vzdušném prostoru, pokud všechna moderní letadla produkují asi půl terabajtu, to je 43 až 44 petabajtů dat procházejících a Děje se to, když jsou letadla ve vzduchu. Stává se to, když přistanou a dělají výpisy dat. To je, když jdou do obchodu a mají kompletní výpis dat od technických týmů, aby se podívali na to, co se děje v ložiscích, kolech a uvnitř motorů. Některá z těchto údajů musí být zpracována v reálném čase, aby se mohli rozhodnout, zda existuje skutečný problém, když bylo letadlo ve vzduchu nebo když je na zemi. To prostě nemůžete udělat v dávkovém režimu. V jiných odvětvích, která tam vidíme kolem financí, zdravotnictví, výroby a strojírenství, se také dívají na to, jak se mohou tímto novým pohledem na to, co se děje v reálném čase, na rozdíl od toho, co se právě ukládá do databází na období.

Existuje také tento koncept zacházení s daty, jak nazývám zboží podléhající zkáze nebo komoditu podléhající zkáze - že mnoho dat v průběhu času ztrácí hodnotu. To platí stále častěji u mobilních aplikací a nástrojů sociálních médií, protože to, na co lidé říkají a co nyní trendy, je to, na co chcete reagovat. Když přemýšlíte o jiných částech našeho života s logistikou a přepravou potravin v okolí, chápeme pojem zboží podléhající zkáze v tomto smyslu. Ale přemýšlejte o datech, která prochází vaší organizací, a o hodnotě, kterou má. Pokud s vámi někdo právě teď obchoduje a vy s nimi můžete komunikovat v reálném čase, nechcete čekat ani hodinu, aby mohla být data zachycena a vložena do systému, jako je Hadoop, a poté stiskněte toto tlačítko, to teď nebudeme schopni vyřešit a chcete to udělat okamžitě na žádost klienta. Nyní je termín, který uvidíte, že se hodně objevuje, když lidé mluví o tom, že budou mít tento datový proud v reálném čase, který vám může poskytnout personalizaci, a tuto personalizaci vyladit v systému, který používáte, podle vašich individuálních zkušeností. Když například narazíte na nástroj, jako je například vyhledávací nástroj Google, pokud udělám dotaz a uděláte stejný dotaz, nemůžeme získat vždy stejná data. Dostáváme v podstatě to, co nazývám celebritou. Zacházelo se s mě jednorázově. Mám vlastní osobní verzi toho, co se v těchto systémech děje, na základě profilů a dat, která na mě shromáždili, a já jsem byl schopen provádět analytiku v reálném čase ve streamu.

Tato myšlenka, že data jsou rychle se kazící komoditou, je prozatím skutečnou věcí a hodnota dat, která se v průběhu času snižují, je něco, s čím se musíme dnes vypořádat. Není to včera. Líbí se mi tento obrázek medvěda, který popadl lososa, který vyskočil z řeky, protože to opravdu maloval přesně to, co vidím streamovanou analytiku. Je to tato masivní řeka dat, která se k nám blíží, pokud je to ohnivý oheň, a medvěd sedí uprostřed potoka. Bude provádět analytické analýzy toho, co se kolem něj děje v reálném čase, takže dokáže skutečně připravit svou schopnost zachytit ryby ve vzduchu. Není to jako ponořit se do proudu a chytit ho. Tato věc skočí do vzduchu a musí být na správném místě v pravý čas, aby chytila ​​tu rybu. Jinak nedostane snídani ani oběd.

Organizace chce se svými daty dělat totéž. Chtějí extrahovat hodnotu z dnešních obrovských objemů dat v pohybu. Chtějí provést analýzu těchto dat a dat o vysoké rychlosti, takže nejde jen o množství dat, která k nám přicházejí, ale o rychlost, s jakou z toho přichází. Například v zabezpečení jsou to všechny vaše směrovače, přepínače, servery, brány firewall a všechny události, které přicházejí od těchto a desítky tisíců, ne-li stovky tisíc zařízení, v některých případech jde o data podléhající zkáze. Když o tom přemýšlíme v internetu věcí a průmyslovém internetu, mluvíme o milionech, ne-li o miliardách senzorů, a protože data přicházejí skrz které provádí analytiku, nyní se zabýváme zpracováním komplexních událostí na řádech velikosti a rychlosti, které jsme nikdy předtím neviděli, a musíme se s tím vypořádat dnes. Musíme kolem toho stavět nástroje a systémy. Je to skutečná výzva pro organizace, protože na jedné straně máme velmi velké značky, které dělají kutily, péct si to sami, když mají schopnost to udělat, dovednosti a inženýrství. Ale u průměrné organizace tomu tak není. Nemají sady dovedností. Nemají kapacitu ani čas ani peníze na to, aby na to přišli. Všichni se zaměřují na tento koncept rozhodování v reálném čase.

Použijte případy, s nimiž jsem se setkal, a vyskytují se v každém širokém spektru každého odvětví, které si dokážete představit, lidé sedí a věnují pozornost a říkají: Jak aplikujeme některé analytické údaje na naše datové proudy? Mluvíme o online službách online. Existují tradiční platformy sociálních médií a online e-tailing a maloobchod - například aplikace. Všichni se nám snaží dát tento zážitek celebrit v reálném čase. Když se ale dostaneme k dalším technologiím, telefonním službám, hlasu a videu, vidím lidi, kteří chodí po telefonu FaceTime. Je to jen vybuchující. Vadí mi to, že lidé drží telefon před nimi a povídají si s videozáznamem přítele, na rozdíl od toho, aby jej drželi u ucha. Ale oni vědí, že to dokážou a přizpůsobili se a měli tuto zkušenost rádi. Vývoj těchto aplikací a platforem, které tyto aplikace poskytují, musí provádět analytiku v reálném čase na tomto provozu a na profilech provozu, aby mohly dělat jednoduché věci, jako je směrování tohoto videa, dokonale tak, aby kvalita hlasu v video, které získáte, je dostatečné pro získání dobrého zážitku. Nemůžete dávkově zpracovávat tento druh dat. To by z videostreamu v reálném čase nevytvořilo funkční službu.

Ve finančních transakcích je výzva pro správu. Není dobré se dostat na konec dne a zjistit, že jste porušil zákon a přesunul soukromá data po celém místě. V Austrálii máme velmi zajímavou výzvu, kdy přesun dat o ochraně osobních údajů na moři je ne-ne. Nemůžete si vzít můj PID, moje osobní osobní identifikační údaje, na moři. V Austrálii existují zákony, které tomu brání. Poskytovatelé finančních služeb, zejména vládních služeb a agentur, musí se mnou provádět analytické analýzy svých datových toků a pokynů, aby se ujistili, že to, co mi poskytují, neopustí břehy. Všechny věci musí zůstat na místě. Musí to udělat v reálném čase. Nemohou porušit zákon a později požádat o odpuštění. Detekce podvodů - je docela zřejmé, že se o transakcích s kreditními kartami dozvíme. Ale protože se typy transakcí, které provádíme ve finančních službách, mění velmi, velmi rychle, existují různé věci, které PayPal dělá hned teď, aby odhalil podvod v reálném čase, kdy se peníze nepohybují z jedné věci na druhou, ale jsou to finanční transakce mezi systémy. Ebay nabízení platforem, odhalování podvodů musí být provedeno v reálném čase v streamovací kanceláři.

Nyní se vyvíjí trend k provádění extrakce a transformace zátěžové aktivity v proudech, takže nechceme zachytit nic, co se do proudu dostane. To opravdu nemůžeme udělat. Lidé se dozvěděli, že data se velmi rychle zlomí, pokud vše zachytíme. Trik nyní spočívá v tom, že v těchto proudech provádíme analytiku a provádíme ETL a jen zachycujeme to, co potřebujete, potenciálně metadata, a pak nasměrujete prediktivní analýzu, kde můžeme skutečně říci, co se bude dít o něco dále dolů po cestách na tom, co Právě jsem viděl ve streamu na základě analýzy, kterou jsme na tom provedli.

Poskytovatelé energie a poskytovatelů služeb zažívají tuto obrovskou touhu spotřebitelů po stanovení ceny poptávky. Možná se rozhodnu, že chci koupit zelenou energii v určitou denní dobu, protože jsem jen doma sám a nepoužívám mnoho zařízení. Ale pokud budu mít večerní párty, možná budu chtít mít všechna svá zařízení zapnutá a nechci kupovat levnou energii a čekat na její doručení, ale ochoten zaplatit za vyšší náklady, aby ji dostal. Toto stanovení cen poptávky, zejména v oblasti veřejných služeb a energetického prostoru, se již stalo. Například Uber je klasický příklad věcí, které můžete dělat každý den, a to vše je ovlivněno stanovováním cen. Existuje několik klasických příkladů, jak v Austrálii dostávají letenky 10 000 dolarů kvůli masivní poptávce na Silvestra. Jsem si jistý, že se tímto problémem zabývali, ale analytické proudy se provádějí v reálném čase, zatímco v autě vám sdělují, kolik bych měl platit.

Internet věcí a proudy senzorů - povrch jsme na to jen poškrábali a skutečně jsme si právě prošli základní konverzaci, ale uvidíme zajímavý posun v tom, jak se s tím technologie vypořádá, protože když nemluvíte jen asi tisíce nebo desítky tisíc, ale stovky tisíc a potenciálně miliardy zařízení streamovaných k vám, téměř žádný technologický zásobník, který máme nyní, není zkonstruován, aby se s tím vypořádal.

Existuje několik opravdu žhavých témat, která uvidíme všude, jako je bezpečnost a počítačové riziko. Jsou to pro nás velmi skutečné výzvy. Na webu je opravdu úhledný nástroj zvaný North, kde můžete na webové stránce sedět a sledovat různé kybernetické útoky v reálném čase. Když se na to podíváte, myslíte si, že „je to hezká roztomilá malá webová stránka“, ale asi po pěti minutách si uvědomíte objem dat, který systém provádí analyticky na všech různých proudech všech různých zařízení po celém světě které jsou do nich přiváděny. Začíná to zamyslet se nad tím, jak to na hraně záznamu v podstatě provádějí, a poskytuje vám tak jednoduchou malou obrazovku, která vám řekne, co nebo na co útočí v reálném čase a jaké typy útoků. Je to však opravdu úhledný způsob, jak získat dobrý vkus o tom, co pro vás může analytika streamů udělat v reálném čase. Stačí jen sledovat tuto stránku a získat pocit jen objemu a výzvy, jak vzít toky, zpracovat analytické dotazy na a reprezentovat to v reálném čase.

Myslím, že rozhovor, který vedu po zbytek zasedání, se z mého pohledu zaměří na všechny tyto věci s jedním zajímavým pohledem, a to je výzva pro kutily, péct si to, vyhovuje některým klasické jednorožce, kteří si mohou dovolit stavět tyto typy věcí. Mají miliardy dolarů na vybudování těchto inženýrských týmů a na vybudování svých datových center. Ale pro 99,9% tamních organizací, které chtějí ve své činnosti využívat analytiku streamů, musí mít k dispozici službu off-the-shelf. Potřebují si koupit produkt po vybalení z krabice a obvykle potřebují poradenské služby a profesionální služby, které jim pomohou s jeho implementací a získají tuto hodnotu zpět v podnikání a prodají ji zpět do podnikání jako pracovní řešení.

S tím se vám vrátím, Rebecco, protože se domnívám, že se nyní chystáme podrobně zabývat.

Rebecca Jozwiak: Vynikající. Mockrát vám děkuji, Dez. To je skvělá prezentace.

Nyní předám míč Robinovi. Vzít to pryč.

Robin Bloor: Dobře. Protože se Dez dostal do nitrého štěrku zpracování toků, zdálo se mi, že nemá smysl, abych ho znovu zakryl. Takže se budu chovat úplně strategicky.Podíváme-li se téměř z velmi vysoké úrovně dolů na to, co se sakra děje, a umísťujeme ji, protože si myslím, že by to mohlo pomoci lidem, zejména nám lidem, kteří nebyli v táboře zpracování ve velké hloubce předtím.

Zpracování toků existuje již dlouhou dobu. Říkali jsme tomu CEP. Před tím existovaly systémy v reálném čase. Původní systémy řízení procesů ve skutečnosti zpracovávaly toky informací - samozřejmě se nic nestalo tak daleko, jak je tomu dnes. Tento obrázek, který vidíte na snímku zde; ve skutečnosti to ukazuje na spoustu věcí, ale ukazuje to nad a za cokoli jiného - skutečnost, že zde existuje spektrum latencí, které se zde objevují v různých barvách. Co se vlastně stalo od vynálezu počítačů nebo komerčních počítačů, které dorazilo právě kolem roku 1960, je to, že se vše rychle a rychle zrychlilo. Kdysi jsme byli schopni záviset na tom, jak to ve skutečnosti vyšlo, pokud se vám líbí ve vlnách, protože tak to vypadá. To ve skutečnosti záleží. Protože to všechno bylo řízeno Mooresovým zákonem a Mooresův zákon by nám dal faktor asi desetkrát vyšší rychlost po dobu asi šesti let. Poté, co jsme se vlastně dostali do roku 2013, se to všechno rozpadlo a najednou jsme začali zrychlovat rychlostí, jakou jsme nikdy nikdy, což je podivně bezprecedentní. Dostali jsme faktor asi deset, pokud jde o zvýšení rychlosti, a proto snížení latence asi každých šest let. Za šest let od roku 2010 máme násobek nejméně tisíc. Tři řády spíše než jeden.

To se děje a proto se zdá, že se průmysl tak či onak pohybuje fantastickou rychlostí - protože je to tak. Právě prochází smyslem této konkrétní grafiky, jsou doby odezvy skutečně mimochodem v algoritmickém měřítku dolů po svislé ose. Reálný čas je rychlost počítače, rychlejší než lidské bytosti. Interaktivní časy jsou oranžové. V okamžiku, kdy komunikujete s počítačem, chcete opravdu desetinu až jednu sekundu latence. Nahoře je transakce, kde ve skutečnosti přemýšlíme o tom, co děláte v počítači, ale pokud to vyjde asi za patnáct sekund, stane se to nesnesitelným. Lidé by na počítač jen nečekali. Všechno bylo provedeno dávkově. Spousta věcí, které byly provedeny v dávce, nyní klesá přímo do transakčního prostoru, přímo do interaktivního prostoru nebo dokonce do prostoru v reálném čase. Zatímco dříve jsme zvlnění s velmi malým množstvím dat mohli udělat něco z toho, nyní můžeme dělat s velmi velkým množstvím dat pomocí nesmírně škálovaného prostředí.

Takže v podstatě všechny tyto skutečnosti jsou skutečně transakcí a interaktivní dobou lidské reakce. Strašně mnoho toho, co se právě teď děje s potoky, je informovat lidi o věcech. Něco z toho jde rychleji a to všechno dobře informuje, takže je čas. Poté si vezmeme licenci, která prostě spadne jako kámen, což umožňuje okamžitou analytiku proveditelnou a mimochodem docela dostupnou. Není to jen rychlost klesla a vrchol se právě zhroutil. Pravděpodobně největší dopad ve všech z nich na všechny různé aplikace, můžete provést všechny tyto prediktivní analýzy. Řeknu ti proč za minutu.

Toto je pouze železářství. Máte paralelní software. Mluvíme v roce 2004. Škálovaná architektura, vícejádrové čipy, zvýšení paměti, konfigurovatelný procesor. SSD nyní jde mnohem rychleji než rotující disk. Docela se můžete rozloučit s rotujícím diskem. SSD jsou také ve více jádrech, takže opět rychleji a rychleji. Brzy se objeví, máme pamětníka od HP. Máme 3D XPoint od Intel a Micron. Slibem těch je, že to všechno stejně zrychlí a zrychlí. Když vlastně přemýšlíte o dvou nových paměťových technologiích, z nichž každá vytvoří celý základní malý kus, jednotlivé desky s obvody jdou rychleji, ještě jsme neviděli konec.

Technologie streamů, která je další, je tu, aby zůstala. Musí existovat nová architektura. Myslím, že Dez se o tom v několika bodech své prezentace zmínil. Po celá desetiletí jsme viděli architekturu jako kombinaci datových haldy a datových trubek. Měli jsme tendenci zpracovávat hromady a měli jsme tendenci spojovat data mezi haldy. Nyní se zásadně posuneme směrem k tomu, čemu říkáme datová architektura Lambda, která kombinuje zpracování datových toků s datovými haldy. Když ve skutečnosti zpracováváte proud událostí přicházejících proti historickým datům jako datový tok nebo datová hromada, myslím tím architekturou Lambda. To je v plenkách. Je to jen část obrázku. Pokud považujete něco tak komplexního, jako je internet všeho, o čemž se zmínil i Dez, uvědomíte si, že existuje celá řada problémů s umístěním dat - rozhodnutí o tom, co byste měli ve streamu zpracovat.

Skutečně říkám, že když jsme zpracovávali v dávce, vlastně jsme zpracovávali toky. Prostě jsme to nemohli udělat jeden po druhém. Jen počkáme, až bude velká hromada věcí, a pak to všechno zpracujeme najednou. Přecházíme do situace, kdy můžeme ve streamu zpracovat věci. Pokud dokážeme zpracovat údaje ve streamu, pak budou datové hromady, které držíme, statickými daty, na která musíme odkazovat, abychom mohli zpracovat data ve streamu.

Tím se dostáváme k této konkrétní věci. Už jsem se o tom zmínil v nějaké prezentaci s biologickou analogií. Způsob, jakým bych chtěl, abys o tom přemýšlel, je v současné době jsme lidské bytosti. Máme tři odlišné sítě pro prediktivní zpracování v reálném čase. Říká se jim somatický, autonomní a enterický. Enterické je žaludek. Autonomní nervový systém se stará o boj a lety. Ve skutečnosti se stará o rychlé reakce na životní prostředí. Somatika, která se stará o pohyb těla. To jsou systémy v reálném čase. Zajímavé na tom - nebo si myslím, že je to trochu zajímavé - je to hodně prediktivní, než byste si kdy dokázali představit. Je to, jako by se vlastně díváte na obrazovku asi 18 palců od obličeje. Vše, co můžete jasně vidět, vše, co vaše tělo dokáže jasně vidět, je ve skutečnosti o obdélníku 8 × 10. Všechno mimo to je ve skutečnosti rozmazané, pokud jde o vaše tělo, ale vaše mysl ve skutečnosti vyplňuje mezery a není rozmazaná. Nevidíte rozmazání vůbec. Vidíte to jasně. Vaše mysl vlastně dělá prediktivní metodu datového proudu, abyste viděli tuto jasnost. Je to něco zvláštního, ale ve skutečnosti se můžete podívat na to, jak nervový systém funguje, a na to, jak se nám podaří obejít a chovat se přiměřeně - alespoň někteří z nás - rozumně zdvořile a nepřetržitě narážet na věci.

Je to všechno provedeno řadou neuronových analytických měřítek uvnitř. Stane se, že organizace budou mít stejný druh věcí a budou si budovat stejný druh věcí a bude to zpracování toků včetně vnitřních toků organizace - věci, které se dějí uvnitř to, co se děje mimo něj, okamžité reakce, které musí být skutečně provedeny, samozřejmě živí člověka, aby se rozhodl, aby se to všechno stalo. To je místo, kam jdeme, pokud vidím.

Jedna z věcí, která je důsledkem toho je, že úroveň aplikace pro streamování jde dobře. Bude tu mnohem víc než teď. Právě teď volíme nízko visící ovoce, které dělá věci, které jsou zřejmé.

Tak to je závěr tady. Analytika streamování je jednou mezerou, ale stává se hlavním proudem a brzy bude obecně přijata.

S tím to předám zpět Rebecce.

Rebecca Jozwiak: Děkuji moc, Robine. Skvělá prezentace jako obvykle.

Anand, jsi nahoře. Podlaha je vaše.

Anand Venugopal: Fantastický. Děkuju.

Jmenuji se Anand Venugopal a jsem vedoucím produktu StreamAnalytix. Je to produkt nabízený společností Impetus Technologies z Los Gatos v Kalifornii.

Společnost Impetus má ve skutečnosti velkou historii v tom, že se stala velkým poskytovatelem datových řešení pro velké podniky. Ve skutečnosti jsme provedli řadu implementací analytických datových proudů jako společnost poskytující služby a naučili jsme se mnoho lekcí. V posledních několika letech jsme se také posunuli k tomu, abychom se v posledních letech stali produktovou společností a společností zaměřenou na řešení a analýza toku dat směřuje k přeměně Impetusu na společnost zaměřenou převážně na produkty. Existují některá kritická, velmi, velmi klíčová aktiva, která Impetus zúčtoval díky naší expozici vůči podnikům, a StreamAnalytix je jedním z nich.

Jsme dvacet let v oboru a existuje velká kombinace produktů a služeb, díky nimž máme obrovskou výhodu. A StreamAnalytix se zrodil ze všech zkušeností získaných z našich prvních pěti nebo šesti implementací streamování.

Dotknu se několika věcí, ale analytici, Dez a Robin, odvedli skvělou práci na pokrytí celého prostoru, takže přeskočím spoustu obsahu, který se překrývá. Pravděpodobně půjdu rychle. Vidíme kromě skutečných případů streamování využívajících hodně spravedlivého zrychlení v dávkách, kde v podnicích existují doslova velmi, velmi důležité dávkové procesy. Jak vidíte, celý tento cyklus snímání událostí a jejich analýzy a jednání s nimi může ve velkých podnicích trvat týdny a všichni se to snaží zmenšit na minuty a někdy i sekundy a milisekundy. Takže cokoli rychlejšího než všechny tyto dávkové procesy jsou kandidáty na obchodní akvizici, a to je dobře řečeno, že hodnota dat dramaticky klesá s jeho věkem, takže čím větší hodnota je v počáteční části v sekundách, tak se to právě stalo. V ideálním případě, pokud byste mohli předvídat, co se stane, je to nejvyšší hodnota. To však záleží na přesnosti. Další nejvyšší hodnota je, když je právě tam, když se to děje, můžete ji analyzovat a reagovat. Hodnota samozřejmě poté dramaticky klesá, hlavní restriktivní BI, ve kterém jsme.

To je zajímavé. Můžete očekávat nějakou dramaticky vědeckou odpověď na otázku, proč streamovat analytiku. V mnoha případech vidíme, že je to proto, že je to nyní možné a protože všichni vědí, že dávka je stará, dávka je nudná a dávka není v pohodě. Je tu dost vzdělání, že všichni teď mají fakt, že je možné streamování a každý teď má Hadoop. Nyní jsou v distribucích Hadoop zabudována technologie streamování, ať už jde o streamování Storm nebo Spark a samozřejmě fronty, jako je Kafka atd.

Podniky, které vidíme, do toho skočily a začaly experimentovat s těmito případy a vidíme dvě široké kategorie. Jeden má co do činění s analýzou zákazníků a zákaznickými zkušenostmi a druhou provozní inteligencí. K některým detailům se dostanu o něco později. Celý zákaznický servis a úhel spokojenosti zákazníků a my v Impetus StreamAnalytix jsme to dokázali mnoha různými způsoby, je to opravdu o skutečném zachycení multikanálového zapojení spotřebitele v reálném čase a poskytnutí velmi, velmi citlivých zkušeností které dnes nejsou běžné. Pokud prohlížíte web, webovou stránku Bank of America a zkoumáte některé produkty a zavoláte pouze na call centrum. Řekli by: „Hej, Joe, vím, že jsi zkoumal některé bankovní produkty, chtěl bys, abych tě vyplnil?“ Neočekáváte to dnes, ale to je ten druh zážitku, který je skutečně možný se streamovací analytikou. V mnoha případech je to obrovský rozdíl, zejména pokud zákazník začal zkoumat způsoby, jak se z vaší smlouvy dostat s vámi tím, že se podívá na ustanovení o předčasném ukončení nebo podmínky předčasného ukončení na vašem webu a poté zavolá a jste schopni přímo se s tím vypořádat, ale pouze nepřímo učinit nabídku o nějakém druhu první propagace, protože systém ví, že tato osoba se dívá na předčasné ukončení a že tuto nabídku učiníte v tomto okamžiku, můžete velmi dobře chránit zákazníka, který ho má, a chránit toto aktivum .

To by byl jeden příklad a spousta zákaznických služeb je velmi dobrým příkladem. Realizujeme dnes snižuje náklady v call centru a poskytuje dramatické potěšení zákazníků. Dez odvedl skvělou práci při shrnutí některých případů použití. Na tento graf se můžete dívat několik minut. Klasifikoval jsem to jako svislé, vodorovné a kombinované oblasti, IoT, mobilní aplikace a call centrum. Všechny jsou svislé a vodorovné. Záleží na tom, jak se na to díváte. Sečteno a podtrženo, vidíme hodně horizontálních použití, která jsou běžná napříč průmyslovými vertikálními sektory, a existují specifické případy vertikálního použití včetně finančních služeb, zdravotnictví, telekomunikací, výroby atd. Pokud se opravdu ptáte sami sebe na otázku nebo si říkáte sami sebe to, „ach, nevím, jaké případy použití existují. Nejsem si jistý, zda existuje skutečně nějaká obchodní hodnota v analytice streamování pro moji společnost nebo pro náš podnik, “přemýšlejte, přemýšlejte dvakrát. Promluvte si s více lidmi, protože existují případy použití, které jsou dnes ve vaší společnosti relevantní. Zjistím, jak přesně je obchodní hodnota odvozena.

Ve spodní části pyramidy máte prediktivní údržbu, zabezpečení, ochranu před odtokem atd. Tyto druhy použití představují ochranu výnosů a majetku. Pokud Target chránil jejich narušení bezpečnosti, ke kterému došlo během hodin a týdnů, mohl CIO zachránit svou práci. Mohlo by to ušetřit desítky nebo stovky milionů dolarů atd. Analytika streamování v reálném čase skutečně pomáhá při ochraně těchto aktiv a ochraně ztrát. To je přímá obchodní přidaná hodnota.

Další kategorie se stává ziskovější, snižuje vaše náklady a získává více příjmů ze současného provozu. To je efektivita současného podniku. To jsou všechny kategorie případů použití, které nazýváme operační inteligenci v reálném čase, kde získáváte hlubší přehled o tom, jak se síť chová, jak se chová vaše zákaznická operace, jak se chová váš obchodní proces, a můžete vyladit to vše v reálném čase, protože získáte zpětnou vazbu, dostanete upozornění. Získáte odchylky, odchylky v reálném čase a můžete rychle jednat a oddělit proces, který jde mimo hranice.

Mohli byste také ušetřit spoustu peněz při drahých upgradech kapitálu a věcech, které považujete za nezbytné, které nemusí být nutné, pokud jste optimalizovali síťové služby. Slyšeli jsme o případu, kdy hlavní telco odložilo upgrade ve své síťové infrastruktuře o 40 milionů dolarů, protože zjistilo, že má dostatečnou kapacitu pro řízení svého současného provozu, což je optimalizací a lepším provedením inteligentního směrování jejich provozu a podobných věcí. To vše je možné pouze pomocí analytických a akčních mechanismů v reálném čase, které na tyto poznatky v reálném čase působí.

Další úrovní přidané hodnoty je up-sell, cross-sell, kde existují příležitosti, jak vydělat více výnosů a zisků ze stávajících nabídek. Toto je klasický příklad, o kterém mnozí z nás vědí, kde prožili, o čem přemýšlíte ve svém životě, kde jste ochotni dnes koupit produkt, který vám není nabízen. V mnoha případech se to skutečně děje. Máte na mysli věci, které chcete koupit, abyste věděli, že chcete koupit, že máte seznam úkolů nebo něco, co vám řekla vaše žena, nebo pokud nemáte manželku, ale opravdu jste chtěli koupit a jdete nakupovat na webových stránkách nebo komunikujete v maloobchodě, výkladní skříň prostě nemá kužel, nemá inteligenci pro výpočet toho, co byste mohli potřebovat. Z tohoto důvodu nedostanou své podnikání v bezpečí. Pokud by mohla být nasazena analytika streamování, aby bylo možné přesně předpovídat a která je skutečně možná na tom, co by se nejlépe hodilo této konkrétní situaci, tento zákazník v této době na tomto místě existuje spousta up-sell a cross-sell a to opět vychází z streaming analytics - schopnost rozhodnout se o tom, co tento zákazník pravděpodobně koupí nebo odpoví na tento okamžik pravdy, když je příležitost. Proto se mi líbí ten obrázek, který Dez ukázal s medvědem, který se právě chystal jíst tu rybu. To je do značné míry.

Také si myslíme, že existuje velká kategorie dramatických transformačních změn v podniku nabízejících zcela nové produkty a služby jednoduše založené na pozorování chování zákazníků, vše založené na pozorování chování jiného podniku. Pokud řekněme, že telco nebo kabelová společnost skutečně sleduje zvyklosti zákazníků v tom, v jakém segmentu trhu se dívá, jaký program v jakém čase atd., Nakonec skončí vytvářením produktů a služeb, které jsou téměř proseny nějakým způsobem. Celý koncept chování na více obrazovkách právě teď, kde nyní téměř považujeme za samozřejmé, že v našich mobilních aplikacích vidíme televizní nebo kabelový obsah. Některé z těchto příkladů pocházejí z těch nových produktů a služeb, které jsou nabízeny.

Budu se zabývat: „Jaké jsou architektonické úvahy o streamování analytiků?“ Nakonec se to snažíme. Toto je architektura Lambda, kde mísíte historická data a statistiky v reálném čase a zároveň je vidíte. To umožňuje Sigma. Všichni dnes máme dávkovou architekturu a obrázek podniku. Shlukujeme se na nějaký druh zásobníku BI a zásobníku využití a přidala se architektura Lambda. Protože rychlostní vrstva nebo potřeba a Lambda je o sloučení těchto dvou poznatků a vidění, že kombinovaným způsobem, bohatým způsobem, který kombinuje oba postřehy.

Existuje další paradigma nazývaná architektura Kappa, která se navrhuje tam, kde se předpokládá, že rychlostní vrstva je jediným vstupním mechanismem, který bude v dlouhodobém horizontu přetrvávat. Všechno prochází touto vrstvou rychlosti. Neexistuje ani mechanismus offline ETL. Všechno ETL se stane. Čištění, čištění dat, kvalita ETL - to vše se stane na drátu, protože mějte na paměti, že všechna data se narodila v reálném čase. V určitém okamžiku to byl reálný čas. Zvykli jsme si to nasadit na jezírka, na řeky a oceány, poté to provedli na statické analýze, že jsme zapomněli, že se data v určitém okamžiku v reálném čase narodila.Všechna data se vlastně rodí jako událost v reálném čase, která se stala v čase, a většina dat dnes na jezeře právě dostala do databáze pro pozdější analýzu a nyní máme výhodu v architektuře Lambda a Kappa vidět, analyzovat, předzpracovat a reagovat na to, jakmile dorazí. To je umožněno těmito technologiemi. Když se na to díváte jako na celkový obrázek, vypadá to jako něco podobného, ​​kde je uvnitř Hadoop, MPP a datové sklady, které již máte.

Uvedli jsme to, protože je důležité nejen mluvit o nových technologiích na ostrově. Musí se integrovat. Musí mít smysl v současném stavu podniku a jako poskytovatelé řešení, kteří slouží podnikům, jsme na to velmi citliví. Pomáháme podnikům takovou integraci celé věci. Na levé straně jsou zdroje dat, které se přivádějí do vrstev Hadoop a datového skladu i do vrstvy v reálném čase nahoře a každý z těchto entit je skladový počítač, jak můžete vidět, a vrstva pro spotřebu dat je napravo strana, boční. Existuje neustálé úsilí o přesun většiny dodržování předpisů, správy, bezpečnosti, správy životního cyklu atd., Které jsou dnes k dispozici, se do této nové technologie nahromadily.

Jedna z věcí, kterou se analytika streamů snaží udělat, pokud se dnes podíváte na krajinu, se v technologickém prostředí streamování děje spousta věcí a z pohledu podnikového zákazníka je toho tolik, čemu je třeba porozumět. Je toho tolik, co držet krok. Na levé straně jsou mechanismy sběru dat - NiFi, Logstash, Flume, Sqoop. Zjevně jsem uvedl prohlášení, že není vyčerpávající. Přichází do front a poté přichází do open-source streamingových motorů - Storm, Spark Streaming, Samza, Flink, Apex, Heron. Volavka pravděpodobně ještě není otevřeným zdrojem. Nejsem si jistý, zda je, od. Tyto streamingové motory pak vedou do nebo podporují komponentu analytické aplikace nastavení, jako je komplexní zpracování událostí, strojové učení, prediktivní analytika, výstražný modul, streamování ETL, filtry statistických operací obohacení. To jsou to, čemu nyní říkáme operátoři. Soubor těchto operátorů, když jsou spojeni dohromady, by případně také nějakým zvykem do značné míry uzavřel, pokud je to nutné, se stane aplikací pro streamování, která běží na motoru pro streamování.

V rámci tohoto řetězce součástí musíte také ukládat a indexovat data do své oblíbené databáze, do svého oblíbeného indexu. Možná budete muset distribuovat mezipaměť a znovu, která vede do vrstvy vizualizace dat na pravé straně v horní části, do komerčních produktů nebo produktů s otevřeným zdrojovým kódem, ale nakonec budete potřebovat nějaký druh produktu pro vizualizaci těchto dat v reálném čase. Také je třeba občas přijít na jiné aplikace. Všichni jsme viděli, že hodnoty odvozené pouze z akce, kterou provedete na základě náhledu, tato akce bude spouští z analytického zásobníku do jiného aplikačního zásobníku, který se možná změnil, to je něco na straně IVR nebo spouští call centrum odchozí hovor nebo něco takového. Potřebujeme, aby tyto systémy byly integrovány a nějaký mechanismus pro váš streamovací klastr, aby spustil jiné aplikace datových toků po proudu.

To je celkový stack od přechodu zleva doprava. Pak máte servisní vrstvy, střední monitoring, bezpečnostní obecnou servisní vrstvu atd. Co se týče produktů, které jsou v podnikovém prostoru, které zákazníci vidí, jako jsou distribuce Hadoop, které mají všechny streamování, jak jsem řekl, a je komerční nebo singl - řešení pro dodavatele, která jsou zjevně u našich konkurentů. V krajině je také mnohem více, o kterých jsme se možná ani nezmínili.

To, co vidíte, je obecně vidět podnikový uživatel. Jak vidíte, složité a rychle se vyvíjející technologické prostředí pro zpracování proudu. Musíme zjednodušit výběr a jejich uživatelské prostředí. Domníváme se, že podniky skutečně potřebují, je funkční abstrakce toho všeho v jednom kontaktním místě, snadno použitelném rozhraní, které spojuje všechny ty technologie, díky nimž je použití opravdu jednoduché a nevystavuje všechny pohyblivé části. a problémy s degradací a problémy s výkonem a problémy s údržbou životního cyklu podniku.

Abstrakce funkčnosti je jedna. Druhou částí je abstrakce streamovacího motoru. Streamovací stroje a domény s otevřeným zdrojovým kódem se nyní objevují jednou za tři, čtyři nebo šest měsíců. Byla to Storm po dlouhou dobu. Samza přišel a teď je to Spark Streaming. Flink zvedá hlavu a začíná upoutat pozornost. Dokonce i plán Spark Streaming dělají cestu pro potenciální použití jiného motoru pro zpracování čistých událostí, protože si také uvědomují, že Spark byl navržen pro šarže a dělají cestu ve své vizi architektury a jejich plánu pro potenciální použití jiného motor pro zpracování proudu navíc k aktuálnímu vzoru mikrobatch ve Spark Streamingu.

Je to realita, s níž musíte bojovat, že bude hodně evoluce. Opravdu se musíte chránit před tímto technologickým tokem. Protože ve výchozím nastavení budete muset vybrat jeden a pak s ním žít, což není optimální. Pokud se na to díváte jiným způsobem, bojujete mezi: „Dobrá, musím si koupit proprietární platformu, kde není uzamčení, neexistuje pákový efekt z otevřeného zdroje, může být velmi vysoká a omezená. flexibilita versus všechny tyto open source stacky, kde jste to museli udělat sami. “Opět, jak jsem řekl, je to hodně nákladů a zpoždění při vstupu na trh. Říkáme, že StreamAnalytix je jedním z příkladů skvělé platformy, která sdružuje podnikovou třídu, spolehlivý, jediný dodavatel, podporovanou profesionální službu - to vše, co opravdu potřebujete jako podnik, a sílu flexibility ekosystému open source. kde je spojuje jediná platforma - Ingest, CEP, analytika, vizualizace a to vše.

To také dělá velmi, velmi jedinečnou věc, která sdružuje mnoho různých technologických motorů pod jedním uživatelským zážitkem. Opravdu si myslíme, že budoucnost je o tom, že budeme moci používat více streamovacích strojů, protože různé případy použití skutečně vyžadují různé architektury streamování. Jak řekl Robin, existuje celá škála latencí. Pokud opravdu mluvíte o milisekundové latenci, desítkách nebo dokonce stovkách milisekund, v tuto chvíli potřebujete Storm, dokud nebude existovat další stejně zralý produkt pro kratší a méně shovívavý časový rámec a latence možná za pár sekund, tři, čtyři, pět sekund, tento rozsah, pak můžete použít Spark Streaming. Potenciálně existují i ​​další motory, které by dokázaly udělat oba. Sečteno a podtrženo, ve velkém podniku budou případy použití všeho druhu. Opravdu chcete, aby měl přístup a obecnost více motorů s jedním uživatelským dojmem, a to se snažíme postavit ve StreamAnalytix.

Jen rychlý pohled na architekturu. Trochu to přepracujeme, ale v podstatě na levé straně přichází více zdrojů dat - Kafka, RabbitMQ, Kinesis, ActiveMQ, všechny tyto zdroje dat a fronty přicházející na platformu zpracování streamů, kde sestavte aplikaci, kde můžete přetahovat od operátorů, jako jsou ETL, vše, o čem jsme mluvili. Pod ním je několik motorů. Právě teď máme Storm a Spark Streaming jako průmyslovou jedinou a první podnikovou streamovací platformu, která má podporu více motorů. Jedná se o velmi jedinečnou flexibilitu, kterou nabízíme kromě veškeré další flexibility, kterou mají řídicí panely v reálném čase. Vestavěný motor CET. Máme bezproblémovou integraci s indexy Hadoop a NoSQL, indexy Solr a Apache. Můžete přistát do své oblíbené databáze bez ohledu na to, co to je a vytvářet aplikace opravdu rychle a dostat se na trh opravdu rychle a zůstat v budoucnosti důkazem. To je naše celá mantra ve StreamAnalytix.

S tím si myslím, že dokončím své poznámky. Neváhejte a přijďte k nám pro více otázek. Chtěl bych nechat prostor otevřený pro otázky a odpovědi a panelovou diskusi.

Rebecca, k tobě.

Rebecca Jozwiak: Skvělé, dobře. Děkuji mnohokrát. Dez a Robin, máte nějaké otázky, než to předáme divákům Q&A?

Robin Bloor: Mám otázku. Nasadím si sluchátka, abys mě slyšel. Jedna ze zajímavých věcí, pokud byste mi to laskavě řekli, hodně z toho, co jsem viděl v open source prostoru, vypadá, co bych řekl nezralé. V jistém smyslu ano můžete dělat různé věci. Ale vypadá to, že se díváme na software v jeho prvním nebo druhém vydání ve skutečnosti a já jsem se právě zajímal o vaše zkušenosti jako organizace, jak moc vnímáte nezralost prostředí Hadoop jako problematické, nebo je to něco, co nevypadá? nevytváří příliš mnoho problémů?

Anand Venugopal: Je to realita, Robine. Máš naprostou pravdu. Nezralost není nutně jen v oblasti funkční stability a věcí, ale možná i v některých případech. Ale nezralost je spíše v připravenosti na použití. Produkty s otevřeným zdrojovým kódem, jak vyjdou, a dokonce i když jsou nabízeny distribucí Hadoop, jsou to všechny různé schopné produkty, komponenty jen plácly dohromady. Nefungují spolu hladce a nejsou navrženy tak, aby poskytovaly hladký a plynulý uživatelský zážitek, jako by byly Bank of America nebo Verizon nebo AT&T, aby mohly během několika týdnů nasadit analytickou aplikaci pro streamování. Určitě na to nejsou určeny. To je důvod, proč jsme přišli. Sjednocujeme to a je opravdu snadné pochopit, nasadit atd.

Myslím si, že je do značné míry funkční vyspělost. Mnoho velkých podniků dnes používá například Storm. Spark Streaming dnes hraje mnoho velkých podniků. Každý z těchto motorů má svá omezení v tom, co mohou dělat, proto je důležité vědět, co můžete a co nemůžete s každým motorem udělat, a nemá smysl zlomit hlavu proti zdi a říkat: „Podívej se vybral Spark Streaming a v tomto konkrétním odvětví to pro mě nefunguje. “To nebude fungovat. Existují případy použití, kdy Spark Streaming bude nejlepší volbou, a budou případy, kdy Spark Streaming nemusí fungovat vůbec. Proto opravdu potřebujete více možností.

Robin Bloor: Pro většinu z toho musíte mít expertní týmy. Myslím, že ani nevím, kde začít. Rozumná spolupráce kvalifikovaných jednotlivců. Zajímá mě, jak se angažujete a jak k tomu dochází. Je to proto, že konkrétní společnost je po konkrétní aplikaci nebo vidíte něco, čemu bych říkal strategické přijetí, pokud chtějí, aby celá platforma dělala spoustu věcí.

Anand Venugopal: Vidíme příklady obou, Robine. Některé z deseti největších značek, o nichž všichni vědí, se o nich chystají velmi strategickým způsobem. Vědí, že budou mít různé případy použití, takže vyhodnocují platformy, které budou vyhovovat této potřebě, což je řada různých případů použití ve více nájemcích, které mají být nasazeny v podniku. Začínají se také případy jednorázového použití. V hypoteční společnosti existuje konkrétní případ monitorování typu obchodní činnosti, na kterém pracujeme, na kterém byste si nepředstavovali první případ, ale to je obchodní řešení nebo případ použití, ke kterému přišli, a poté jsme spojili tečky s datovým proudem . Řekli jsme: „Víte co? To je skvělý případ pro streamování analytiků a takto je můžeme implementovat. “Takto to začalo. Poté se v tomto procesu vzdělávají a říkají: „Ach, wow, pokud to dokážeme a pokud se jedná o obecnou platformu, můžeme aplikaci oddělit, rozložit je na platformu a na tomto stavět mnoho různých aplikací. plošina."

Robin Bloor: Dez, máš nějaké otázky?

Anand Venugopal: Dez je pravděpodobně ztlumený.

Dez Blanchfield: Omlouvám se, mute. Sám jsem měl dobrý rozhovor. Jen následujete původní pozorování Robina, máte naprostou pravdu. Domnívám se, že výzvou nyní je, že podniky mají ekosystém a kulturní a behaviorální prostředí, kde je svobodný a open-source software něčím, co je jim známo, a jsou schopny používat nástroje jako Firefox jako prohlížeč a měly slušný celý život, dokud se nestane stabilním a bezpečným. Ale některé z těch velmi velkých platforem, které používají, jsou podnikové proprietární platformy. Takže přijetí toho, co považuji za open-source platformy, není vždy něco, co je pro ně snadné kulturně nebo emocionálně překonat. Viděl jsem to jen při přijímání malých programů, které byly místními projekty, které se hrály pouze s velkými daty a analytikou jako základním konceptem. Myslím, že jednou z klíčových výzev, jsem si jistý, že jste je nyní viděli napříč organizacemi, je jejich touha dosáhnout výsledku, ale zároveň mít jednu nohu zaseknutou ve staré plechovce, kde si ji mohli koupit pouze od „Vložte velkou značku“ Oracle, IBM a Microsoft. Tyto nové a známé značky přicházejí s platformami Hadoop a ještě více. Prochází více vzrušujících značek, které mají špičkovou technologii, jako je stream.

Jaké jsou různé konverzace, které jste tímto způsobem dosáhli nebo prořízli? Vím, že dnes ráno máme velkou účast a jedna věc, o které jsem si jist, že je v mysli každého, je: „Jak mohu proříznout celou tuto náročnou vrstvu od desky po úroveň řízení, oh příliš otevřený zdroj a příliš krvácející okraj? „Jak probíhají rozhovory s klienty a jak se protínáte do té míry, že tyto obavy obáváte, abyste zvážili přijetí podobných StreamAnalytix?

Anand Venugopal: Ve skutečnosti je pro nás poměrně snadné prodat naši hodnotovou nabídku, protože zákazníci se přirozeně pohybují směrem k open source jako preferovaná možnost. Nejen se snadno vzdávají a říkají: „Dobrá, teď půjdu na open source.“ Ve skutečnosti prochází velmi odhodlaným hodnocením významného produktu, řekněme, že se jedná o IBM nebo typický produkt, protože mají tyto vztahy s dodavateli. Nedokázali by s námi nebo s otevřeným zdrojovým kódem zacházet s tímto produktem. Projdou šest až osm až dvanáct týdnů hodnocení. Přesvědčí se o tom, že je tu určitý stupeň výkonu a stability, který chci, a pak si vymyslí názor a řeknou: „Páni, víš co, ve skutečnosti to můžu udělat.“

Dnes máme například hlavní telekomunikační úroveň první úrovně, která má na vrcholu hromady analytiku běžící ve výrobě a hodnotí to proti jinému velmi, velmi velkému známému prodejci a byli přesvědčeni až poté, co jsme dokázali vše výkon, stabilita a všechny tyto věci. Nepovažují to za samozřejmost. Zjistili, že open source je prostřednictvím svých hodnocení kompetentní a uvědomují si, že v nejhorším případě: „Možná existují dva případy použití, které možná nemůžu udělat, ale většina případů mého zrychlení podnikání v dnešní době je u open-source naprosto možné hromadu. “A umožňujeme jeho použití. Tady je to velké sladké místo. Chtěli otevřený zdroj. Opravdu se snaží dostat ven ze zamknuté situace dodavatele, na kterou byli zvyklí mnoho let. Pak přijdeme a řekneme: „Víš co, uděláme z open source mnohem, mnohem jednodušší a přátelštější použití pro vás.“

Dez Blanchfield: Myslím si, že další výzva, kterou podniky nacházejí, je, když přinášejí tradiční zavedené podniky, které jsou často generací za některými krvácejícími hranami vzrušujících věcí, o nichž zde hovoříme, a to nemyslím negativně. Je to tak, že realitou je, že mají generaci a cestu, kterou vydají, aby uvolnili to, co považují za stabilní platformy, cykly vývoje a integrace UATN a testy a dokumentaci a marketing a prodej. Zatímco u typu, který děláte, myslím, že věc, o kterou se zajímám, je, že když se podíváte na některá z vašich nejnovějších vydání včera v noci, věnujete se nějaké výzkumné práci, máte tento mix nyní, kompetence z pohledu prvotního poradenství a implementace, ale také jste dostali hromadu, do které se můžete zapojit. Myslím, že právě tady se stávající subjekty budou nějakou dobu potýkat. Viděli jsme mnoho z nich, jako jsem to udělal na trhu. Často se vyskytují v tom, čemu říkám doháněcí uzly, zatímco z toho, co nám říkáte, když jste tam venku, když jste dělali ty konverzace a že jste tam prováděli.

Můžete nám uvést několik příkladů některých vertikálů, které jste viděli při adopci? Například existuje opravdu zvláštní prostředí, jako je věda o raketách, umísťování satelitů do vesmíru a shromažďování dat z Marsu. Na planetě to dělá jen hrstka lidí. Existují však velké vertikální oblasti, jako je například zdraví, v letectví, lodní dopravě a logistice, ve výrobě a strojírenství, což je několik příkladů větších a širších průmyslových odvětví, které jste byli tak daleko, že jste viděli opravdu dobře adopce v?

Anand Venugopal: Telco je velkým příkladem.

Jen si zde rychle upravím své snímky. Vidíte snímek zde, případová studie 4?

Toto je případ velkých telco přijímajících dat set-top boxů a dělá s nimi více věcí. Hledají, co zákazníci skutečně dělají v reálném čase. Hledají, kde se v set-top boxech dějí chyby v reálném čase. Pokoušejí se informovat call centrum, pokud tento zákazník právě teď volá, informace o kódovém odkazu z set-top boxu tohoto zákazníka, informace o údržbovém lístku rychle korelují, zda tento set-top box tohoto konkrétního zákazníka má problém, nebo dokonce ani předtím zákazník mluví slovo. Každá kabelová společnost, každé hlavní telco se to snaží. Požívají data set-top boxu, provádějí analýzy v reálném čase, provádějí analýzy kampaní, aby mohli umisťovat své reklamy. Existuje obrovský případ použití.

Jak jsem řekl, je tu tato hypoteční společnost, která je opět obecným vzorcem, ve kterém jsou do zpracování dat zapojeny velké systémy. Data, která protékají systémem A do systému B do systému C, a to jsou regulované podniky, které musí být v souladu.Často se systémy vzájemně synchronizují, jeden systém říká: „Zpracovávám sto půjček v celkové hodnotě 10 milionů dolarů.“ Systém říká: „Ne, zpracovávám 110 půjček jiných jiné číslo. “Musí to vyřešit opravdu rychle, protože ve skutečnosti zpracovávají stejná data a provádějí různé interpretace.

Ať už se jedná o kreditní kartu, zpracování úvěru, obchodní proces, nebo jde o hypoteční obchodní proces nebo něco jiného, ​​pomáháme jim provádět korelaci a usmíření v reálném čase, abychom zajistili, že tyto obchodní procesy zůstanou synchronizované. To je další zajímavý případ použití. Tam je hlavní americký vládní dodavatel, který se dívá na DNS provoz dělat anomálie detekce. Je zde offline tréninkový model, který postavili a dělají hodnocení na základě tohoto modelu v reálném čase. Některé z těchto zajímavých případů použití. Existuje velká letecká společnost, která se dívá na bezpečnostní fronty a snaží se vám poskytnout ty informace, že: „Hele, je to vaše brána pro vaše letadlo pro váš let. Fronta TSA je dnes asi 45 minut versus dvě hodiny versus něco jiného. “Tuto aktualizaci dostanete předem. Stále na tom pracují. Zajímavý případ použití internetu věcí, ale skvělý případ streamovací analýzy směřující ke spokojenosti zákazníků.

Rebecca Jozwiak: Toto je Rebecca. I když se zabýváte případy použití, existuje velká otázka od posluchače, který se ptá: „Jsou tyto případové studie, jsou tyto iniciativy řízeny analytickými stránkami domu z informačních systémů, nebo jsou více odváděny? podnik, který má na mysli konkrétní otázky nebo potřeby? “

Anand Venugopal: Myslím, že vidíme zhruba 60 procent, 50 až 55 procent, z velké části velmi proaktivní, nadšené technologické iniciativy, které náhodou znají, které jsou docela důvtipné a rozumějí určitým obchodním požadavkům a pravděpodobně mají jednoho sponzora, kterého identifikovali, ale ty jsou technologické týmy připravující se na nápor případů obchodního využití, které přicházejí, a jakmile si vybudují schopnost, vědí, že to dokážou a pak jdou do podnikání a agresivně to prodávají. Ve 30 až 40 procentech případů vidíme, že podnikání již má zvláštní případ použití, který prosí o analytickou funkci streamování.

Rebecca Jozwiak: To dává smysl. Mám další trochu více technickou otázku od publika. Přemýšlí, jestli tyto systémy podporují jak strukturované, tak nestrukturované datové toky, jako jsou sedimenty toků nebo příspěvků v reálném čase, nebo je třeba je nejprve filtrovat?

Anand Venugopal: Produkty a technologie, o kterých mluvíme, velmi bezprostředně podporují strukturovaná i nestrukturovaná data. Lze je konfigurovat. Všechna data mají nějakou strukturu, ať už jde o XML, nebo o něco. Existuje určitá struktura, pokud jde o časovou známku. Možná existuje další blob, který je třeba analyzovat, takže můžete do proudu vložit analýzy, abyste analyzovali datové struktury. Je-li strukturovaná, řekneme systému: „Dobrá, pokud existují hodnoty oddělené čárkami a první je řetězec, druhý je datum.“ Takže můžeme vložit tuto rozborovou inteligenci do vrstev na obrazovce a snadno zpracovávat strukturovaná i nestrukturovaná data.

Rebecca Jozwiak: Od publika mám další otázku. Vím, že jsme běhali trochu za hodinu. Tento účastník chce vědět, zdá se, že aplikace pro streamování v reálném čase mohou vyvíjet jak potřebu, tak příležitost pro integraci zpět do transakčních systémů, například systémů pro prevenci podvodů. V takovém případě musí být transakční systémy vyladěny tak, aby se do toho vešly?

Anand Venugopal: Je to sloučení, že? Je to sloučení transakčních systémů. Někdy se stanou zdrojem dat, kde analyzujeme transakce v reálném čase a v mnoha případech, když řekněme, že existuje aplikační tok a zde se snažím ukázat web pro vyhledávání statických dat a pak v našem případě, kde je nějaký druh streamování a hledáte statickou databázi, jako je HBase nebo RDBMS, která společně obohacuje streamovaná data a statická data, abyste se mohli rozhodnout nebo analyticky prozkoumat.

Je tu další velký průmyslový trend, který také vidíme - konvergence OLAP a OLTP - a proto máte databáze jako Kudu a databáze v paměti podporující transakce i analytické zpracování současně. Vrstva zpracování toku by byla zcela v paměti a my se podíváme na některé z těchto transakčních databází nebo se s nimi propojíme.

Rebecca Jozwiak: Smíšené pracovní zatížení je podle mě jednou z posledních překážek. Dez, Robine, máš ještě nějaké otázky?

Dez Blanchfield: Pokud vám to nevadí, skočím na poslední otázku. První výzva, kterou organizace, se kterými jsem se potýkal posledních deset let, vedla k této vzrušující výzvě analytiky proudu, první věc, kterou mají tendenci dát zpět na stůl, když jsme zahájili konverzaci kolem celé této výzvy, je to, kde dostaneme sadu dovedností? Jak přeškolíme sadu dovedností a jak získáme tuto schopnost interně? S Impetus přichází a ruka nás drží na cestě a pak implementovat jako velký první krok, a to dává hodně smysl dělat.

Ale pro střední až velké organizace, jaké jsou věci, které v tuto chvíli vidíte, aby se na to připravily, aby si tuto schopnost vybudovaly interně, aby získaly cokoli z pouhého základního slovníku a jaký druh mohou dělat s organizace kolem přechodu na tento druh rámce a přeškolení stávajícího technického personálu z oblasti IT od generálního ředitele, aby jej mohli sami spustit, jakmile jej vytvoříte a implementujete? Jen velmi stručně, jaké výzvy a jak je řeší, zákazníky, s nimiž se potýkáte, typy výzev, které našli, a jak procházejí řešením těchto rekvalifikací a získávání zkušeností a znalostí, aby se na to připravili a byli schopen operačně chodit?

Anand Venugopal: Malá skupina lidí, kteří se snaží jít ven a koupit si streamingovou analytickou platformu, je často již rozumně inteligentní v tom, že jsou si vědomi Hadoopu, již získali své znalosti Hadoop MapReduce a protože úzce spolupracují s prodejcem distribuce Hadoop, buď jsou obeznámeni. Všechno dostává například Kafku. S tím něco dělají a streamování Storm nebo Spark je v jejich open-source doméně. Lidé to určitě znají nebo si kolem něj budují dovednosti. Ale začíná to malou skupinou lidí, kteří jsou dostatečně kvalifikovaní a dost chytří. Účastní se konferencí. Učí se, že kladou inteligentní otázky prodejcům a v některých případech se u nich učí. Protože prodejci přicházejí a prezentují se na prvním setkání, nemusí to vědět, ale spolu čtou a pak si s tím začnou hrát.

Tato malá skupina lidí je jádrem a pak se začíná rozšiřovat a všichni si nyní uvědomují, že první případ použití v podnikání je uveden do provozu. Začne vlna a my jsme viděli minulý týden na summitu Spark, kde tam byl velký podnik jako Capital One a byl v plné síle. Zvolili Spark. Mluvili o tom. Vzdělávají mnoho svých lidí ve Sparku, protože k tomu přispívají i v mnoha případech jako uživatel. To samé vidíme u mnoha, mnoha velkých podniků. Začíná několika malými řadami velmi inteligentních lidí a poté začíná vlnou celkového vzdělávání a lidé vědí, že jakmile je vyšší viceprezident nebo jednou vyšší režisér v souladu a chtějí na tuto věc vsadit a slovo se obejde a všichni začnou tyto dovednosti nabírat.

Dez Blanchfield: Určitě máte fantastický čas na budování těchto šampionů.

Anand Venugopal: Ano. Děláme spoustu vzdělávání, když pracujeme s počátečními šampióny a pořádáme školicí kurzy a mnoho, mnoho pro naše velké zákazníky jsme se vrátili a měli vlny a vlny školení, abychom přivedli mnoho uživatelů do běžné fáze používání, zejména na webu Hadoop MapReduce. Zjistili jsme, že ve velké společnosti vydávající kreditní karty, která je zákazníkem naší, jsme dodali alespoň možná pět až osm různých vzdělávacích programů. Máme také bezplatné komunitní edice všech těchto produktů, včetně našich, karantén, které si lidé mohou stáhnout, zvyknout si a vzdělávat se tímto způsobem.

Dez Blanchfield: To je pro tebe dnes ráno. Děkuji mnohokrát. Považuji za neuvěřitelně zajímavé vidět typy modelů a případy použití, které pro nás dnes máte. Děkuju.

Anand Venugopal: Skvělý. Děkuji moc lidem.

Rebecca Jozwiak: Děkujeme všem, že jste se k nám připojili v tomto webcastu Hot Technologies. Bylo fascinující slyšet od Dez Blanchfielda, Dr. Robina Bloora a od Impetus Technologies, Ananda Venugopala. Děkuji přednášejícím. Děkuji řečníkům a děkuji publiku. Příští měsíc máme další Hot Technologies, takže to hledejte. Náš obsah můžete vždy najít archivovaný na Insideanalysis.com. Na SlideShare jsme také vložili spoustu obsahu a také několik zajímavých bitů na YouTube.

To jsou všichni lidé. Ještě jednou díky a přeji hezký den. Ahoj.