Když SQL není dost: Ovládá masivní nová datová centra

Obsah

Souborový systém Google: Velká případová studie
Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života
Pohled na základní technologii
Jak to dosahují jiné velké systémy?
Údržba DFS

Odnést:

Vývojáři a inženýři musí neustále pracovat na zrychlení a zdokonalení služeb na platformách, které výrazně překročily jejich klasické archetypy z 90. let.

Vzhledem k tomu, že všechna obrovská bzučení o obrovských datových centrech NSA, která drží gaziliony datových bitů o našem soukromém životě, je jedna věc, o které se mnoho nemluvilo, alespoň na CNN. Jedná se o technický problém, který se objevil spolu s cloudovou technologií, velkými daty a působivými středisky pro ukládání fyzických dat, která se nyní staví po celém světě. Tak co to je? No, bez ohledu na to, kdo spravuje jeden z mamutích IT systémů, které provozují tato zařízení, existuje potřeba softwarových systémů, které pomohou všem těmto datům rychle vstoupit a vystoupit z potrubí. Tato potřeba představuje jednu z nejzajímavějších IT otázek nebo hádanek, kterým dnes čelí profesionálové.

Jak mnozí odborníci poukazují, dnešní extrémní poptávka po zpracování dat přesahuje tradiční přístupy. Jednoduše řečeno, použití jednoduchých databázových struktur a nástrojů, jako je rozhraní dotazů SQL, nebude poskytovat dostatečný výpočetní výkon nebo funkčnost pro podobné systémy, které se vyvinuly v posledních několika letech. Archivy dnešních velkých technologických společností potřebují extrémně škálovatelnou technologii. Potřebují nástroje pro zpracování dat, které mohou vstupovat a vystupovat, což vede k mnohem většímu objemu, než jaký může jediný server usnadnit. Potřebují řešení, která lze rychle vylepšit pro růst, řešení, která zahrnují komplexní úroveň umělé inteligence, řešení, která jsou navržena pro snadnou správu prostřednictvím IT oddělení.

Otázkou je, jak si společnosti a vládní agentury podmaní omezení tradiční cesty zpracování dat? Zde se podívejme na jednu velmi slibnou možnost: Software, který zpracovává velká data a spravuje více datových center.

Souborový systém Google: Velká případová studie

Patentovaná technologie, kterou Google používá pro přístup k datovým centrům, je jedním z nejlepších příkladů běžných modelů pro zpracování velkých dat a správu více datových center. Souborový systém Google (GFS), vyvinutý v roce 2003, je navržen tak, aby podporoval obrovský objem vysokorychlostních změn datových systémů, které jsou součástí získávání tolika nových informací na a z jedné platformy, jak miliony uživatelů kliknou na stejný čas. Odborníci to označují jako distribuovaný souborový systém a k popisu těchto velmi složitých technik používají termín „ukládání datových objektů“. Ve skutečnosti však tyto pojmy ani nepoškrábají povrch, pokud jde o popis toho, co je v práci.

Jednotlivé prvky a komponenty, které tvoří systém, jako je GFS, již nemusí být průlomové, ale jsou složité. Mnoho z nich bylo na tomto webu pokryto jako relativně nové inovace, které jsou součástí základů pro nový, vždy zapnutý, vždy propojený globální IT systém. Souhrnně je systém jako GFS mnohem víc než jen součet jeho částí: je to do značné míry neviditelná, ale nesmírně složitá síť, která se hemží jednotlivými datovými částkami, které jsou takto hozeny, a že v procesu, který by, pokud je vizuálně plně modelován, vypadal jako chaos. Pochopení toho, kam se všechna data chystají, vyžaduje hodně energie a odhodlání, protože ti, kdo obsluhují bitevní stanice těchto systémů, to snadno připustí.

„Je příliš mnoho podrobností, které mají hluboký dopad na oblasti použitelnosti - včetně externí a interní fragmentace, aktualizací založených na logu na místě a úrovně konzistence transakcí - abych to shrnul tak, jak to funguje v jedné stručné větě , “říká Momchil Michailov, generální ředitel a spoluzakladatel Sanbolic.

„Distribuovaný souborový systém je buď distribuovaný agregátor místních jmenných prostorů a volných prostorů zúčastněných uzlů, nebo lokální souborový systém, který běží na více uzlech a přistupuje ke sdílenému úložišti pomocí distribuované komponenty správce zámku,“ řekl.

Kerry Lebel je vedoucí produktový manažer v Automic, společnosti známé pro své škálovatelné automatizační platformy. Lebel říká, že zatímco je přesné popsat DFS jako systém, který jednoduše přiřazuje pracovní zatížení serverům připojeným k nízkonákladovým kusům hardwaru, ve skutečnosti to celý příběh opravdu neříká.

Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

„To, co vám nakonec chybí, je skvělý faktor jak dělají, co dělají, “řekl Lebel.

Když odstoupíte od technických podrobností a přemýšlíte o základní myšlence distribuovaného systému souborů, je zřejmý „cool faktor“, o kterém mluví Lebel. Tyto velké systémy zpracování dat nahrazují staré systémy souborů a adresářů strukturami, které zahrnují nejen více doručovacích systémů, ale také „objektově orientovaný“ přístup, kde se sem a tam rozdělí velké množství jednotek, aby se zabránilo úzkým místům.

Přemýšlejte například o nejmodernějším dálničním systému, kde stovky tisíc automobilů nejsou jen nalévány po vícevrstvé rovině, nýbrž se nahromadí do úhledného malého jetele nebo přítoků oxbow, které se točí kolem a posílají k jejich cílům na různých objížďkách. Z oblohy vypadá všechno choreograficky jako švýcarské hodinky. To je druh vizuálního modelu, na který se inženýři dívají, když sní o nových způsobech směrování informací kolem omezení „kopáním“ do různých úrovní víceúrovňového schématu zadržování dat. Pokud necháme stranou specifikace, jedná se o nejvyšší cíl manipulačního systému: udržet tyto samostatné objekty s vloženými metadaty, aby se pohybovaly nejvyšší rychlostí tam, kde musí být, aby dosáhly cílů konzistence, uspokojily koncového uživatele, nebo dokonce k informování nejvyšší úrovně pozorování nebo analýzy.

Pohled na základní technologii

Článek Sean Gallagher, který se objevil na Ars Technica, rozděluje design GFS na poněkud zvládnutelnější části a naznačuje, co je pod listem na Googlu.

GFS začíná redundantním a odolným modelem pro čtení a zápis dat. Myšlenka je taková, že místo zápisu konkrétní aktualizace na jeden disk nové systémy zapisují kusy dat do více destinací. Pokud tedy jeden zápis selže, ostatní zůstanou. Aby se tomu vyhovělo, jedna primární síťová komponenta obhospodařuje zpracování dat dalším podřízeným jednotkám a při agregaci dat klientem „agreguje“ data. To vše umožňuje protokol metadat, který pomáhá určit, kde jsou určité aktualizace a výsledky přenosu v rámci většího systému.

Dalším velmi důležitým aspektem je to, jak tyto duplicitní systémy vynucují konzistenci dat. Jak poznamenává Gallagher, návrh GFS obětuje určitou konzistenci a přitom stále „vynucuje atomicitu“ nebo chrání zásadu, jak se data aktualizují napříč více úložnými jednotkami tak, aby se časem vyrovnávala. Zdá se, že „uvolněný model konzistence“ společnosti Google sleduje základní teorii modelu BASE, která poskytuje větší flexibilitu výměnou za delší časový rámec pro vynucení konzistence.

Jak to dosahují jiné velké systémy?

„Když se dosáhne dostatečně velkého rozsahu, nevyhnutelnost se stane nekonzistentností nebo poškozením dat,“ říká Michailov. „Primárním cílem distribuovaných souborových systémů by proto měla být schopnost provádět co nejvíce operací za přítomnosti korupce a zároveň poskytovat účinné metody pro současné řešení korupce.“ Michailov také zmiňuje potřebu zachovat výkon pečlivou implementací redundance.

"Například vytvoření metadat (dat o datech) na každém disku umožňuje, aby disk znovu vybudoval svou správnou datovou strukturu, pokud je poškozena jeho zrcadlová kopie," řekl Michailov. „Kromě toho lze úrovně RAID použít k boji proti selháním úložiště na úrovni agregátoru souborového systému nebo na úrovni správce sdílených svazků.“

Při diskusi o dalším modelu konzistence se Lebel zaměřuje na systém nazývaný distribuovaný souborový systém Hadoop (HDFS), který nazývá „průmyslovým standardem“.

V HDFS, říká Lebel, je každý datový blok replikován třikrát na různých uzlech a na dvou různých regálech. Data jsou kontrolována od začátku do konce. Selhání jsou hlášeny na NameNode, zpracovateli dat, který se zbavuje poškozených bloků a vytváří nové.

To vše podporuje druhy „čistých dat“, které jsou tak důležité pro integritu jednoho z těchto systémů hromadných dat.

Údržba DFS

Další velmi odlišný pohled na GFS pochází z článku z října 2012 od autorky Wired Stevena Levyho. Je mnohem stručnější charakterizovat softwarový přístup pro kolektivní správu sítě Google shora dolů.

„V průběhu let,“ píše Levy, „Google také vybudoval softwarový systém, který jí umožňuje spravovat bezpočet serverů, jako by byly jedním obrovským subjektem. Jeho interní vývojáři se mohou chovat jako loutkáři a vysílat tisíce počítačů, aby provedly výkon úkoly stejně snadno jako provoz jednoho počítače. “

To zahrnuje také spoustu kybernetické a environmentální údržby, od specializovaných zkušebních týmů, které se snaží „rozbít“ serverové systémy, až po pečlivě regulované teploty v halách datové krypty.

Levy také zmiňuje doplňkové technologie pro GFS, jako je MapReduce, cloudový aplikační nástroj, a Hadoop, analytický engine, který sdílí některé principy návrhu s GFS. Tyto nástroje mají vlastní dopad na to, jak jsou navrženy systémy pro manipulaci s velkými datovými centry a co se pravděpodobně v budoucnu objeví. (Další informace o těchto technologiích naleznete v části Evoluce velkých dat.)

Michailov věří, že MapReduce má potenciál podporovat stále větší systémy datových center a hovoří o „jediné implementaci“ sdílených a agregovaných souborových systémů, které by mohly „zachovat názvy uzlů agregovaného souborového systému ve sdíleném klastru s SSD pro uložení . “

Lebel naopak vidí posun od dávkového zpracování (metoda podporovaná Hadoopem) k zpracování datového proudu, což přiblíží tyto datové operace k reálnému času.

„Čím rychleji dokážeme data zpracovat a zpřístupnit je obchodním manažerům nebo našim zákazníkům, tím větší bude konkurenční výhoda,“ říká Lebel, který také navrhuje nahradit výše uvedenou terminologii zpracování termíny, které se zaměřují na koncový uživatel. Lebel říká, že společnosti mohou pomocí SLA a dalších zdrojů definovat, jak bude daný systém služeb fungovat, uvažováním o „synchronních“ činnostech nebo činnostech synchronizovaných s akcemi koncových uživatelů a „asynchronních“ činnostech, které jsou flexibilnější z hlediska implementace. .

To vše se scvrkává v jistém smyslu na to, že vývojáři a inženýři musí neustále pracovat na zrychlení a zdokonalení služeb na platformách, které se rozrostly daleko za jejich klasické archetypy z 90. let. To znamená kriticky se dívat na strojní vybavení dat a prorážet překážky způsoby, které podporují nejen rostoucí populaci, ale také to, že k exponenciálním změnám dochází rychlostí průlomů, kterou vědci nazývají „příští průmyslovou revolucí“. Je pravděpodobné, že ti, kdo na těchto frontách prolomí nejvíce, nakonec dominují na trzích a ekonomikách budoucnosti.