Proč je Hadoop perfektním zápasem pro sekvenování genomu

Autor: Roger Morrison
Datum Vytvoření: 19 Září 2021
Datum Aktualizace: 4 Smět 2024
Anonim
Proč je Hadoop perfektním zápasem pro sekvenování genomu - Technologie
Proč je Hadoop perfektním zápasem pro sekvenování genomu - Technologie

Obsah


Zdroj: A3701027 / Dreamstime.com

Odnést:

Sekvenování genomu vyžaduje výkonné technologické nástroje ke zpracování všech dat a Hadoop je na tomto úkolu.

Klinická genomika je fascinující téma, kde lidé pracují na špičkových technologiích pro zpracování rychlých a přesných výsledků. Na trhu je k dispozici mnoho genomových sekvencerů, které produkují petabajty sekvenčních dat a růst v sekvenování povede v blízké budoucnosti k exabytům dat. Hadoop je zde perfektní platforma pro zpracování složitých pracovních postupů genomiky. Hadoop umí ukládat a třídit obrovské množství informací a může také provádět smysluplnou analýzu. (Chcete-li získat představu o tom, kolik dat to ve skutečnosti znamená, přečtěte si článek Porozumění bitům, bajtům a jejich násobkům.)


Současnost a budoucnost genomiky

Dnes genomové mapování dosáhlo svého vrcholu vývoje. Mnoho lidí spojených s genomickým odvětvím se zajímá o zvědavost a protože se objevují nové příležitosti, lepší technologie vyžaduje hodinu. Sekvenování genomu je velmi opakující se a náročná na zdroje. Jen v roce 2013 bylo vyrobeno asi 15 petabajtů dat a pouze 2 000 sekvencerů. Toto množství čelistí zahrnovalo 300 KB sekvenovaných dat lidského genomu. Při této rychlosti produkce dat lze odhadnout, že do roku 2018 bude vytvořeno asi jeden exabyte dat. Důvodem bude růst sekvencerů, které budou produkovat stále více dat za běh. Dalším důvodem je příchod extrémně výkonných a levných strojů pro sekvenování genomu. Od roku 2008 cena těchto strojů neustále klesá. Je to kvůli výkonným strojům nové generace, které vstoupily na trh.


Potřeby průmyslu mapování genomu

Komplexní algoritmy se používají pro zpracování dat, která jsou shromažďována z lidského genomu. Poté je třeba tyto informace uložit. Může být v budoucnu přezkoumán pro porovnání s původními údaji. Úloha zpracování a ukládání 100 GB dat není příliš obtížná, zejména když to děláte s výkonnými stroji zaměstnanými v sekvenčních centrech. Studie ukazují, že toto množství dat lze zpracovat za pouhých 1 000 hodin CPU, takže je to velmi snadné. Při této rychlosti technického pokroku je zřejmé, že průmysl genomu brzy zpracuje tisíce gigabajtů během několika sekund.

Techniky správy a ukládání dat se však nevyvíjejí tak rychle, díky čemuž lze očekávat velkou ztrátu cenných dat. To je opravdu nežádoucí, protože to bude vážně bránit pokroku v lidské genomice. Potřeba efektivní techniky správy dat, kterou lze snadno aktualizovat, je tedy velmi vysoká. To může být efektivní zejména v blízké budoucnosti, kdy se mapování genomu přesune z velkých laboratoří s výkonnými počítači do malých nemocnic a laboratoří.

Co se v řešení očekává?

Tempo, kterým se objevují a vyvíjejí nové techniky genomického sekvenování, je extrémně vysoké. Toto tempo může být pro lékařskou vědu velmi prospěšné ve formě silného kroku k vymýcení závažných chorob. Toto tempo však může být také velmi náročné.

Výzva přichází ve formě správy velkého množství dat produkovaných sekvenčními projekty. Je tedy zapotřebí účinné řešení, které pomůže s ukládáním a zpracováním velkých dat. Toto řešení musí být levné a rychlé a musí být také adaptivní. Analýza poskytovaná tímto řešením musí být také přesná a konstantní. Jaké je řešení problému? Nepochybně je to Hadoop. (Další informace o použití Hadoopu naleznete v části 5 Statistiky o velkých datech (Hadoop) jako služba.)

Proč je Hadoop nejlepším řešením pro sekvenování genomu

Odvětví genomiky potřebuje vynikající řešení, které jim může pomoci efektivně spravovat data, zpracovávat je a ukládat pro budoucí použití. Toto řešení se jeví jako dokonalá shoda se softwarem Hadoop. Hadoop lze tedy považovat za perfektní software pro správu velkých dat, který může výrazně zlepšit současné techniky ukládání dat v genomickém průmyslu.

Schopnosti společnosti Hadoop v reálném čase umožňují sekvencerům genomu analyzovat a ukládat velké množství dat najednou v reálném čase. To také umožňuje budoucí použití dat. Hadoop dokáže porazit mnoho starších systémů, protože je mnohem rychlejší a spolehlivější než oni.

Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

Co jiného může Hadoop dělat?

Díky Hadoopu se otevřelo velké množství možností a příležitostí v oblasti genomiky a sekvencování genů. Hadoop nabízí možnosti paralelních výpočtů, díky nimž je možné rychlejší sekvenování. Také pomocí funkce MapReduce Hadoop lze velmi snadno zmapovat velké množství genů. Z tohoto důvodu bude sekvenování s Hadoopem skutečně „příští gen“ a bude mnohem méně komplikované.

Příležitosti pro Hadoop

Hadoop má v genomickém průmyslu několik příležitostí, ale nejlepší byl odvozen z článku Lynda Chin „Dává smysl genomickým datům o rakovině“ v časopise Genes & Development. V tomto článku diskutuje o tom, jak moderní genomika otevřela nové dveře, což vedlo k mnoha pozitivním výsledkům, jako je objev genomických informací o rakovině. Z tohoto důvodu jsme blíž k objevu léčby rakoviny samotné. To však vyžaduje trochu více pozornosti a výkonnou aplikaci pro správu dat pro lepší výzkumné schopnosti v terénu. To může být nejlepší příležitost pro Hadoop prokázat svou rychlost, sílu a přesnost.

Crossbow: Platforma pro správu dat nové generace

Crossbow, což je softwarové potrubí určené pro analýzu genomického přeřazování, je jedním z nejlepších řešení. Byl to výsledek integrace v Hadoopu mezi rychlým algoritmem pro sladění sekvenovaných dat, který se nazývá Bowtie, a výkonným algoritmem, který porovnává a zkoumá sekvenovaná data, tj. Genotyper jménem SoapSNP. Je postaven na Apache Hadoop a je založen na implementaci rámce MapReduce. Crossbow je přenosná, škálovatelná a je také vhodná jako cloud computing nástroj.

Díky této silné integraci lze celý genom prozkoumat během jednoho dne v místním clusteru s 10 uzly. S klastrem se 40 uzly je proces ještě rychlejší a dokončí se za pouhé tři hodiny s celkovou cenou nižší než 100 $! Studie provedená za účelem testování přesnosti Crossbow ukázala, že dokáže porovnat každý genom s přesností 99 procent. Další užitečnou vlastností Crossbow je to, že běží na cloudu. Crossbow tak umožní tisícům budoucích center pro sekvenování, jako jsou nemocnice, sekvencovat velké množství genomových dat bez potřeby jakýchkoli výkonných a nákladných počítačů a technologií.

Jiný software založený na Hadoopu

Mnoho společností uznalo sílu Hadoop při změně světa genomiky. Mají vhodně modifikovaný Hadoop, aby využil jeho potenciál pro pokročilé sekvenování genomu. Níže uvádíme několik příkladů známých řešení pro sekvenování genomů založených na Hadoopu:

  • Hadoop-BAM: Jedná se o výkonný nástroj pro správu dat, který využívá funkci MapReduce Hadoop pro různé činnosti související s genomikou, jako je genotypizace. Funguje to ve formátu Binární zarovnání / mapa.
  • Cloudburst: Toto řešení založené na Hadoopu bylo vytvořeno v roce 2009. Je velmi účinné při porovnávání genomových sekvencí a mapování jednotlivých genů. Toto je také jedna z prvních aplikací založených na tomto účelu na Hadoopu.

Závěr

Integrace mezi velkými daty a genomickým průmyslem se v moderní době ukazuje jako výhoda. Tyto platformy jsou účinné při objevování léčby několika nemocí, jako je rakovina. Data, která jsou nalezena mapováním genomu, mohou být použita pro formulaci preventivních informací o takových chorobách. Příchod velkých dat lze považovat za zlom ve světě genomiky, a pokud se informace používají rozumně, pak možná i v širším oboru zdravotní péče. Jediným způsobem, jak toto pole pokročit, je použití správných nástrojů pro správu dat, jako je Hadoop.