Posílení učení Vs. Učení hluboké síly: Jaký je rozdíl?

Obsah

Co je to Výztužná výuka?
Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života
Co je učení hluboké výztuže?

Odnést:

Šli jsme k odborníkům a požádali jsme je, aby odpověděli na důležité rozdíly mezi posilováním a hlubokým posilováním

Algoritmy strojového učení mohou usnadnit život a práci a zbavit nás zbytečných úkolů a pracovat rychleji - a chytřeji - než celé týmy lidí. Existují však různé typy strojového učení. Například je zde posilovací učení a hluboké posilovací učení.

"Přestože posilovací učení a hluboké posilovací učení jsou oba techniky strojového učení, které se učí autonomně, existují určité rozdíly," říká Dr. Kiho Lim, pomocný profesor informatiky na univerzitě Williama Patersona ve Wayne v New Jersey. "Zesílení učení je dynamické učení pomocí metody pokusů a omylů, aby se maximalizoval výsledek, zatímco hluboké posílení učení se učí ze stávajících znalostí a aplikuje je na nový soubor dat."

Ale co to přesně znamená? Šli jsme k odborníkům - a požádali jsme je, aby poskytli spoustu příkladů!

Co je to Výztužná výuka?

Jak říká Lim, posilování učení je praxe učení pomocí pokusů a omylů - a praxe. „V této disciplíně se model učí v nasazení tím, že je postupně odměňován za správnou predikci a penalizován za nesprávné předpovědi,“ říká Hunaid Hameed, praktikant datových věd v Data Science Dojo v Redmondu, WA. (Přečtěte si Naučte se Posílení učení může marketingu přinést pěkné dynamické otočení.)

"Učení zesílení je běžně vidět v hraní her AI a zlepšování hraní hry v průběhu času."

Tři základní komponenty v posilování učení jsou agent, akce a odměna. „Výuka posilování dodržuje specifickou metodologii a určuje nejlepší prostředky k dosažení nejlepšího výsledku,“ říká Dr. Ankur Taly, vedoucí oddělení datových dat ve Fiddler Labs v Mountain View, CA. "Je to velmi podobné struktuře toho, jak hrajeme videohru, ve které se postava (agent) účastní řady pokusů (akcí), aby získala nejvyšší skóre (odměnu)."

Je to však autonomní samoučící systém. Na příkladu videohry Taly říká, že pozitivní odměny mohou vyplynout ze zvýšení skóre nebo bodů a negativní odměny mohou vyplynout ze střetu s překážkami nebo z nepříznivých pohybů.

Chris Nicholson, generální ředitel San Francisca, Skymind založený na CA staví na příkladu toho, jak se algoritmy učí pokusem a omylem. “Představte si, že hrajete Super Mario Brothers poprvé, a pokuste se zjistit, jak vyhrát: prozkoumejte prostor, kachna, skok, mince, přistání na želvě a pak vidíš, co se stane. “

Žádné chyby, žádný stres - Váš průvodce krok za krokem k vytváření softwaru pro změnu života, aniž by došlo ke zničení vašeho života

Nemůžete zlepšit své programovací schopnosti, když se nikdo nestará o kvalitu softwaru.

Tím, že se hra naučí dobrým a špatným jednáním, vás naučí, jak se chovat. „Učení zesílení to dělá v každé situaci: videohry, stolní hry, simulace skutečných případů použití.“ Nicholson ve skutečnosti říká, že jeho organizace používá posilování učení a simulace, aby společnostem pomohla zjistit nejlepší cestu pro rozhodování složitou situací.

V učení o posílení agent dělá několik menších rozhodnutí, aby dosáhl většího cíle. Ještě dalším příkladem je naučit robota chodit. "Namísto tvrdých kódovacích směrů zvedat jednu nohu, ohýbat koleno, odkládat ho atd. Může mít přístup k posilování učení experiment s robotem s různými sekvencemi pohybů a zjistit, které kombinace jsou nejúspěšnější při jeho výrobě posuňte se kupředu, “říká Stephen Bailey, odborník na datové vědce a analytické nástroje v Immutě v College Park, MD.

Kromě videoher a robotiky existují i další příklady, které mohou pomoci vysvětlit, jak funguje posilování učení. Brandon Haynie, hlavní datový vědec na Babel Street ve Washingtonu, DC, ho srovnává s lidským učením jezdit na kole. "Pokud stojíte a zvedáte nohy bez šlapání, hrozí pád - nebo pokuta."

Pokud však začnete šlapat, zůstanete na kole - odměna - a postupujete do dalšího stavu.

"Výztužné učení má aplikace zahrnující několik sektorů, včetně finančních rozhodnutí, chemie, výroby a samozřejmě robotiky," říká Haynie.

Co je učení hluboké výztuže?

Je však možné, že rozhodnutí se stanou příliš složitá pro posílený přístup k učení. Haynie říká, že může být ohromující, aby se algoritmus učil ze všech států a určoval cestu odměny. "Zde může pomoci hluboké posílení učení:" hluboká "část se týká použití neuronové sítě k odhadu stavů namísto mapování každého řešení, čímž se v rozhodovacím procesu vytvoří spravovatelnější prostor pro řešení."

Není to nový koncept. Haynie říká, že existuje od 70. let. "Ale s příchodem levné a výkonné výpočetní techniky mohou nyní další výhody neuronových sítí pomoci s řešením oblastí, aby se snížila složitost řešení," vysvětluje. (Přečtěte si, jaký je rozdíl mezi umělou inteligencí a neuronovými sítěmi?)

Jak to tedy funguje? Podle Peter MacKenzie, vedoucí týmu AI, Americas v Teradata, je příliš mnoho informací k uložení do tabulek a tabelární metody by vyžadovaly, aby agent navštívil každou kombinaci stavu a akce.

Hluboké zesílení učení však nahrazuje tabulkové metody odhadování hodnot stavu aproximací funkce. "Aproximace funkce nejen eliminuje potřebu ukládat všechny páry stavů a hodnot v tabulce, ale umožňuje agentovi zobecnit hodnotu stavů, které nikdy předtím neviděl, nebo má částečné informace o použití hodnot podobných stavů," MacKenzie říká.

"Hodně z vzrušujících pokroků v hlubokém posilování učení došlo díky silné schopnosti neuronových sítí zobecnit se v obrovských stavových prostorech." A MacKenzie poznamenává, že hluboké posilování se používá v programech, které porazily některé z nejlepších lidských konkurentů v takových hrách jako Chess and Go a jsou také zodpovědní za mnoho pokroků v robotice. (Přečtěte si 7 vedoucích žen v umělé inteligenci, strojovém učení a robotice.)

Bailey souhlasí a dodává: „Začátkem tohoto roku agent AI jménem AlphaStar porazil nejlepšího hráče StarCraft II na světě - a to je obzvláště zajímavé, protože na rozdíl od her jako Chess and Go, hráči ve hře StarCraft nevědí, co jejich soupeř dělá.“ Místo toho říká, že museli vytvořit počáteční strategii a poté se přizpůsobit, když zjistili, co jejich protivník plánuje.

Jak je to možné? Pokud má model neuronovou síť více než pěti vrstev, Hameed říká, že má schopnost obstarávat vysokorozměrná data. "Díky tomu se model může naučit identifikovat vzorce sám o sobě, aniž by měl k dispozici lidského inženýra a vybírat proměnné, které by se měly do modelu vložit," vysvětluje.

V scénářích s otevřeným koncem můžete skutečně vidět krásu učení hlubokého posílení. Taly používá příklad rezervace stolu v restauraci nebo objednání položky - situace, kdy agent musí reagovat na jakýkoli vstup z druhého konce.

"Hluboké zesílení učení může být použito k trénování konverzačního agenta přímo z nebo audio signálu z druhého konce," říká. "Při použití zvukového signálu se agent může také naučit zachytit jemné stopy ve zvuku, jako jsou pauzy, intonace, atd. - to je síla hlubokého učení o posílení."

A stále se objevují nové aplikace učení hlubokého posilování. Při určování další nejlepší akce pro interakci se zákazníkem MacKenzie říká: „stav a akce by mohly zahrnovat všechny kombinace produktů, nabídek a zpráv napříč všemi různými kanály, přičemž každý je přizpůsoben - formulace, obrázky, barvy, písma.“

Dalším příkladem je optimalizace dodavatelského řetězce, například dodávka produktů podléhajících zkáze po celé USA. „Mezi možné státy patří aktuální umístění všech různých druhů dopravy, zásoby ve všech závodech, skladech a maloobchodních prodejnách a předpověď poptávky pro všechny obchody, “říká MacKenzie.

"Použití hlubokého učení k reprezentaci stavu a prostoru akce umožňuje agentovi dělat lepší logistické rozhodnutí, které má za následek včasnější přepravy s nižšími náklady."