Slyším mrtvé lidi? Technika přirozeného jazyka oživuje minulé i současné hlasy

Obsah

Velké změny v NLP
Vzrušující výtvory „k hlasu“ ve společnosti Vivo
Umělý hlas v marketingu
Váš hlas žije
V roce 2525

Odnést:

Zapomeňte na konzervy; Reprodukce skutečných je novým cílem zpracování přirozeného jazyka.

V dnešní době je většina počítačových hlasů passé. Pravděpodobně se příliš nezbavíte kyborgů a robotů, když v telefonu uslyšíte „droida“, který vám pomůže s platbou faktury nebo se zeptáte, jaké oddělení chcete. Ale co když jste najednou slyšeli, jak vás Kurt Cobain prosil o informace o kartě? Nebo vám John F. Kennedy říká o zázrakech předčasného hlasování? Nebo Elvis zbavil své jméno a adresu, než se vloupal do „kusu, kusu hořící lásky?“

To vše by bylo ... trochu divné, ale ještě fascinující je, že tato technologie je v podstatě již tady. Asi před deseti lety nás ohromila schopnost počítačů vůbec mluvit. Nyní budeme mít podlahu volným dosahem, počítačem generovanými hlasy, které zní stejně jako lidé, které známe.

Velké změny v NLP

Pokud věnujete pozornost oblasti zpracování přirozeného jazyka (NLP), možná jste slyšeli o nedávných pokrokech, které jdou nad rámec druhů konzervovaných hlasů virtuálního asistenta, které nyní slyšíme v našich globálních pozičních systémech (GPS) a automatizovaném podnikání. telefonní linky.

Začátek NLP vyžadoval spoustu výzkumu obecné mechaniky lidské řeči. Vědci a inženýři museli identifikovat jednotlivé fonetiky, složit je do větších algoritmů pro generování frází a vět a potom se pokusit vše spravovat na meta-úrovni, aby vytvořili něco, co znělo skutečně. Postupem času to zvládli vůdci NLP a začali budovat pokročilé algoritmy, aby pochopili, co lidé říkají. Společně tyto dvě společnosti přišly s ovladači pro dnešní virtuální asistenty a plně digitální úředníky s placením, jejichž manýrismy - i když otravné - jsou stále úžasné, když přestanete přemýšlet o práci, která do nich byla.

Nyní některé společnosti překračují obecný virtuální hlas a vytvářejí konkrétnější personalizovaný výsledek. To vyžaduje projít lexikonem konkrétní osoby a sbírat velké množství jedinečného hlasového videa, poté použít tento archiv na složité rytmy pro fonetiku, důraz, kadenci a všechny další drobné narážky, které lingvisté často seskupují pod širokým praporem „prozodie“.

Vychází hlas, který posluchači považují za „vlastněný“ konkrétní osobou - buď někoho, koho znají a mluvili, nebo někoho, jehož hlas uznávají v důsledku slávy těchto osob.

Od Elvisa po Martina Luthera Kinga může být kdokoli hlas takto „klonován“ - za předpokladu, že je zaznamenán výrazný záznam jejich řeči. Díky použití podrobnější analýzy a manipulace na jednotlivé malé zvuky jsou společnosti schopny vytvořit virtuální uhlíkovou kopii něčího hlasu, který zní podobně jako skutečná věc.

Vzrušující výtvory „k hlasu“ ve společnosti Vivo

Například Vivo je jedna společnost, která pracuje na revoluci v používání umělých lidských hlasů pro všechny druhy kampaní, od zvukových knih až po interaktivní hlasovou odpověď (IVR). Ve Vivo výzkumné a produkční týmy pracují na procesech, které by teoreticky mohly přesně replikovat hlasy zesnulých celebrit, jako je například Ol Blue Eyes.

"Klonování hlasu Franka Sinatry bychom vlastně prošli jeho nahraným odkazem," říká generální ředitel Vivo Gershon Silbert, mluvící o tom, jak by tento druh technologie mohl fungovat.

Vivo v současné době pracuje na archivaci hlasů těch, kteří jsou stále s námi, jako je korespondent NPR Neal Conan, který se přihlásil jako model pro tento druh průkopnického projektu IT. Propagační video ukazuje pracovníkům společnosti Vivo pečlivě vytvářející moduly fonetického kódu pomocí poskytovaného hlasového vstupu od společnosti Conan. Poté vytvoří modely pro nástroje pro řeč (TTS), které evokují dramaticky lidský a personifikovaný výsledek.

Podle Ben Feiblemana, viceprezidenta pro strategii a rozvoj podnikání ve Vivo, počítač pracuje na fonémové úrovni (s použitím nejmenších jedinečných částí řeči), aby odpovídal prozodickému modelu pro individuální lidský hlas.

„Ví, jak hlas mluví,“ říká Feibleman a dodal, že pomocí „výběru jednotek“ si počítač vybere několik kusů, které dají dohromady jedno krátké slovo, jako například, kde slovo „pátek“ obsahuje pět složek, které pomáhají rozvíjet zvláštní důraz a tonální výsledek.

Umělý hlas v marketingu

Jak to tedy funguje v marketingu? Produkty společnosti Vivo by mohly být velmi užitečné při vytváření produktů, jako jsou zvukové knihy, které by mohly oslovit cílové publikum. Například, jak účinnější by byl hlas Elvisa ve srovnání s jedním z dnešních generických, mrtvých, automatických hlasů, pokud by byl použit k prodeji zábavních produktů?

Nebo co takhle v politice? Feibleman pracuje na různých nápadech, jak tyto projekty využít k posílení marketingu pro společnosti nebo jiné strany, které vyžadují efektivnější zasílání zpráv.

„Pokud víte, že někteří politici kandidují na prezidenta, mohlo by se stát, že 10 milionů voličů houpacích států dostane osobní výzvu od kandidáta, děkuje jim za jejich podporu a řekne jim, kde musí hlasovat, počasí a všechny ověsy. noc před volbami, “řekl Feibleman.

Váš hlas žije

Na všechny tyto technologie existuje další zřejmá aplikace. Společnosti v přirozeném jazyce, jako je Vivo, by mohly vytvořit osobní službu, která by nahrála všechna hlasová data zákazníka do produktu, který by dotyčné osobě umožnil „mluvit navždy“.

Praktická implementace by pravděpodobně vyvolala řadu otázek o tom, jak slyšíme a internalizujeme mluvené hlasy. Například, co je potřeba, aby zvukový tok zněl přesně jako někdo jiný? Jak dobře musíme znát osobu, která rozpozná konkrétní hlas? A co je zajímavé, co se stane, když služba v přirozeném jazyce produkuje hrubou karikaturu, spíše než přesvědčivé mimikry?

Vyhodnocení výsledků, říká Feibleman, často závisí na zvážení kon. Například říká, že děti obvykle neptají, kdo mluví, když poslouchají příběh. Chtějí jen víc. Ale také mnoho dospělých nemusí přemýšlet o tom, kdo s nimi mluví, vzhledem ke konkrétnímu scénáři, jako je pasivní vysílání nebo telefon. Je také snazší oklamat počítač telefonem, protože tlumený zvuk může maskovat závady nebo jiné nesrovnalosti mezi výsledky počítače a lidským hlasem.

„Nenapadá vás napadat autentičnost hlasu,“ říká Feibleman.

V roce 2525

Jak společnosti postupují vpřed ve vývoji produktů a služeb a odpovídání na tyto otázky, technologie „živé řeči“ by nás mohly posunout směrem ke konvergenci technologie a lidské mysli, která se klasicky nazývá umělá inteligence (AI).

Pokud počítače umí mluvit jako my, možná budou moci přimět ostatní uživatele, aby si mysleli, že si myslíme jako my, a přivádějí se k většímu principu singularity, jak to do našeho lexikonu uvedl John von Neumann, technologický průkopník z 50. let, který evangelizovali spisovatelé a myslitelé jako Ray Kurzweil. Kniha Kurzweils 2005, „Singularity is Near“, některé vzrušuje a jiné děsí. Kurzweil předpověděl, že do roku 2045 se „inteligence“ jako jev velmi silně zbaví lidského mozku a migruje do technologie, čímž zamlžuje hranice mezi stroji a jejich lidskými pány.

Imortalizován v textech Zager & Evans „V roce 2525“ (nikdo nemá strašidelné sci-fi balady jako tito kluci)…

V roce 4545
Nepotřebuješ zuby, zvyklý
tvé oči
Nenajdeš si věci, které bys mohl žvýkat
Nobodys se na tebe podívá

V roce 5555
Vaše paže poskakují po stranách
Vaše nohy nemají co dělat
Některé stroje to dělají za vás

Jsou počítačové hlasy krokem tímto směrem? Jako nový způsob, jak outsourcovat některé funkce lidského těla (nebo častěji, simulovat je), je tento druh technického pokroku jedním z největších - a pravděpodobně nedostatečně ohlášených - pokroků na obzoru, když se podíváme na jedinečnou budoucnost . (Přečtěte si více o "singularitě" v Will Computers budou moci napodobit lidskou mysl?)