Počítači, přečti mi pohádku

Ozvučení textů a rozeznání hlasu

Stále častěji se začínají objevovat volně šířené utility pro rozeznávání a syntézu řeči dotahující dostupné komerčními produkty. Je bohužel fakt, že tato hlasová řešení jsou většinou nadstavby pro rozhodně ne dokonalé řečové enginy a na profesionální systémy, které se domácím uživatelům pod ruku nedostanou, jednoduše nemají.

Obsah :
Web Talkster 3.9s
Web Talkster doslova přežvýká obsah celé stránky.
CyberBuddy 2.12
S CyberBuddy vám agent prozradí i aktuální počasí.

Speakonia 1.03
S českým TTS enginem se Speakonia pokusí číst i text v naší mateřštině.

GUI Reader 2.0
Ani ruští vývojáři nezapomínají na hlasové programové vybavení. 800 KB ve srovnání se 4 MB - to je zřejmá přednost.

Voice Navigator 1.01
S jednoduchým ovládáním Voice Navigatoru nebudete mít problémy.

Mush
Zpívající sólista.

Bez ohledu na to, že doposud nedošlo ke kvalitativnímu průlomu v takové zajímavé a perspektivní oblasti jakou je syntéza řeči či rozpoznávání hlasu a hlasové řízení, nové utility pro stávající technologie se objevují se záviděníhodnou pravidelností. Mezi nimi je možné narazit na produkty nejrůznějšího původu, bohužel českých programů zatím mnoho není. V přehledu, který je pro vás připraven, jsme si nevytyčili úkol ukázat jednoho vítěze - všichni účastníci jsou určeni pro řešení různých úkolů, tudíž pracují různě.

Každá z těchto utilit má určité nedostatky a řešit jakékoli závažné úkoly pomocí hlasového řízení je nemožné. Ale ty funkce, které jsou k dispozici, jasně hovoří o tom, jakým směrem půjdou vývojáři metod hlasového řízení počítače. Myslím si, že možnost velet svému PC z pohodlného křesla nikdo neodmítne.

Užitečné odkazy
Jestliže některý z uvedených programů nebude fungovat - stáhněte a nainstalujte si komplet hlasových knihoven Microsoft. Všechny potřebné soubory naleznete na Chip CD:

Pokud žádný zvuk neuslyšíte, přeinstalujte SAPI: spchapi.exe (824KB)
Engine pro rozpoznání řeči: actcnc.exe (6 MB)
Control panel p
řidá ikonu do Nastavení: spchcpl.exe (927 KB, ne pro XP)

Podpora řeči:

angličtina: lhttseng.exe (2,6MB)
němčina: lhttsged.exe (2,2MB)
čeština: GB_TTS_Install.exe (896KB), http://www.gb-soft.cz

Co se týče programů třetích stran, pro ně je nutná zvláštní podpora:

msagent.exe  (400 KB, v 2K/XP/Me již obsaženo)
česká podpora pro dialogy (ne řeč): AgtX0405.exe (128 KB).

Zvláště zmíníme TTS engine (Text To Speech) s podporou českého jazyka od firmy GB-SOFT (GB_TTS_Install.exe (896KB), http://www.gb-soft.cz). Po jeho instalaci máte možnost většinu následujících programů naučit mluvit česky.

Web Talkster 3.9s

Instalace/Kopírování

+ přidává hlasové funkce do Internet Exploreru
+ používá animované postavy
- nelze přesně nastavit parametry čtení
- vyžaduje mnoho operační paměti

Snad žádný program pracující ve Windows nemá tolik variací a následníků jako MS Internet Explorer. Těžko říci, co je důvodem tohoto stavu – přes mnohé nedostatky samotného prohlížeče se může těšit ohromné popularitě mezi uživateli. Faktem zůstává, že se snad každý měsíc objevuje nějaká jeho další varianta.

Podle mého názoru by bylo překvapivé, kdyby vývojáři hlasových programů zůstali stranou od všeobecného nadšení programující mládeže a nevytvořili by „čtecí zázrak“ ala Internet Explorer. Příkladem může být Web Talkster – bezplatný prohlížeč s podporou technologií text-to-speech a MS Agent.

Prohlížeč je samozřejmě vybudován na základu Internet Exploreru, ale přitom zabírá 1,5krát větší objem operační paměti, než microsoftí prapředek. Okno tohoto prohlížeče, bez ohledu na velká tlačítka a možnost změny barev, neomylně také Explorer připomíná. Je pravda, že řada důležitých funkcí (kopírování, tisk, hledání na stránce atd.) je schována v menu Options - File, ale všechno ostatní je udělané jako v originálu, plus tři nová tlačítka: Speak (čtení veškerého textu na celé webové stránce), Selected (čtení pouze označených odstavců) a QuitSpk (zrušení ozvučení).

Web Talkster používá sympatické animované postavičky - pomocníky. Podpora této technologie společně s podobou čaroděje Merlina se nastavuje během procesu instalace prohlížeče. Mimochodem knihovny MS Speech API a anglická varianta řečového enginu Lernout & Hauspie budou také nabídnuty.

Vlastní hlas, přesněji řečeno jeho zabarvení a rychlost čtení, je možné nastavit v menu Options - Speech. Bohužel nastavení je možné pouze přibližné. Proto na úrovni rychlosti Medium bude prohlížeč Web Talkster číst texty příliš rychle, ve variantě Slow přespříliš pomalu.

Pomocí menu Options - Character Options můžete také optimalizovat svého pomocníka, vybrat jeho podobu (Select character) nebo ho úplně vypnout (Move - Off screen). Je zajímavé, že i bez zobrazení pomocníka bude Web Talkster pokračovat ve čtení stránek.

Z doplňkových možností mluvícího prohlížeče bych chtěl upozornit na vestavěnou funkci hledání na Google.com (jako v prohlížeči Opera) a také maličký zápisníček pro poznámky - My Surf'n Notes.

Zpívající sólista (http://www.pepedog.com)
Nevím, jestli je to špatně nebo dobře, ale programy, založené na technologii MS Agent se vytvářejí hlavně pro zábavu dětí nejrůznějšího věku. Samozřejmě, že jednotliví vývojáři se snaží přidat svým programům alespoň špetku respektu a závažnosti, ale díky tomu jsou často jejich výtvory o to komičtější. Jiní se naopak vůbec nesnaží skrývat zábavný charakter svých výtvorů, jako například tvůrce utility MUSH.

Mush.zip (132 KB)

MUSH je zkratka z Music Scripting Helper. Tato utilita vytváří skripty pro hudební MIDI a KAR (text Karaoke) soubory. Používat MUSH není složité. Je zapotřebí pouze vybrat agenta (nejlépe shodného se základním), označit všechny body kromě La´ the words, rozhodnout, kam uložit hotový klip, klepnout na Convert a najít vhodný soubor MIDI nebo KAR (Karaoke – hudební MIDI s textem) pro zpracování. Hodí se libovolná skladba, ale pouze s anglickými slovy - české texty MUSH nepodporuje. Mimochodem, když se klikne na tlačítko Find same Karaoke Files, v prohlížeči se otevře stránka množstvím KAR souborů.

Pokud se rozhodnete, kreslená postavička vám zazpívá vybranou písničku. Samozřejmě, že to nebude takové, jako od Luciana Pavarottiho, ale bude to svým způsobem originální. Pokud vám interpretace vyhoví, MUSH uloží výsledek. Ze třech možných variant jsem si osobně vybral ten nejjednodušší a dostupný - export do Internet Exploreru (Basic web output).

Získaný HTML soubor bude obsahovat pouze jedno tlačítko Play. Když na toto tlačítko klepnete, objeví se zpívající pomocník.

 

CyberBuddy 2.12

Instalace/Kopírování

+ mnohofunkčnost
+ vestavěný poštovní klient a organizér
+ pružný systém nastavení

Můj oblíbený Agent Reader (www.aldoatools.com) se v tomto roce stal sharewarem, bez boje odevzdal vedoucí pozici v třídě neplacených hlasových programů virtuálnímu sekretáři Johna DeFino CyberBuddy. A právem. Tato utilita byla v posledních verzích podstatně přepracována. Za prvé se v jejích nastaveních objevila možnost výběru klíčových frází pro různé jazyky, čeština ale chybí (General - Advanced Options - Select Language Files) a za druhé byla opravena nepříjemná chyba spojená s chybějícím korektním ukončením (bez stlačení Ctrl+Alt+Del) programu po skončení práce.

Nyní, potom co se zbavil hříšků mládí, nabízí CyberBuddy výkonný univerzální program, který plní množství užitečných funkcí pro široký okruh uživatelů: mluvícího pošťáka (E-mail), organizér (Remind), internet pager (Buddies - Send), zprostředkovatele příspěvků (News), také hlídače změn na webových stránkách (WWW) a pohybu kurzů na burzách (Stocks). Vše je ozvučeno, ozdobeno animovanými postavičkami a navíc zcela zadarmo. Zcela jistě to má smysl vyzkoušet, pouze hlasový engine a knihovny se musí stáhnout odděleně, neb nejsou součástí distribuční verze CyberBuddy.

V tomto programu je možné vše nastavit podle vlastního vkusu. Na záložce General - Character and Speech Options si nastavte podle sebe různé parametry pomocníků a hlasových enginů. Na záložce General - Advanced Options vyberte skin pro základní okno programu a napište, pokud chcete, vlastní fráze pro animované postavičky (Custom Message).

Na záložce E-mail budete muset zadat adresu své poštovní schránky a také uživatelské jméno a heslo pro přístup k e-mailu. Nyní, po příkazu Get E-mail Now, budete dostávat poštu a po vyznačení příslušného dopisu uslyšíte jeho obsah (Read E-mail).

Pokud program instalujete z CD, je třeba jako první spustit soubor „tv_enua.exe“ pro instalaci hlasového enginu. Jinak se program bude tento soubor snažit nahrát z internetu.

Další odkazy:

CS-VOICE 97
- český hlasový výstup
cena cca 5000 Kč, http://www.frog.cz

Ukázka profesionálních projektů - webové generování řeči (čte zadaný text)
http://www.speechtech.cz
http://www.bell-labs.com/project/tts/voices.html
http://www.research.att.com/projects/tts


Speakonia 1.03

Instalace/Kopírování

+ jednoduché rozhraní
+ možnost uložení čteného textu do WAV souboru
- nastavení je možné pouze pro engine Lermout & Hauspie

Nejjednodušší a dostupný způsob jak ozvučit text v počítači je použít program Speakonia. Jediné, co budete potřebovat je nainstalovat vybraný hlasový engine (Lermout & Hauspie, Digalo nebo Sakrament). Co se týče knihoven MS Speech API a podpory anglického jazyka (American English), ty jsou již výrobcem přiloženy v instalačním souboru.

Rozhraní Speakonia - to je vzor minimalizmu. Nic zbytečného, pouze základní hlasové funkce. Ovládání je úplně stejné jako v multimediálních přehrávačích: tlačítko spuštění čtení, pauzy a úplného zastavení. Parametry přednášení se v zásadě dají nastavovat (Speech - Properties). Můžete si vybrat hlasový engine, rychlost, zabarvení a zvučnost hlasu - nutno přiznat že pouze pro engine Lernout & Hauspie. Ale v každém případě hodnoty, které jsou nastaveny implicitně, vám určitě budou vyhovovat. Pokud se zamotáte v nastaveních, můžete klidně kliknout na tlačítko Reset a nespletete se. Tím spíše, že kvalita čtení nezávisí na vlastním programu Speakonia. V Editoru uživatelských slovníků, který se objeví po kliknutí myši na tlačítko Lexicon na záložce Opravy je možné upřesnit nesprávně ozvučená slova nebo zkratky.

Mimochodem není to až tak nutné, protože Speakonia vcelku dobře ozvučuje text ze schránky, textové soubory, stránky na internetu (File - Read Webpage) a také aktuální čas a datum. Po registraci na internetových stránkách programu (Tools - Options - Registration) se objeví možnost uložení strojového čtení do WAV souboru (File - Save as Wav File).


GUI Reader 2.0

Instalace/Kopírování

+ nenáročnost na zdroje
+ možnost výběru jazyka textu
- má pouze všeobecná systémová nastavení

Ani ruští vývojáři nezapomínají na hlasové programové vybavení. Příkladem může být GUI Reader Andreje Jefimova, který podporuje všechny potřebné funkce pro programy obdobného druhu, ale přitom zabírá pětkrát (!) méně operační paměti, než Web Talkster a CyberBuddy: 800 KB ve srovnání se 4 MB - to je zřejmá přednost.

V klidovém stavu je GUI Reader zastoupen ikonkou v pravé části hlavního panelu a nijak nepřekáží uživateli při práci. Pro jeho aktivaci je nutné kliknout pravým tlačítkem myši na tuto ikonku a vybrat v rozbalovacím menu to, co je zapotřebí. Je možné požádat GUI Reader, aby ozvučit textový soubor (Read File) nebo obsah schránky (Read Clipboard).

Bohužel program neobsahuje prakticky žádná nastavení. K dispozici jsou pouze standardní systémová menu vlastnosti a doplňkové parametry. Pouze tak je zde možné nastavit pomocníka a jeho hlas. Zato v GUI Reader je povoleno vybírat jazyk ozvučeného textu, bohužel hlavní je, aby ve vašem systému byl nainstalován příslušný hlasový engine s podporou vámi požadovaného jazyka.

V instalačním balíku chybí pouze hlasové enginy, které je nutné instalovat zvlášť.

 

Voice Navigator 1.01

Instalace/Kopírování

+ vysoká přesnost rozeznávání
+ možno zadat hlasovou odpověď počítače
- požaduje opakované učení příkazů

Voice Navigator - to je jediný komerční program v tomto přehledu a jediná utilita, která je určena pro hlasové řízení počítače. Jako zajímavost lze uvést, že Navigátor vytvořilo petrohradské Centrum řečových technologií, to samé, které se zabývalo rozšifrováním nahrávek ponorky Kursk, která se před dvěma lety potopila v Barentsově moři.

Oblíbeným dítkem tohoto centra je Truffaldino, komplex hlasového řízení domácí a kancelářské techniky. Vývojáři slibují, že v něm bude obsažena úplná podpora televizí, telefonů a dokonce mikrovlnných trub. Je pravda, že jak to vypadá v praxi, je možné se pouze dohadovat - demoverze Truffaldina nic takového nedemonstruje.

Ale demoverze Voice Navigátoru se ukázala z té nejlepší strany. Sice ne ihned, ale až po menším tréninku.

Pro procvičování je nutné vyznačit myší jeden z pěti bodů, které jsou přístupné v demoverzi, kliknout myší na tlačítko Improve Recognition a zřetelně vyslovit příslušný povel. Může to být libovolné slovo a dokonce i zvuk. Například já si spouštím Kalkulačku na zapísknutí.

Ihned po učení vyzkoušejte vyslovit do mikrofonu příkaz pro spuštění nějakého programu, např. Poznámkového bloku a ověřte reakci. Když skončíte práci, vyslovte podmíněný příkaz pro Zavřít a aktivní okno se zavře. Příkazy se provádí poměrně rychle a přesně, ale čas od času je zapotřebí je opakovaně učit.

Kromě všeho ostatního je pro příkazy uživatele možné zadat určitou hlasovou odpověď v tzv. Sound File Manager. Pokud vám nevyhovuje implicitní varianta, klikněte na Replace a uložte nebo nadiktujte svoje vlastní.

A. Jevdokimov, P. Zákostelný