1.2 Hluk |
Hlukem může být jakýkoliv zvuk, který znesnadňuje rozpoznávání mluvené řeči. Příklady hluku mohou být: běžné pozadí, hudba, údery, řeč na pozadí, smích, kašel, stroje, projevy související se snímací technikou, aerodynamický hluk, šum
|
1.3 Rozdělení systému pro rozpoznávání řeči |
Dle závislosti na řečníkovi rozeznáváme tyto typy systému pro analýzu řeči:
a) závislé na řečníkovi - jsou vyvíjeny pro práci s jedním řečníkem. Jsou to nejjednodušší typy, jejich vývoj je poměrně snadný, jsou levnější a většinou přesnější, ale nejsou tak flexibilní jako další typy.
b) nezávislé na řečníkovi - jsou schopny pracovat s jakýmkoliv řečníkem určitého typu (např. řečníkem mluvícím češtinou, či americkou angličtinou, apod.). Vývoj těchto systémů je nejsložitější, systémy jsou nejdražší a nejsou tolik přesné jako systémy závislé na řečníkovi. Nicméně jsou flexibilnější a mají větší rozsah použití, než systémy závislé na řečníkovi.
c) adaptivní - jsou vyvíjeny s cílem přizpůsobovat se vlastnostem nových řečníků. Jejich složitost je někde mezi systémy nezávislými a systémy závislými na řečníkovi.
Systémy můžeme také porovnávat podle velikosti slovníku. Nejsou sice na rozdělení dle velikosti žádné ustálené definice, vžité jsou ale přibližně tyto hodnoty:
malý slovník - desítky slov
střední slovník - stovky slov
velký slovník - tisíce slov
velmi velký slovník - desítky tisíc slov
|
1.4 Postup při rozpoznávání řeči |
Rozpoznávání řeči se dá rozdělit na několik úrovní:
Rozpoznávání řeči začíná vzorkováním řeči - to se provádí "klasickými" metodami (mikrofon, zesilovač, D/A převodník).
Další stupeň je zpracovaní akustického signálu. Nejpoužívanější techniky jsou různé techniky spektrální analýzy |
o |
LPC - Linear Predictive Coding, tedy lineární prediktivní kódování, které se snaží na krátkodobém základu odhadnout parametry modelu vytváření řeči. |
o |
MFCC - Mel Frequency Cepstral Coefficients, neboli kepstrální analýza. Ta se hodí pro oddělování signálů, které vznikly konvolucí dvou nebo více složek.
|
o |
další... |
Další úroveň je rozpoznání fonému, skupin fonémů a slov. Principem je přiřazení vstupu nějakému slovu ze slovníku známých slov (výstup). Opět jsou různé metody, např. |
o |
DTW - Dynamic Time Warping, je technika používaná s technikou klasických klasifikátorů, které vyhodnocují slovo jako celek podle minimální "vzdálenosti" ve stavovém prostoru (tj. ve slovníku) od vzoru. DTW, neboli "borcení" časové osy, se používá proto, že slovo může být při rozpoznávání říkáno různou rychlostí, než při učení. Dokonce i uvnitř slov se může měnit rychlost mluvení (např. začátek slova může být říkán rychleji a zbytek pomaleji). DTW tedy využívá technik dynamického programování tím, že "bortí" jednu z časových os (vstupní či vzoru) tak, aby se dosáhlo maximální shody.
|
o |
HMM - hidden Markov modeling, skryté Markovovy řetězce. Ty se v dnešní době využívají nejvíce, jsou nejúspěšnější. HMM je statistická metoda, její princip vychází z představy o vytváření řeči. Při generování řeči člověkem si lze představit, že hlasové ústrojí je během krátkého časového intervalu v jednom z konečného počtu artikulačních konfigurací (stavů). V tomto stavu je generován signál, který lze popsat frekvenčními charakteristikami, se kterými se v HMM pracuje. HMM lze využít jak při rozpoznávání izolovaných slov, tak i souvislé řeči.
|
o |
ES - Expertní Systémy, využívající znalostního přístupu. Ten spočívá ve formalizaci obecných znalostí - tzv. báze znalostí a jejich oddělení od řečových dat (báze dat) a též inferenčního mechanizmu manipulace s těmito znalostmi a daty. |
o |
NN - Neural Networks, neuronové sítě. |
o |
kombinace těchto technik
|
Některé systémy se snaží porozumět řeči, tj. snaží se zkonvertovat slova do reprezentace, která umožní zjistit, co měl řečník "na mysli". Jinými slovy, dělají syntaktickou a sémantickou analýzu.
|
2 Metody rozpoznávání slabik |
Přesná definice slabiky jako lingvistické třídy neexistuje. Obecně jsou slabiky uvažovány jako fonetické útvary, které obsahují samohláskové jádro plus volitelné počáteční a koncové souhlásky, nebo skupiny souhlásek. Slabika tak obsahuje jak přechody souhláska-samohláska (CV = consonant + vowel), tak i přechody samohláska-souhláska (VC), včetně většiny koartikulací a jiných fonologických efektů uvnitř jejích hranic. Pro úplnost je třeba uvést, že v češtině může být v některých případech samohláskové jádro slabiky nahrazeno slabikotvornou sonorní souhláskou r, l (výjimečně i m a ve slovech cizího původu i n). Délka slabiky v češtině se přitom může pohybovat od 1 fonému, jako je například spojka "a", až po 6 fonémů, například jednoslabičné slovo "strejc". Výhodnou segmentace podle slabik je, že jádro slabiky je relativně snadno lokalizovatelné a identifikovatelné akusticky. Z pohledu akustického tedy jde například slabiky určit jako shluk hlásek v okolí energetické špičky, protože tato špička se vyskytuje v mluvené řeči obvykle v místě samohlásek. Obtížnějším úkolem než detekce této špičky je poté určování hranic mezi slabikami.
Existuje mnoho důvodů, které podporují důležitou artikulační a percepční roli slabiky, včetně na slabice založeném přízvuku a rytmu. Existuje však i několik nevýhod spojených s užíváním slabiky jako jednotky pro segmentaci. Především neexistuje, jak již bylo naznačeno, obecný souhlas z fonetického i lingvistického hlediska o tom, kde mají být umístěny hranice slabik. Slabičná hranice je zřetelná pouze v posloupnostech, v nichž se střídají fonémy souhláskové a samohláskové. Je-li mezi dvě sousední jádra vložena souhlásková skupina, povědomí slabičné hranice mizí a fonologická teorie dosud neobsahuje pravidla, která by slabičnou hranici přesně stanovila. Další nevýhodou je značný počet existujících slabik; v mluvené češtině to je více než 10000.
Příslušnost souhlásky ke konci určité slabiky či na začátek slabiky následující je tedy víceméně sporná. Je určena dělením ve frázování řeči a může plynout z konkrétní výslovnosti. Umístění slabiky je též silně ovlivněno lexikálními a gramatickými vlivy.
Určitým zobecněním a také rozvinutím rozpoznávání slabik je použití poloslabiky jako rozpoznávací jednotky. Takto může být zredukován inventář slabik. Každá slabika může být totiž pokládána za kompozici počáteční poloslabiky, obsahující počáteční souhláskový shluk a příslušné části slabikového jádra, plus koncové poloslabiky, obsahující zbývající část samohláskového jádra a koncový souhláskový shluk. Užitím poloslabikových jednotek lze redukovat až 5krát rozměr inventáře vyžadovaného pro reprezentaci promluv ve srovnání s celými slabikami. Nicméně i užití poloslabik zavádí určitou složitost s rozdělováním samohláskového jádra. Jestliže například je hranice mezi počáteční a koncovou poloslabikou vytvořena ve středu samohláskového jádra, musí být věnována zvláštní péče procesu porovnávání samohlásky na obou stranách hranice, zvláště jsou-li samohlásky následovány sonorními hláskami (tj. l, r, j, m, n, ň).
Další možností je poté použití demislabik. Ty se od půlslabik liší umístěním hranice mezi počáteční a koncovou demislabikou. Počáteční demislabika je vymezena zcela krátce tak, že rozdělující hranice je umístěna těsně za přechod CV (tj. počáteční demislabika obsahuje koartikulační jev, ale neobsahuje podstatnou část samohlásky). Umístění hranice tímto způsobem je efektivní tím, že uvolňuje omezení na obou stranách hranice a má i potenciál v redukci inventáře, podobně jako u půlslabik.
Obtíže při identifikaci slabik lze v mnoha případech zobecnit. Například akustická realizace závisí jak na předcházejícím a následujícím zvuku, tak i na tempu a intonaci řeči. Tato závislost je známa jako koartikulace a zavádí určité "splývání" výslovnosti některých dvojic či skupin hlásek.
|
Obecným problémem je také identifikace začátku a konce promluvy. A tento úkol se vyskytuje i u rozpoznávání slabik, kde je ještě spojen s dalšími obtížemi danými vzájemným vlivem předchozích a následujících slabik. Lze říci, že velmi obtížné je toto určení pokud: |
o |
jsou na začátku či na konci promluvy neznělé okluzívy, tj. "p", "t", "k";
|
o |
jsou na konci promluvy slabé znělé okluzívy, jako například "b", "d", "g", protože ty se zde změní na svůj neznělý protějšek.
|
o |
jsou na začátku či konci promluvy slabé neznělé frikativy, jako například "f", "s", "š", "ch";
|
o |
jsou na konci promluvy znělé frikativy "v", "z", "ž", "h", neboť ty se zde změní na svůj neznělý protějšek.
|
o |
jsou na konci promluvy nosní souhlásky "m", "n", "ň";
|
Z hlediska provedení je slabikově orientované rozpoznávání řeči méně náchylné např. k výslovnostním odchylkám. Na druhé straně jsou potíže kupříkladu s velikostí slovníku a klíčovým problémem je členění na slabikové části. Jeden přístup k tomuto problému je uveden v [7]. Jedná se o systém Demosthenes, který také obsahuje proceduru pro dělení řeči na slabiky. Tamtéž je i ukázáno další případné vylepšení a možnost využití DTW pro identifikaci slabik.
Přístup k rozpoznávání řeči pomocí slabik je výhodný hlavně pro slabikově frázované jazyky. Toto umožňuje se lépe vyrovnat s koartikulací a také umožňuje "obejít" mnohé ostatní vlivy výslovnosti, protože tyto jsou těsně svázány se slabikami. Další potíží je, že v běžné mluvě se logické dělení na slabiky nedodržuje a zejména v případě rychlé mluvy jsou nejen komoleny hlásky, ale také frázování neodpovídá mluvnickému členění na slabiky. Z tohoto důvodu je dobré rozlišit pojmy slabika a slabikový segment. V rámci rozpoznávání je poté potřeba tento nesoulad mezi očekávanou a přirozenou mluvou zohlednit. Dále je nutno mít na paměti spoluvyslovování některých spojení slabik a brát v ohled pouze rozumný počet takto utvářených segmentů řeči. Právě velké množství slabik je složitá úloha, která je důležitá a je nutno ji zde řešit, za prvé rozřešením problému slučování slabik a za druhé vytvoření databáze slabik, kterou samozřejmě nelze vytvářet ručně.
Vnímání hranic slabik je subjektivní a tedy nejednoznačné. Mezi výhody slabik patří také to, že lze při další analýze použít poznatky získané z lingvistiky. Například pravidelnost přízvuku (dobře patrnou v češtině) lze využít pro zjištění začátku slov. Prozódie je svázána s výslovností, a protože rozbor na úrovni slabik umožňuje se takto mluvou zabývat, je zde možnost využití takto získaných poznatků pro lepší porozumění například rychlé či jinak ovlivněné mluvy. Jedním z prvních kroků k dosažení těchto výhod je určení přízvuku. Dobré výsledky této metody byly experimentálně prokázány. Na takto získaných výsledcích lze dále uplatnit např. statistické metody. Ve většině případů intenzita zvuku se snižuje na hranicích slabik. V mnoha případech však toto snížení není výrazné a musí se počítat s koartikulací (např. slovo "kolo").
Dalším důležitým poznatkem je zde též možnost a výhodnost použití statistického přístupu při určování slabik či slabikových jednotek, které mají být zařazeny do omezeného slovníku. Důvodem tohoto omezení je velký celkový počet slabik jako takových a tudíž nerealizovatelnost jejich identifikace bez určitých úprav či omezení.
|
2.1 Přístupy k určení hranic slabik |
Základem většiny metod analýzy akustického signálu řeči je předpoklad, že se jeho vlastnosti v průběhu času mění pomalu. Tento předpoklad vede k aplikaci tzv. metod krátkodobé analýzy, při nichž se úseky řečového signálu vydělují a zpracovávají tak, jako by to byly oddělené krátké zvuky. Tyto segmenty, či lépe mikrosegmenty, jsou reprezentovány většinou časovými úseky 10 až 30 ms. Výsledkem analýzy je pak číslo nebo soubor čísel, které popisují daný mikrosegment. Protože mikrosegmenty na sebe navazují, eventuálně se poněkud překrývají, dostáváme časové posloupnosti čísel, které popisují daný promluvený celek.
Před vlastním zpracováním řečového signálu se často využívá tzv. preemfáze. Preemfáze znamená zdůrazňování amplitud spektrálních složek řečového signálu s jejich vzrůstající frekvencí. Důvod tohoto procesu vyplývá právě z opačného chování řečového ústrojí, tj. poklesu amplitud spektrálních složek řečového signálu na vyšších frekvencích. Preemfáze tento pokles v jisté míře kompenzuje, takže dojde k relativnímu vyrovnání energetického spektra celého přenášeného pásma.
Příkladem určení hranice slabiky může být zjišťování energetických minim [16] (jiný přístup je např. v [7]). Funkci krátkodobé energie signálu lze definovat vztahem

kde s(k) je vzorek signálu v čase k a w(n) je příslušný typ okénka. Při měření krátkodobé energie lze doporučit délku mikrosegmentu 10-20 ms při frekvenci vzorkování 8-10 kHz. Hodnoty funkce krátkodobé energie poskytují pro každý mikrosegment informaci o průměrné hodnotě energie v mikrosegmentu. Jedním z nedostatků této charakteristiky je její značná citlivost na velké změny úrovně signálu. Již tak vysoká dynamika řečového signálu je díky kvadrátu v (1) ještě zvýšena. Z těchto důvodu se velmi často využívá krátkodobá intenzita, která zmíněný nedostatek nemá,

Hodnoty krátkodobé energie i krátkodobé intenzity mohou být využity například při automatickém oddělování segmentu ticha od segmentu řeči, lze jich též využít při oddělování znělých a neznělých částí promluvy.
|
2.2 Neuronové sítě při rozpoznávání řeči |
Neuronových sítí dnes existuje celá řada a je možno je dělit dle různých hledisek. Důležitými hledisky podle kterých lze sítě rozdělit do několika skupin jsou topologie sítě a způsob práce sítě.
1. Rekurentní sítě
Rekurentní sítě mají systém vnitřních zpětných vazeb a tedy i kreativní chování. Odezva rekurentní sítě je díky existenci vnitřní zpětné vazby silně časově závislá. Po vložení jistého vstupního signálu je určena příslušná výstupní hodnota a ta je současně znovu přivedena na vstup, který modifikuje. Při procesu učení rekurentních sítí se vychází z jistého počátečního stavu sítě a jejích postupné změny probíhají dokud není dosaženo stabilního stavu.
Mezi těmito sítěmi zaujímá významné místo Hopfieldova síť.
Stav sítě je možné vyjádřit souborem průběžných stavů výstupních signálů všech výkonových prvků. V původní Hopfieldově síti se mohl stav každého prvku měnit nezávisle v náhodných časových intervalech. U pozdějších verzí se obvykle uvažuje synchronní měna stavů všech prvků. V současné době se používají Hopfieldovy sítě ve smyslu asociativní paměti, dále se skutečnosti že Hopfieldova síť po konečném čase dosáhne lokálního minima energie využívá k řešení některých optimalizačních úloh, včetně NP-těžkých, případně NP-neúplných.
2. Vrstvené sítě
Vrstvená síť je síť s vstupní vrstvou dimenze m, výstupní vrstvou dimenze n a r skrytými vrstvami o obecně různých dimenzích.
Neurony sousedních dvou vrstev jsou propojeny systémem každý s každým. Síť se může nacházet ve dvou módech: tréninkovém a pracovním.
V pracovním módu je na vstup sítě přiveden vstupní vektor (dotaz) a z výstupní vrstvy je odečtena odezva sítě na tento stimul (odpověď). Problémem je k vrstvené síti s již danou topologií (počtem vrstev a neuronů v nich) najít váhy všech spojů. Náhodně zvolené váhy nebudou zřejmě odpovídat zobrazení, které má síť realizovat. V procesu adaptace (učení) je třeba váhy upravit. Dosud neexistuje metoda nezaručuje že (v konečném čase dospějeme) k ideálnímu bodu. Následuje přehled nejužívanějších metod: |
| 2.1 Gradientní metody |
|
Gradientní metody vycházejí z vhodné definice tzv. chybových funkcí závisejících na parametrech sítě. Metody hledají takové hodnoty parametru (vah), aby chybovou funkci minimalizovali tím, že z daných počátečních hodnot postupují ve směru gradientu příslušné nadplochy k menším hodnotám.
Typickým příkladem jsou metody minimalizující globální chybu sítě definovanou jako sumu čtverců rozdílu žádaných a vypočítaných hodnot, existují ale i jiné hodnoty.
Vrstvené sítě s pevnou topologií které využívají gradientních metod jsou nejrozšířenější a historicky nejstarší. Patří mezi ně sítě typu Back-propagation, RBF a další. |
| 2.2 Stochastické metody |
|
Najít vhodné hodnoty vah můžeme i hádáním, pokud použijeme omezující podmínky, hovoříme o stochastických metodách. Častým příkladem je metoda simulovaného žíhání. Jedná se o obecnou minimalizační metodu založenou na simulované teplotě, která rozhoduje zda při změně chyby k lepšímu tohoto zlepšení využijeme, nebo zůstaneme u stavu horšího, který nám ale dává větší šance vyskočit z lokálního minima. |
| 2.3 Genetické algoritmy |
|
Pokud je možné popsat objekt jistým deskripčním řetězcem a přiřadit mu v rámci požadované funkce jistou kriteriální funkci (cost function), můžeme využít přírodou inspirovaný genetický přístup k hledání nejvhodnějšího objektu (řešení - souboru vah). Vytvoříme jeden či více objektů, stanovíme hodnotu jejich kriteriální funkce a zkřížíme některé z nich (náhodná spontánní změna objektu se nazývá mutace). Pokud má nový objekt lepší vlastnosti (lepší hodnotu kriteriální funkce), zavrhneme jeho rodiče a pokračujeme v dalším křížení. Nakonec by měl přežít ten nejúspěšnější. Tuto myšlenku lze využít i u neuronových sítí.
|
3. Sítě s dynamicky se měnící topologií
Sítě s měnící se topologií jsou využívány především ke zrychlení reálných aplikací. Neuronové sítě jsou při použití v reálných úlohách velmi výpočtově náročné (obsahují velké množství spojení). Myšlenka sítí s dynamicky se měnící topologií většinou spočívá v inicializaci sítě s minimálním počtem neuronů, tréninkem a následným přidáváním dalších neuronů do sítě dle vhodně zvoleného kritéria. Z těchto sítí se prosadila především architektura kaskádová korelace.
Tato síť začíná učení bez skrytých neuronů, pro adaptaci používá gradientní metodu (minimalizaci globální chyby sítě). Pokud se vývoj chyby blíží k asymptotě je do sítě přidán skrytý neuron, jehož váhy jsou vypočteny na základě reziduální chyby sítě. Po připojení do sítě se již váhy přidaného neuronu nemění. Tímto způsobem je postupně vytvořena kaskádová topologie. Sítě tohoto typu se osvědčili především jako detektory vyšších řádů.
V [13] uvádějí autoři tyto výhody neuronových sítí při rozpoznávání plynulé řeči: |
o |
přizpůsobivost
|
o |
"fuzzy" rozhodování
|
o |
schopnost pojmout více vzorů při rozpoznávání jednoho řešení se spojením poznatků z různých zdrojů
|
Simulované neuronové síťové systémy však nabídly pouze některé uvedené výhody. Úspěšnost rozpoznávání slabik dle tohoto zdroje je významně ovlivněna konkrétním jazykem jehož se rozpoznávání týká. Poměrně úspěšným se tento přístup ukázal u japonštiny, protože tento jazyk je například narozdíl od angličtiny, která je v rozpoznávání řeči ve středu zájmu, více založen na slabikách. Z tohoto důvodu se zde systémy orientované na slabiky více uplatnily a také měly větší úspěšnost než u jiných jazyků. K určení hranic slabik byla použita energetická minima a takto detekované slabiky byly poté porovnávány s uloženými předlohami. Důležitou otázkou v této souvislosti je také množství slabik či slabikových jednotek. Například v japonštině je kolem 100 slabik. Chybovost při jejich určování je též na nízké úrovni kolem 4 až 7%.
|
2.2.1 Realizace systému rozpoznávání řeči na základě NN |
V této oblasti existují i komerční systémy. Příkladem může být řada produktů od firmy SpeechWorks International. Zaměřením jejích výrobků je komunikace přes telefonní linky. Tato firma dnes nabízí v oblasti rozpoznávání řeči řešení SpeechWorksZ6. Jedná se o skupinu produktu určenou k vytváření systému zaměřených zejména na obchod po telefonu. Výsledné aplikace poté komunikují se zákazníkem přirozeným jazykem.
|
2.2.2 Vícevrstevný systém rozpoznávání |
V literatuře [13] je popsána vícevrstevná neuronová síť pro rozpoznávání plynulé řeči. Tato struktura je založena na izolaci a identifikaci slabik. Jedná se však pouze o úvodní experimentální návrh a výsledky testu jednotlivých vrstev nezaručují úspěšnost celého systému. Přesto její některé vlastnosti se při práci s ní ukázaly jako užitečné. Cílem je integrovaný systém neuronové sítě spojující všechny vrstvy pro rozpoznávání plynulé řeči. Popis tohoto konkrétního návrhu systému lze rozdělit do těchto základních částí: |
o |
vrstva detekce slabik - první vrstva neuronové sítě pro rozpoznávání plynulé řeči založeného na oddělení a identifikaci slabik zjišťuje hranice slabik a poskytuje reprezentaci fonetického obsahu každé takto získané slabiky.
|
o |
fonetická vrstva - další vrstva se zaměřuje na fonetický obsah slabik. Každá buňka této vrstvy značí jeden foném těch nejobtížnějších slabik. Tyto buňky jsou rozděleny na souhlásky na začátku slabiky, samohlásky a souhlásky na konci slabik.
|
o |
slabiková vrstva - každá buňka třetí vrstvy představuje určitou slabiku. Vícenásobné aktivace jejich vstupu značí slabiky ovlivněné danou výslovností.
|
o |
vrstva slov - zde každá buňka představuje určité slovo či frázi.
|
Hlavním problémem identifikace slabik je zde to, že bude docházet k odlišnému rozpoznání slabiky v závislosti na výslovnosti daného slova, v němž se určitá slabika objevuje. Další otázkou je definice slabiky, kdy se vždy ve skutečnosti nesnažíme identifikovat slabiky, ale pouze seskupení hlásek, které se blíží (a pokud možno shoduje) k skutečným slabikám.
|
2.2.3 Slabiková vrstva |
Každá z těchto buněk je aktivována pro určitý typ slabiky. Vzhledem k tomu, že například angličtina má kolem 10000 slabik, rozpoznávání v rámci celého jazyka by vyžadovalo stejný počet buněk v této vrstvě, proto autoři použili, dle jejich názoru, efektivnější kódování této vrstvy, jehož principy jsou popsány dále.
Během výslovnosti slabiky jsou průběžně aktivovány jednotlivé buňky slabikové vrstvy. Jakmile je ve fonotopické vrstvě aktivována buňka ticha, všechny buňky hláskové a fonotopické vrstvy jsou resetovány, přičemž záznam vyslovené slabiky ve slabikové vrstvě zůstane.
Tato slabiková vrstva má několik vlastností, které dovolují, aby výslovnost víceznačných spojení byla jednoznačně rozpoznána. První z nich je vzájemné ovlivňování. Sice neexistuje žádná interakce mezi buňkami, které jsou aktivovány v čase různých slabik, ale každé dvě slabikové buňky aktivované "zároveň" se navzájem ovlivňují. Takto se zaručuje, že nebudou vzájemně potlačeny a umožní, aby výsledné rozhodnutí o vyslovené slabice učinily vyšší vrstvy, tedy vrstva slovní a případně gramatická. Dochází tímto k možnému omezení počtu slabikových buněk, protože je využita kombinace více buněk.

Obr.1: Ilustrace alternativního slabikování
|
2.2.4 Alternativní slabikování |
Model rozpoznávání řeči musí být schopen se přizpůsobit změnám ve slabikování, které se objevují na hranicích slov. Za předpokladu, že například slova "speak" a "about" byla natrénována při vyslovování izolovaných slov, lze jejich správné rozpoznání očekávat pro oddělenou výslovnost. Při plynulé výslovnosti je však výsledné slabikování "spea-ka-bout". Celé schéma tohoto spojování slabik je jako příklad uvedeno na Obr. 1, který je převzatý z [13].
Tento výsledek nevyhovuje pro porozumění smyslu fráze. S tímto se systém, který rozpoznává také slova, vyrovnává porovnáváním zjištěného slabikování a aktivních buněk, které jsou zaktivovány pro jednotlivé předpony a přípony slabik. Takto se například s pomocí aktivních buněk "spea" a "k-" získá vyhovující slovo "speak". (Jde o náhradní vstup slovní buňky "speak"). Dále je poté aktivována buňka " -", která značí, že souhláska "k" jako předpona spojení "ka" může být vynechána. Vznikne takto "a" jako výsledek současné aktivace " -" a "ka". Buňky "a" a "ka" však zůstanou aktivní obě, protože se může jednat o splynutí výslovností konce jednoho a začátku dalšího slova, kde "k" může náležet oběma slovům.
|
2.2.5 Dynamické učení |
Tento učící algoritmus slouží k překlenutí situace, kdy není řeč rozeznána vůbec, nebo je rozeznána chybně. Například při získání nesmyslné anglické sekvence "spea-ka-bout" porovná aktivované buňky s očekávaným slovem "speak". Takto je přidána výše popsaným principem alternativní definice "spea.k-" (tedy základ "spea" a koncovka převzatá z následující slabiky) a výstup této buňky musí aktivovat hláskové mazání tedy buňku " -".
Po takto provedeném přizpůsobení na vstupní množinu frází může dojít k přesunu souhlásky i bez uvedení nového určení náhrady ve slovní vrstvě. Příklad na Obr. 1, převzatý z [13], ukazuje takto vytvořené spojení pro přeslabikování "spea-kov" na "speak of", kdy vytvoření nové definice není potřebné, protože je využito již existující struktury.
|
2.3 Skryté Markovovy modely |
Dosažení dobrého rozpoznávání s využitím HMM systému obecně vyžaduje fonetické modely, které berou v úvahu i kontext. Například systém DECIPHER, jehož struktura je popsána v [10], využívá ve své kontextové verzi několik úrovní včetně trojhlásek, zobecněných trojhlásek, trojhlásek jdoucích přes slova, pravých a levých dvojhlásek a zobecněných dvojhlásek. Zejména modely VC užívané u některých způsobu identifikace slabik jsou velmi podobné rozpoznávání dvojhlásek. Pro zajištění robustnosti rozpoznávání musí být případné velmi specifické kontextové modely omezeny určitým způsobem tak, aby systém správně fungoval v případe odlišného kontextu, pro který není dostatečná tréninková množina. K tomuto se využívá "rozmazání" jiným obecnějším modelem.
Oproti metodě DTW je nevýhodou skrytých Markovových modelů pracnost a časová náročnost při trénování parametrů modelu (i pro případ malých slovníků, neboť pro vytvoření spolehlivého modelu slova je třeba značné množství trénovacích promluv).
|
2.4 Hybridní rozpoznávání řeči |
Ve většině současných systémů pro rozpoznávání řeči je užito HMM. Tento přístup je omezen silnými statistickými předpoklady, které bohužel pro mluvu ne zcela platí. Techniky používající MLP (multilayer perceptrons) pro odhad pravděpodobnosti tyto statistické předpoklady zmenšují. Další výhoda MLP je obecná schopnost NN omezit počet požadovaných parametrů při zachování rozlišovací schopnosti, dochází zde k vyčlenění pouze těch důležitých vlastností, které jsou pro daný úkol podstatné. Dále jsou poté také naučené informace uloženy distribuovaně a to právě vede k efektivnějšímu využití. Čisté MLP systémy na rozpoznávání řeči nebyly dosud příliš úspěšné kvůli nutnosti vyrovnat se s přesným dělením plynulého řečového signálu. HMM na druhé straně tuto schopnost dobře postihnout členění řeči z principu mají a tím poskytují dobré prostředí pro rozpoznávání zejména plynulé řeči. Několika pracemi bylo prokázáno, že kombinování HMM a MLP je možné a lze takto využít výhod obou přístupů. V těchto pracích jako [10, 11] bylo využito MLP pro odhad stavové pravděpodobnosti.
|
3 Metody potlačení hluku |
Význam problému potlačení hluku ve zpracovávané řeči se zvýšil s rozvojem digitálních celulárních telefonů. Zde se jedná zejména o otázku kódování a rozpoznávání řeči. Nárůst důležitosti souvisí nejen s požadavky zákazníků na lepší přenos i v situaci volání ze zahlučeného prostředí, ale také potřebou přenášet efektivně řeč v malém datovém objemu. Narozdíl od přenosu řeči ve velkém objemu dat, nízkoobjemové přenosy neposkytují obvykle sami od sebe dostatečnou odolnost vůči hluku. Tím se kvalita řeči v silném rušení prudce snižuje. Veškeré systémy potlačování hluku však nesmí příliš narušit srozumitelnost poškozením samotného čistého řečového signálu.
V minulosti se vylepšování řečového signálu zaměřovalo na potlačení aditivního hluku na pozadí. Z pohledu signálového zpracování je snazší se vyrovnat s aditivním šumem. Navíc vzhledem k přirozenému dělení řeči je možné sledovat samotný šum v pauzách, což může být velice užitečné.
Vylepšování řeči je velmi speciální případ odhadování signálu, protože mluva je nestacionární a lidské ucho se neřídí jednoduchými matematickými mírami chyb. Proto je potřeba mít také měření subjektivní srozumitelnosti a kvality. Cílem tedy je optimální odhad získaný měřením hluku. Metody používající pouze jeden mikrofon zde jsou |
o | spektrální odečítání |
o | MAP nebo MMSE odhadování |
Existuje i několik dalších možných metod použitelných pro rozpoznávání odolné vůči hluku. Zde uvedu pouze výběr z [2], jedná se o |
o | vícemikrofonové snímání |
o | fyziologicky motivované zpracování |
o | systémy dále vyvíjené v této oblasti
|
3.1 Spektrální odečítání |
Rozpoznávání řeči a její přenos v hlučném prostředí často vyžaduje preprocesor pro potlačení hluku. To bývá obtížné zejména v případe, když je hluk silně nestacionární a rozptýlený. Příkladem může být použití hands-free mobilního telefonu v automobilu [1]. Pokud je dále požadována nízká cena a snadné umístnění v prostoru uvnitř vozu, lze použít pouze metody jedno- či dvoumikrofonové. V tomto případe šlo také předpokládat, že je v snímané řeči přítomen pouze aditivní šum.

Obr.2: Diagram principu cinnosti metody spektrálního odecítání
Hlavní výhodou metody spektrálního odečítání je její jednoduchost. Narozdíl například od metod využívajících více mikrofonů k nalezení a odlišení mluvy od okolního hluku, v případe odhadu hluku v pauzách řeči, lze spektrálním odečítání použít i pro jednomikrofonové snímání. Dalším kladem je také možnost nastavení odfiltrování pomocí počtu jeho “opakování”, jak je znázorněno na obrázku.
Detektor pauzy slouží k získání vzorku hluku. Pokud znám odhad hluku na pozadí, mohu podle jeho charakteristik dostat roztřídění a rozeznání zdroje hluku. Dobrý odhad spektra je omezen efektem hudebních tónu. Existuje sice několik metod na omezení tohoto efektu, přesto jejich nevýhodou je i to, že zkreslují výslednou “vylepšenou” řeč.
Metody spektrálního odečítání se liší zejména způsobem odhadu a odečtení hluku. Některé z nich jsou:
|
o | spektrální rozmazávání |
o | filtrování mediánem |
o | maskování širokopásmovým šumem |
o | dvoucestné usměrnění - omezí vytváření hudebních tónů, tedy nenarušuje zvýrazněnou řeč. Výhody: je robustní, jednoduché, pracuje i s nehudebními zvuky, umožňuje opakování |
o | Harrisonův algoritmus
|
3.1.1 Předzpracování |
Je nutné získat vzorek hluku. Z tohoto důvodu se používají metody předzpracování pro zlepšení funkce detektoru pauzy a tím zlepšení funkce detektoru. Jedním typem takovéhoto detektoru je detektor se sledováním energie. Má tu nevýhodu, že hlas musí být v hluku co do intenzity výrazný. Proto v případe silně zahlučeného prostředí je třeba signál předzpracovat a největší zdroje hluku odfiltrovat, případně zajistit zvýraznění citlivostí snímací soustavy atd.
|
3.1.2 Detektor průběhu řeči |
V průběhu zjišťování spektra hluku během pauzy se provádí jeho průměrování. Tímto se získá odhad spektra hluku pro spektrální odečítání v době promluvy. Průměrování lze provést například jednoduchým exponenciálním zapomínáním [1].
Detektory řeč/pauza mohou fungovat na různých principech. Některé z nich například jsou [15]:
|
o | detektor energie signálu |
o | kepstrální detektor |
o | koherentní detektor (detektor koherence)
|
3.2 Vícemikrofonové snímání |
Větším zlepšením poměru signálu k šumu lze dosáhnout lepší rozpoznávací přesnosti. Toho můžeme docílit použitím vícemikrofonového snímání. Nevýhodou naopak je větší složitost a tedy i nákladnost takového řešení. Kromě toho v mnoha aplikacích je umístění více mikrofonů do okolí mluvčího nemožné.
|
3.3 Fyziologicky motivované zpracování |
Několik schémat signálového zpracování mluvy bylo vyvinuto s ohledem na různé schopnosti lidského sluchu. Tak se běžně skládají ze skupiny pásmových propustí (představujících selektivitu lidského sluchu) následovanou nelineárními vztahy napříč mezi kanály. Nakonec může následovat lineární zpracování s mechanismem pro bližší vyjádření časové změny vzhledem k frekvenci.
Vhodné se z teoretického hlediska ukazují systémy založené na vlnkové transformaci, protože si lze představit úvodní smyslové zpracování jako určitý druh vlnkové transformace následované kompresním nelineárním systémem.
|
3.4 Další vývoj v této oblasti |
Ač významné, je odolné rozpoznávání řeči velmi mladou oblastí výzkumu. K dnešku většina úspěšných systémů přizpůsobujících se prostředí byla omezena na poměrně mírné podmínky (typicky s omezeným kvazistacionárním přídavným šumem a lineárním filtrováním, nebo do oblastí, kde je velké množství dat charakterizujících prostředí). Přizpůsobovací algoritmy úspěšně zvyšovaly rozpoznávací schopnost pro jazyk v němž byly natrénovány, ale přesnost při rozpoznávání pro nenaučené jazyky byla podstatně horší i při adaptaci na daného mluvčího (příklad v D. S. Pallett, J. G. Fiscus, W. M. Fisher, J. S. Garofolo, B. A. Lund, A. Martin, and M. A. Przybocki. 1994 benchmark tests for the ARPA spoken language program. In ARPA [ARP95a], p. 5-36).
|
3.5 Shrnutí |
Nejjednodušší a také pravděpodobně nejčastěji implementovanou metodou je metoda spektrálního odečítání. Lze nalézt několik příkladů úspěšného použití této metody (nebo její modifikace) pro omezení hluku. Často voleným prostředkem je zde DSP. Některé firmy nabízejí i již hotové systémy potlačení hluku na určité procesory v podobě programu.
Nevýhodou této metody je nutnost odečíst hluk v pauzách řeči. Pokud jsou tyto pauzy špatně určeny, tak je potom celý proces odečítání mnohem méně účinný, či dokonce znehodnocuje samotný užitečný řečový signál. Proto byly vyvinuty metody, které na základě takto získaného odhadu šumu dokáží tento rušivý signál na pozadí řeči rozeznat i během samotné mluvy a tím zvýšit schopnost potlačení hluku oproti prostému spektrálního odečítání popsanému výše. Tímto však roste také složitost metody a vyžaduje dobré nastavení parametrů, aby byl nejen správně určen úsek řečové aktivity, ale také byla samotná mluva dobře odlišena od hluku jež na pozadí zůstal.
|
4 Závěr |
Otázka identifikace slabik v hluku se skládá z několika problémů, které v závislosti na použité či uvažované metodě mají různou váhu, a také některé problémy jsou pro určité metody typické.
Obecně lze říci, že existují základní dva přístupy, které se týkají úkolu vyrovnání se s hlukem. Jednou možností je předem upravit zdrojový signál tak, aby v něm byl hluk omezen. Druhým přístupem je užití dostatečně odolného postupu rozpoznávání slabik, který je schopen překlenout i zkreslení dané zahlučeným prostředím.
Vzhledem k tomu, že popsané metody rozpoznávání slabik jsou většinou založeny na naučení se vzoru mluvy v bezhlučném prostředí, je jejich schopnost odolávat hluku z principu omezená. Srovnávání jejich odolnosti je obtížné s ohledem na velké množství struktur, jimiž je možné tyto metody realizovat. Obecně je však v případě silného hluku nutné vždy použít některou z metod na jeho omezení.
Metody potlačení hluku se dělí hlavně dle počtu signálů (počtu mikrofonů), které mají k dispozici na vstupu. Zmíněny byly zejména metody: spektrální odečítání (typické pro jeden použitý mikrofon), obecné vícemikrofonové snímání a využití typických vlastností řeči pro její odlišení od zahlučeného pozadí (uveden je přístup inspirovaný lidských sluchem).
Důležitým hlediskem je složitost zpracování. Posuzovaná hlediska závisí hlavně na dostupných prostředcích. Zatím však nebyla určena obecně nejvhodnější metoda, tedy taková, která by umožnila nejspolehlivější rozpoznání. Nároky systému se týkají především snímání zvuku a poté jeho úpravy k získání výsledku. Samotná identifikace zasahuje oblast výpočetní náročnosti při úpravě a rozpoznávání. Prostředky využité při snímání jsou ovlivněny zejména požadavky na omezení hluku. Hlavním hlediskem je potřebný počet mikrofonů (prostorová náročnost) a jejich případná směrovost.
|
Literatura |
[1] Pollák, Petr - Sovka, Pavel - Uhlíř, Jan. The Noise Suppression System for a Car [online]. In proc. of the 3rd European Conference on Speech Communication and Technology - EUROSPEECH’93. pp.1073-1076. Sep 1993 [cit. 2001-02-15]. http://noel.feld.cvut.cz/~pollak/publ/eur93.pdf
[2] Survey of the State of the Art in Human Language Technology [online]. Vydáno 21. listopadu 1995. [cit. 2001-02-08]. Formát PostScript i HTML. Dostupné z URL: http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html
[3] Hanžl, Václav. Strukturalizace systému pro rozpoznávání řeči [online]. [cit. 2000-12-07]. http://noel.feld.cvut.cz/speechlab/publ/ http://noel.feld.cvut.cz/cgi-bin/man.cgi?section=1&topic=ghostview
[4] Ingerle, Jan. Semestrální práce z předmětu ASI : Potlačování šumu v řeči na bázi spektrálního odečítání. Praha, 2000. 4 s. Semestrální práce z předmětu ASI na Fakultě elektrotechnické Českého vysokého učení technického na Katedře teorie obvodu. [online]. Poslední revize 29. října 2000 [cit. 2000-12-08].
http://amber.feld.cvut.cz/user/xingerle/files/asi.pdf http://amber.feld.cvut.cz/user/xingerle/files/asi.ps
[5] Ingerle, Jan - Štrupl, Miroslav. Study of Multisensor Beamformer [online]. 2000. Czech-German Speech Processing Workshop 2000. [cit. 2000-12-08]. http://amber.feld.cvut.cz/user/xingerle/files/ws2000.pdf http://amber.feld.cvut.cz/user/xingerle/files/ws2000.ps
[6] Rothkrantz, L.J.M. - Nollen, D. Speech Recognition using Elman Neural Networks [online]. 1999 [cit. 2000-12-08]. http://link.springer.de/link/service/series/0558/bibs/1692/16920146.htm
[7] Kopeček, Ivan. Speech Recognition and Syllable Segments. In Proceedings of the International Workshop on Text, Speech and Dialogue - TSD’99. Berlin Heidelberg New York : Springer-Verlag, 1999., s. 203-208. Lectures Notes in Artificial Intelligence 1692. ISBN 3-450-66494-7. CEZ:J07/98:143300003, zaměř. GA201/99/1248, projekt VaV. [online]. 1999 [cit. 2000-12-08]. http://link.spřinger.de/link/service/series/0558/bibs/1692/16920203.htm
[8] Kopeček, Ivan. Syllable Based Approach to Automatic Prosody Detection; Applications for Dialogue Systems. In Proceedings of the ESCA Workshop on Dialogue and Prosody. Veldhoven : European Speech Communication Association, 1999., s. 89-92. GA201/99/1248, projekt VaV. [online]. [cit. 2000-12-08]. http://www.fi.muni.cz/~kopecek/diapro99.ps
[9] Kopecek, Ivan. Syllable Segments in Czech. In Proceedings of the XXVII. Mezhvuzovskoy naucznoy konferencii, Vypusk 10. St. Petersburg : Univ. of St. Petersburg, 1998., s. 60-64. [online]. [cit. 2000-12-08]. http://www.fi.muni.cz/lsd/publications/stpb.ps
[10] Cohen, M. - Franco, H. - Morgan, N. - Rumelhart, D. - Abrash, V. Hybrid Neural Network/Hidden Markov Model Continuous Speech Recognition [online]. 1992, [cit. 2000-12-08]. http://www-speech.sri.com/projects/hybrid/papers/icslp.92.cohen.ps
[11] Abrash, V. - Cohen, M. - Franco, H. - Konig, Y. - Morgan, N. - Rumelhart, D. Combining Neural Networks and Hidden Markov Models for Continuous Speech Recognition [online]. [cit. 2001-03-19]. http://citeseer.nj.nec.com/197231.html
[12] Dobias, Ladislav. Metody a realizace hlasových vstupů a výstupů v robotice [online]. Předmět “Řízení robotů” FEL CVUT. 10.11.1998, poslední revize 8.12.1998 [cit. 2000-12-08]. http://cs.felk.cvut.cz/~xdobiasl/
[13] Noetzel, Andrew. Robust Syllable Segmentation of Continuous Speech using Neural Networks. In Electro International Conference Record, New York, 1991. p. 580-585. (Andrew Noetzel; Associate Professor; Polytechnic University, Department of Computer Science; 333 Jay Street, Brooklyn, NY 11201).
[14] Shim, Chongjoon - Espinoza-Varas, Blas - Cheung, John Y. A PC-based Neural Network for Recognition of Difficult Syllables using LPC Coefficient Difference. In International Joint Conference on Neural Networks, San Diego, California, 1990. p. II-185 - II-190.
[15] Davidek, V. - Sika, J. - Stusak, J. Implementing a Noise Cancellation System with the TMS320C31 [online]. 1999, [cit. 2001-03-19].
http://www-s.ti.com/sc/psheets/spra335/spra335.pdf
[16] Psutka, Josef. Komunikace s počítačem mluvenou řečí. 1. vydání. Praha : Academia, 1995. ISBN 80-200-0203-0.
|