1.2 Hluk |
Hlukem m∙₧e b²t jak²koliv zvuk, kter² znesnad≥uje rozpoznßvßnφ mluvenΘ °eΦi. P°φklady hluku mohou b²t: b∞₧nΘ pozadφ, hudba, ·dery, °eΦ na pozadφ, smφch, kaÜel, stroje, projevy souvisejφcφ se snφmacφ technikou, aerodynamick² hluk, Üum
|
1.3 Rozd∞lenφ systΘmu pro rozpoznßvßnφ °eΦi |
Dle zßvislosti na °eΦnφkovi rozeznßvßme tyto typy systΘmu pro anal²zu °eΦi:
a) zßvislΘ na °eΦnφkovi - jsou vyvφjeny pro prßci s jednφm °eΦnφkem. Jsou to nejjednoduÜÜφ typy, jejich v²voj je pom∞rn∞ snadn², jsou levn∞jÜφ a v∞tÜinou p°esn∞jÜφ, ale nejsou tak flexibilnφ jako dalÜφ typy.
b) nezßvislΘ na °eΦnφkovi - jsou schopny pracovat s jak²mkoliv °eΦnφkem urΦitΘho typu (nap°. °eΦnφkem mluvφcφm ΦeÜtinou, Φi americkou angliΦtinou, apod.). V²voj t∞chto systΘm∙ je nejslo₧it∞jÜφ, systΘmy jsou nejdra₧Üφ a nejsou tolik p°esnΘ jako systΘmy zßvislΘ na °eΦnφkovi. NicmΘn∞ jsou flexibiln∞jÜφ a majφ v∞tÜφ rozsah pou₧itφ, ne₧ systΘmy zßvislΘ na °eΦnφkovi.
c) adaptivnφ - jsou vyvφjeny s cφlem p°izp∙sobovat se vlastnostem nov²ch °eΦnφk∙. Jejich slo₧itost je n∞kde mezi systΘmy nezßvisl²mi a systΘmy zßvisl²mi na °eΦnφkovi.
SystΘmy m∙₧eme takΘ porovnßvat podle velikosti slovnφku. Nejsou sice na rozd∞lenφ dle velikosti ₧ßdnΘ ustßlenΘ definice, v₧itΘ jsou ale p°ibli₧n∞ tyto hodnoty:
mal² slovnφk - desφtky slov
st°ednφ slovnφk - stovky slov
velk² slovnφk - tisφce slov
velmi velk² slovnφk - desφtky tisφc slov
|
1.4 Postup p°i rozpoznßvßnφ °eΦi |
Rozpoznßvßnφ °eΦi se dß rozd∞lit na n∞kolik ·rovnφ:
Rozpoznßvßnφ °eΦi zaΦφnß vzorkovßnφm °eΦi - to se provßdφ "klasick²mi" metodami (mikrofon, zesilovaΦ, D/A p°evodnφk).
DalÜφ stupe≥ je zpracovanφ akustickΘho signßlu. Nejpou₧φvan∞jÜφ techniky jsou r∙znΘ techniky spektrßlnφ anal²zy |
o |
LPC - Linear Predictive Coding, tedy lineßrnφ prediktivnφ k≤dovßnφ, kterΘ se sna₧φ na krßtkodobΘm zßkladu odhadnout parametry modelu vytvß°enφ °eΦi. |
o |
MFCC - Mel Frequency Cepstral Coefficients, neboli kepstrßlnφ anal²za. Ta se hodφ pro odd∞lovßnφ signßl∙, kterΘ vznikly konvolucφ dvou nebo vφce slo₧ek.
|
o |
dalÜφ... |
DalÜφ ·rove≥ je rozpoznßnφ fonΘmu, skupin fonΘm∙ a slov. Principem je p°i°azenφ vstupu n∞jakΘmu slovu ze slovnφku znßm²ch slov (v²stup). Op∞t jsou r∙znΘ metody, nap°. |
o |
DTW - Dynamic Time Warping, je technika pou₧φvanß s technikou klasick²ch klasifikßtor∙, kterΘ vyhodnocujφ slovo jako celek podle minimßlnφ "vzdßlenosti" ve stavovΘm prostoru (tj. ve slovnφku) od vzoru. DTW, neboli "borcenφ" ΦasovΘ osy, se pou₧φvß proto, ₧e slovo m∙₧e b²t p°i rozpoznßvßnφ °φkßno r∙znou rychlostφ, ne₧ p°i uΦenφ. Dokonce i uvnit° slov se m∙₧e m∞nit rychlost mluvenφ (nap°. zaΦßtek slova m∙₧e b²t °φkßn rychleji a zbytek pomaleji). DTW tedy vyu₧φvß technik dynamickΘho programovßnφ tφm, ₧e "bortφ" jednu z Φasov²ch os (vstupnφ Φi vzoru) tak, aby se dosßhlo maximßlnφ shody.
|
o |
HMM - hidden Markov modeling, skrytΘ Markovovy °et∞zce. Ty se v dneÜnφ dob∞ vyu₧φvajφ nejvφce, jsou nej·sp∞Ün∞jÜφ. HMM je statistickß metoda, jejφ princip vychßzφ z p°edstavy o vytvß°enφ °eΦi. P°i generovßnφ °eΦi Φlov∞kem si lze p°edstavit, ₧e hlasovΘ ·strojφ je b∞hem krßtkΘho ΦasovΘho intervalu v jednom z koneΦnΘho poΦtu artikulaΦnφch konfiguracφ (stav∙). V tomto stavu je generovßn signßl, kter² lze popsat frekvenΦnφmi charakteristikami, se kter²mi se v HMM pracuje. HMM lze vyu₧φt jak p°i rozpoznßvßnφ izolovan²ch slov, tak i souvislΘ °eΦi.
|
o |
ES - Expertnφ SystΘmy, vyu₧φvajφcφ znalostnφho p°φstupu. Ten spoΦφvß ve formalizaci obecn²ch znalostφ - tzv. bßze znalostφ a jejich odd∞lenφ od °eΦov²ch dat (bßze dat) a tΘ₧ inferenΦnφho mechanizmu manipulace s t∞mito znalostmi a daty. |
o |
NN - Neural Networks, neuronovΘ sφt∞. |
o |
kombinace t∞chto technik
|
N∞kterΘ systΘmy se sna₧φ porozum∞t °eΦi, tj. sna₧φ se zkonvertovat slova do reprezentace, kterß umo₧nφ zjistit, co m∞l °eΦnφk "na mysli". Jin²mi slovy, d∞lajφ syntaktickou a sΘmantickou anal²zu.
|
2 Metody rozpoznßvßnφ slabik |
P°esnß definice slabiky jako lingvistickΘ t°φdy neexistuje. Obecn∞ jsou slabiky uva₧ovßny jako fonetickΘ ·tvary, kterΘ obsahujφ samohlßskovΘ jßdro plus volitelnΘ poΦßteΦnφ a koncovΘ souhlßsky, nebo skupiny souhlßsek. Slabika tak obsahuje jak p°echody souhlßska-samohlßska (CV = consonant + vowel), tak i p°echody samohlßska-souhlßska (VC), vΦetn∞ v∞tÜiny koartikulacφ a jin²ch fonologick²ch efekt∙ uvnit° jejφch hranic. Pro ·plnost je t°eba uvΘst, ₧e v ΦeÜtin∞ m∙₧e b²t v n∞kter²ch p°φpadech samohlßskovΘ jßdro slabiky nahrazeno slabikotvornou sonornφ souhlßskou r, l (v²jimeΦn∞ i m a ve slovech cizφho p∙vodu i n). DΘlka slabiky v ΦeÜtin∞ se p°itom m∙₧e pohybovat od 1 fonΘmu, jako je nap°φklad spojka "a", a₧ po 6 fonΘm∙, nap°φklad jednoslabiΦnΘ slovo "strejc". V²hodnou segmentace podle slabik je, ₧e jßdro slabiky je relativn∞ snadno lokalizovatelnΘ a identifikovatelnΘ akusticky. Z pohledu akustickΘho tedy jde nap°φklad slabiky urΦit jako shluk hlßsek v okolφ energetickΘ ÜpiΦky, proto₧e tato ÜpiΦka se vyskytuje v mluvenΘ °eΦi obvykle v mφst∞ samohlßsek. Obtφ₧n∞jÜφm ·kolem ne₧ detekce tΘto ÜpiΦky je potΘ urΦovßnφ hranic mezi slabikami.
Existuje mnoho d∙vod∙, kterΘ podporujφ d∙le₧itou artikulaΦnφ a percepΦnφ roli slabiky, vΦetn∞ na slabice zalo₧enΘm p°φzvuku a rytmu. Existuje vÜak i n∞kolik nev²hod spojen²ch s u₧φvßnφm slabiky jako jednotky pro segmentaci. P°edevÜφm neexistuje, jak ji₧ bylo naznaΦeno, obecn² souhlas z fonetickΘho i lingvistickΘho hlediska o tom, kde majφ b²t umφst∞ny hranice slabik. SlabiΦnß hranice je z°etelnß pouze v posloupnostech, v nich₧ se st°φdajφ fonΘmy souhlßskovΘ a samohlßskovΘ. Je-li mezi dv∞ sousednφ jßdra vlo₧ena souhlßskovß skupina, pov∞domφ slabiΦnΘ hranice mizφ a fonologickß teorie dosud neobsahuje pravidla, kterß by slabiΦnou hranici p°esn∞ stanovila. DalÜφ nev²hodou je znaΦn² poΦet existujφcφch slabik; v mluvenΘ ΦeÜtin∞ to je vφce ne₧ 10000.
P°φsluÜnost souhlßsky ke konci urΦitΘ slabiky Φi na zaΦßtek slabiky nßsledujφcφ je tedy vφcemΘn∞ spornß. Je urΦena d∞lenφm ve frßzovßnφ °eΦi a m∙₧e plynout z konkrΘtnφ v²slovnosti. Umφst∞nφ slabiky je tΘ₧ siln∞ ovlivn∞no lexikßlnφmi a gramatick²mi vlivy.
UrΦit²m zobecn∞nφm a takΘ rozvinutφm rozpoznßvßnφ slabik je pou₧itφ poloslabiky jako rozpoznßvacφ jednotky. Takto m∙₧e b²t zredukovßn inventß° slabik. Ka₧dß slabika m∙₧e b²t toti₧ poklßdßna za kompozici poΦßteΦnφ poloslabiky, obsahujφcφ poΦßteΦnφ souhlßskov² shluk a p°φsluÜnΘ Φßsti slabikovΘho jßdra, plus koncovΘ poloslabiky, obsahujφcφ zb²vajφcφ Φßst samohlßskovΘho jßdra a koncov² souhlßskov² shluk. U₧itφm poloslabikov²ch jednotek lze redukovat a₧ 5krßt rozm∞r inventß°e vy₧adovanΘho pro reprezentaci promluv ve srovnßnφ s cel²mi slabikami. NicmΘn∞ i u₧itφ poloslabik zavßdφ urΦitou slo₧itost s rozd∞lovßnφm samohlßskovΘho jßdra. Jestli₧e nap°φklad je hranice mezi poΦßteΦnφ a koncovou poloslabikou vytvo°ena ve st°edu samohlßskovΘho jßdra, musφ b²t v∞novßna zvlßÜtnφ pΘΦe procesu porovnßvßnφ samohlßsky na obou stranßch hranice, zvlßÜt∞ jsou-li samohlßsky nßsledovßny sonornφmi hlßskami (tj. l, r, j, m, n, ≥).
DalÜφ mo₧nostφ je potΘ pou₧itφ demislabik. Ty se od p∙lslabik liÜφ umφst∞nφm hranice mezi poΦßteΦnφ a koncovou demislabikou. PoΦßteΦnφ demislabika je vymezena zcela krßtce tak, ₧e rozd∞lujφcφ hranice je umφst∞na t∞sn∞ za p°echod CV (tj. poΦßteΦnφ demislabika obsahuje koartikulaΦnφ jev, ale neobsahuje podstatnou Φßst samohlßsky). Umφst∞nφ hranice tφmto zp∙sobem je efektivnφ tφm, ₧e uvol≥uje omezenφ na obou stranßch hranice a mß i potencißl v redukci inventß°e, podobn∞ jako u p∙lslabik.
Obtφ₧e p°i identifikaci slabik lze v mnoha p°φpadech zobecnit. Nap°φklad akustickß realizace zßvisφ jak na p°edchßzejφcφm a nßsledujφcφm zvuku, tak i na tempu a intonaci °eΦi. Tato zßvislost je znßma jako koartikulace a zavßdφ urΦitΘ "spl²vßnφ" v²slovnosti n∞kter²ch dvojic Φi skupin hlßsek.
|
Obecn²m problΘmem je takΘ identifikace zaΦßtku a konce promluvy. A tento ·kol se vyskytuje i u rozpoznßvßnφ slabik, kde je jeÜt∞ spojen s dalÜφmi obtφ₧emi dan²mi vzßjemn²m vlivem p°edchozφch a nßsledujφcφch slabik. Lze °φci, ₧e velmi obtφ₧nΘ je toto urΦenφ pokud: |
o |
jsou na zaΦßtku Φi na konci promluvy nezn∞lΘ okluzφvy, tj. "p", "t", "k";
|
o |
jsou na konci promluvy slabΘ zn∞lΘ okluzφvy, jako nap°φklad "b", "d", "g", proto₧e ty se zde zm∞nφ na sv∙j nezn∞l² prot∞jÜek.
|
o |
jsou na zaΦßtku Φi konci promluvy slabΘ nezn∞lΘ frikativy, jako nap°φklad "f", "s", "Ü", "ch";
|
o |
jsou na konci promluvy zn∞lΘ frikativy "v", "z", "₧", "h", nebo¥ ty se zde zm∞nφ na sv∙j nezn∞l² prot∞jÜek.
|
o |
jsou na konci promluvy nosnφ souhlßsky "m", "n", "≥";
|
Z hlediska provedenφ je slabikov∞ orientovanΘ rozpoznßvßnφ °eΦi mΘn∞ nßchylnΘ nap°. k v²slovnostnφm odchylkßm. Na druhΘ stran∞ jsou potφ₧e kup°φkladu s velikostφ slovnφku a klφΦov²m problΘmem je Φlen∞nφ na slabikovΘ Φßsti. Jeden p°φstup k tomuto problΘmu je uveden v [7]. Jednß se o systΘm Demosthenes, kter² takΘ obsahuje proceduru pro d∞lenφ °eΦi na slabiky. TamtΘ₧ je i ukßzßno dalÜφ p°φpadnΘ vylepÜenφ a mo₧nost vyu₧itφ DTW pro identifikaci slabik.
P°φstup k rozpoznßvßnφ °eΦi pomocφ slabik je v²hodn² hlavn∞ pro slabikov∞ frßzovanΘ jazyky. Toto umo₧≥uje se lΘpe vyrovnat s koartikulacφ a takΘ umo₧≥uje "obejφt" mnohΘ ostatnφ vlivy v²slovnosti, proto₧e tyto jsou t∞sn∞ svßzßny se slabikami. DalÜφ potφ₧φ je, ₧e v b∞₧nΘ mluv∞ se logickΘ d∞lenφ na slabiky nedodr₧uje a zejmΘna v p°φpad∞ rychlΘ mluvy jsou nejen komoleny hlßsky, ale takΘ frßzovßnφ neodpovφdß mluvnickΘmu Φlen∞nφ na slabiky. Z tohoto d∙vodu je dobrΘ rozliÜit pojmy slabika a slabikov² segment. V rßmci rozpoznßvßnφ je potΘ pot°eba tento nesoulad mezi oΦekßvanou a p°irozenou mluvou zohlednit. Dßle je nutno mφt na pam∞ti spoluvyslovovßnφ n∞kter²ch spojenφ slabik a brßt v ohled pouze rozumn² poΦet takto utvß°en²ch segment∙ °eΦi. Prßv∞ velkΘ mno₧stvφ slabik je slo₧itß ·loha, kterß je d∙le₧itß a je nutno ji zde °eÜit, za prvΘ roz°eÜenφm problΘmu sluΦovßnφ slabik a za druhΘ vytvo°enφ databßze slabik, kterou samoz°ejm∞ nelze vytvß°et ruΦn∞.
Vnφmßnφ hranic slabik je subjektivnφ a tedy nejednoznaΦnΘ. Mezi v²hody slabik pat°φ takΘ to, ₧e lze p°i dalÜφ anal²ze pou₧φt poznatky zφskanΘ z lingvistiky. Nap°φklad pravidelnost p°φzvuku (dob°e patrnou v ΦeÜtin∞) lze vyu₧φt pro zjiÜt∞nφ zaΦßtku slov. Proz≤die je svßzßna s v²slovnostφ, a proto₧e rozbor na ·rovni slabik umo₧≥uje se takto mluvou zab²vat, je zde mo₧nost vyu₧itφ takto zφskan²ch poznatk∙ pro lepÜφ porozum∞nφ nap°φklad rychlΘ Φi jinak ovlivn∞nΘ mluvy. Jednφm z prvnφch krok∙ k dosa₧enφ t∞chto v²hod je urΦenφ p°φzvuku. DobrΘ v²sledky tΘto metody byly experimentßln∞ prokßzßny. Na takto zφskan²ch v²sledcφch lze dßle uplatnit nap°. statistickΘ metody. Ve v∞tÜin∞ p°φpad∙ intenzita zvuku se sni₧uje na hranicφch slabik. V mnoha p°φpadech vÜak toto snφ₧enφ nenφ v²raznΘ a musφ se poΦφtat s koartikulacφ (nap°. slovo "kolo").
DalÜφm d∙le₧it²m poznatkem je zde tΘ₧ mo₧nost a v²hodnost pou₧itφ statistickΘho p°φstupu p°i urΦovßnφ slabik Φi slabikov²ch jednotek, kterΘ majφ b²t za°azeny do omezenΘho slovnφku. D∙vodem tohoto omezenφ je velk² celkov² poΦet slabik jako takov²ch a tudφ₧ nerealizovatelnost jejich identifikace bez urΦit²ch ·prav Φi omezenφ.
|
2.1 P°φstupy k urΦenφ hranic slabik |
Zßkladem v∞tÜiny metod anal²zy akustickΘho signßlu °eΦi je p°edpoklad, ₧e se jeho vlastnosti v pr∙b∞hu Φasu m∞nφ pomalu. Tento p°edpoklad vede k aplikaci tzv. metod krßtkodobΘ anal²zy, p°i nich₧ se ·seky °eΦovΘho signßlu vyd∞lujφ a zpracovßvajφ tak, jako by to byly odd∞lenΘ krßtkΘ zvuky. Tyto segmenty, Φi lΘpe mikrosegmenty, jsou reprezentovßny v∞tÜinou Φasov²mi ·seky 10 a₧ 30 ms. V²sledkem anal²zy je pak Φφslo nebo soubor Φφsel, kterΘ popisujφ dan² mikrosegment. Proto₧e mikrosegmenty na sebe navazujφ, eventußln∞ se pon∞kud p°ekr²vajφ, dostßvßme ΦasovΘ posloupnosti Φφsel, kterΘ popisujφ dan² promluven² celek.
P°ed vlastnφm zpracovßnφm °eΦovΘho signßlu se Φasto vyu₧φvß tzv. preemfßze. Preemfßze znamenß zd∙raz≥ovßnφ amplitud spektrßlnφch slo₧ek °eΦovΘho signßlu s jejich vzr∙stajφcφ frekvencφ. D∙vod tohoto procesu vypl²vß prßv∞ z opaΦnΘho chovßnφ °eΦovΘho ·strojφ, tj. poklesu amplitud spektrßlnφch slo₧ek °eΦovΘho signßlu na vyÜÜφch frekvencφch. Preemfßze tento pokles v jistΘ mφ°e kompenzuje, tak₧e dojde k relativnφmu vyrovnßnφ energetickΘho spektra celΘho p°enßÜenΘho pßsma.
P°φkladem urΦenφ hranice slabiky m∙₧e b²t zjiÜ¥ovßnφ energetick²ch minim [16] (jin² p°φstup je nap°. v [7]). Funkci krßtkodobΘ energie signßlu lze definovat vztahem
kde s(k) je vzorek signßlu v Φase k a w(n) je p°φsluÜn² typ okΘnka. P°i m∞°enφ krßtkodobΘ energie lze doporuΦit dΘlku mikrosegmentu 10-20 ms p°i frekvenci vzorkovßnφ 8-10 kHz. Hodnoty funkce krßtkodobΘ energie poskytujφ pro ka₧d² mikrosegment informaci o pr∙m∞rnΘ hodnot∞ energie v mikrosegmentu. Jednφm z nedostatk∙ tΘto charakteristiky je jejφ znaΦnß citlivost na velkΘ zm∞ny ·rovn∞ signßlu. Ji₧ tak vysokß dynamika °eΦovΘho signßlu je dφky kvadrßtu v (1) jeÜt∞ zv²Üena. Z t∞chto d∙vodu se velmi Φasto vyu₧φvß krßtkodobß intenzita, kterß zmφn∞n² nedostatek nemß,
Hodnoty krßtkodobΘ energie i krßtkodobΘ intenzity mohou b²t vyu₧ity nap°φklad p°i automatickΘm odd∞lovßnφ segmentu ticha od segmentu °eΦi, lze jich tΘ₧ vyu₧φt p°i odd∞lovßnφ zn∞l²ch a nezn∞l²ch Φßstφ promluvy.
|
2.2 NeuronovΘ sφt∞ p°i rozpoznßvßnφ °eΦi |
Neuronov²ch sφtφ dnes existuje celß °ada a je mo₧no je d∞lit dle r∙zn²ch hledisek. D∙le₧it²mi hledisky podle kter²ch lze sφt∞ rozd∞lit do n∞kolika skupin jsou topologie sφt∞ a zp∙sob prßce sφt∞.
1. Rekurentnφ sφt∞
Rekurentnφ sφt∞ majφ systΘm vnit°nφch zp∞tn²ch vazeb a tedy i kreativnφ chovßnφ. Odezva rekurentnφ sφt∞ je dφky existenci vnit°nφ zp∞tnΘ vazby siln∞ Φasov∞ zßvislß. Po vlo₧enφ jistΘho vstupnφho signßlu je urΦena p°φsluÜnß v²stupnφ hodnota a ta je souΦasn∞ znovu p°ivedena na vstup, kter² modifikuje. P°i procesu uΦenφ rekurentnφch sφtφ se vychßzφ z jistΘho poΦßteΦnφho stavu sφt∞ a jejφch postupnΘ zm∞ny probφhajφ dokud nenφ dosa₧eno stabilnφho stavu.
Mezi t∞mito sφt∞mi zaujφmß v²znamnΘ mφsto Hopfieldova sφ¥.
Stav sφt∞ je mo₧nΘ vyjßd°it souborem pr∙b∞₧n²ch stav∙ v²stupnφch signßl∙ vÜech v²konov²ch prvk∙. V p∙vodnφ Hopfieldov∞ sφti se mohl stav ka₧dΘho prvku m∞nit nezßvisle v nßhodn²ch Φasov²ch intervalech. U pozd∞jÜφch verzφ se obvykle uva₧uje synchronnφ m∞na stav∙ vÜech prvk∙. V souΦasnΘ dob∞ se pou₧φvajφ Hopfieldovy sφt∞ ve smyslu asociativnφ pam∞ti, dßle se skuteΦnosti ₧e Hopfieldova sφ¥ po koneΦnΘm Φase dosßhne lokßlnφho minima energie vyu₧φvß k °eÜenφ n∞kter²ch optimalizaΦnφch ·loh, vΦetn∞ NP-t∞₧k²ch, p°φpadn∞ NP-ne·pln²ch.
2. VrstvenΘ sφt∞
Vrstvenß sφ¥ je sφ¥ s vstupnφ vrstvou dimenze m, v²stupnφ vrstvou dimenze n a r skryt²mi vrstvami o obecn∞ r∙zn²ch dimenzφch.
Neurony sousednφch dvou vrstev jsou propojeny systΘmem ka₧d² s ka₧d²m. Sφ¥ se m∙₧e nachßzet ve dvou m≤dech: trΘninkovΘm a pracovnφm.
V pracovnφm m≤du je na vstup sφt∞ p°iveden vstupnφ vektor (dotaz) a z v²stupnφ vrstvy je odeΦtena odezva sφt∞ na tento stimul (odpov∞∩). ProblΘmem je k vrstvenΘ sφti s ji₧ danou topologiφ (poΦtem vrstev a neuron∙ v nich) najφt vßhy vÜech spoj∙. Nßhodn∞ zvolenΘ vßhy nebudou z°ejm∞ odpovφdat zobrazenφ, kterΘ mß sφ¥ realizovat. V procesu adaptace (uΦenφ) je t°eba vßhy upravit. Dosud neexistuje metoda nezaruΦuje ₧e (v koneΦnΘm Φase dosp∞jeme) k ideßlnφmu bodu. Nßsleduje p°ehled neju₧φvan∞jÜφch metod: |
| 2.1 Gradientnφ metody |
|
Gradientnφ metody vychßzejφ z vhodnΘ definice tzv. chybov²ch funkcφ zßvisejφcφch na parametrech sφt∞. Metody hledajφ takovΘ hodnoty parametru (vah), aby chybovou funkci minimalizovali tφm, ₧e z dan²ch poΦßteΦnφch hodnot postupujφ ve sm∞ru gradientu p°φsluÜnΘ nadplochy k menÜφm hodnotßm.
Typick²m p°φkladem jsou metody minimalizujφcφ globßlnφ chybu sφt∞ definovanou jako sumu Φtverc∙ rozdφlu ₧ßdan²ch a vypoΦφtan²ch hodnot, existujφ ale i jinΘ hodnoty.
VrstvenΘ sφt∞ s pevnou topologiφ kterΘ vyu₧φvajφ gradientnφch metod jsou nejrozÜφ°en∞jÜφ a historicky nejstarÜφ. Pat°φ mezi n∞ sφt∞ typu Back-propagation, RBF a dalÜφ. |
| 2.2 StochastickΘ metody |
|
Najφt vhodnΘ hodnoty vah m∙₧eme i hßdßnφm, pokud pou₧ijeme omezujφcφ podmφnky, hovo°φme o stochastick²ch metodßch. ╚ast²m p°φkladem je metoda simulovanΘho ₧φhßnφ. Jednß se o obecnou minimalizaΦnφ metodu zalo₧enou na simulovanΘ teplot∞, kterß rozhoduje zda p°i zm∞n∞ chyby k lepÜφmu tohoto zlepÜenφ vyu₧ijeme, nebo z∙staneme u stavu horÜφho, kter² nßm ale dßvß v∞tÜφ Üance vyskoΦit z lokßlnφho minima. |
| 2.3 GenetickΘ algoritmy |
|
Pokud je mo₧nΘ popsat objekt jist²m deskripΦnφm °et∞zcem a p°i°adit mu v rßmci po₧adovanΘ funkce jistou kriterißlnφ funkci (cost function), m∙₧eme vyu₧φt p°φrodou inspirovan² genetick² p°φstup k hledßnφ nejvhodn∞jÜφho objektu (°eÜenφ - souboru vah). Vytvo°φme jeden Φi vφce objekt∙, stanovφme hodnotu jejich kriterißlnφ funkce a zk°φ₧φme n∞kterΘ z nich (nßhodnß spontßnnφ zm∞na objektu se naz²vß mutace). Pokud mß nov² objekt lepÜφ vlastnosti (lepÜφ hodnotu kriterißlnφ funkce), zavrhneme jeho rodiΦe a pokraΦujeme v dalÜφm k°φ₧enφ. Nakonec by m∞l p°e₧φt ten nej·sp∞Ün∞jÜφ. Tuto myÜlenku lze vyu₧φt i u neuronov²ch sφtφ.
|
3. Sφt∞ s dynamicky se m∞nφcφ topologiφ
Sφt∞ s m∞nφcφ se topologiφ jsou vyu₧φvßny p°edevÜφm ke zrychlenφ reßln²ch aplikacφ. NeuronovΘ sφt∞ jsou p°i pou₧itφ v reßln²ch ·lohßch velmi v²poΦtov∞ nßroΦnΘ (obsahujφ velkΘ mno₧stvφ spojenφ). MyÜlenka sφtφ s dynamicky se m∞nφcφ topologiφ v∞tÜinou spoΦφvß v inicializaci sφt∞ s minimßlnφm poΦtem neuron∙, trΘninkem a nßsledn²m p°idßvßnφm dalÜφch neuron∙ do sφt∞ dle vhodn∞ zvolenΘho kritΘria. Z t∞chto sφtφ se prosadila p°edevÜφm architektura kaskßdovß korelace.
Tato sφ¥ zaΦφnß uΦenφ bez skryt²ch neuron∙, pro adaptaci pou₧φvß gradientnφ metodu (minimalizaci globßlnφ chyby sφt∞). Pokud se v²voj chyby blφ₧φ k asymptot∞ je do sφt∞ p°idßn skryt² neuron, jeho₧ vßhy jsou vypoΦteny na zßklad∞ rezidußlnφ chyby sφt∞. Po p°ipojenφ do sφt∞ se ji₧ vßhy p°idanΘho neuronu nem∞nφ. Tφmto zp∙sobem je postupn∞ vytvo°ena kaskßdovß topologie. Sφt∞ tohoto typu se osv∞dΦili p°edevÜφm jako detektory vyÜÜφch °ßd∙.
V [13] uvßd∞jφ auto°i tyto v²hody neuronov²ch sφtφ p°i rozpoznßvßnφ plynulΘ °eΦi: |
o |
p°izp∙sobivost
|
o |
"fuzzy" rozhodovßnφ
|
o |
schopnost pojmout vφce vzor∙ p°i rozpoznßvßnφ jednoho °eÜenφ se spojenφm poznatk∙ z r∙zn²ch zdroj∙
|
SimulovanΘ neuronovΘ sφ¥ovΘ systΘmy vÜak nabφdly pouze n∞kterΘ uvedenΘ v²hody. ┌sp∞Ünost rozpoznßvßnφ slabik dle tohoto zdroje je v²znamn∞ ovlivn∞na konkrΘtnφm jazykem jeho₧ se rozpoznßvßnφ t²kß. Pom∞rn∞ ·sp∞Ün²m se tento p°φstup ukßzal u japonÜtiny, proto₧e tento jazyk je nap°φklad narozdφl od angliΦtiny, kterß je v rozpoznßvßnφ °eΦi ve st°edu zßjmu, vφce zalo₧en na slabikßch. Z tohoto d∙vodu se zde systΘmy orientovanΘ na slabiky vφce uplatnily a takΘ m∞ly v∞tÜφ ·sp∞Ünost ne₧ u jin²ch jazyk∙. K urΦenφ hranic slabik byla pou₧ita energetickß minima a takto detekovanΘ slabiky byly potΘ porovnßvßny s ulo₧en²mi p°edlohami. D∙le₧itou otßzkou v tΘto souvislosti je takΘ mno₧stvφ slabik Φi slabikov²ch jednotek. Nap°φklad v japonÜtin∞ je kolem 100 slabik. Chybovost p°i jejich urΦovßnφ je tΘ₧ na nφzkΘ ·rovni kolem 4 a₧ 7%.
|
2.2.1 Realizace systΘmu rozpoznßvßnφ °eΦi na zßklad∞ NN |
V tΘto oblasti existujφ i komerΦnφ systΘmy. P°φkladem m∙₧e b²t °ada produkt∙ od firmy SpeechWorks International. Zam∞°enφm jejφch v²robk∙ je komunikace p°es telefonnφ linky. Tato firma dnes nabφzφ v oblasti rozpoznßvßnφ °eΦi °eÜenφ SpeechWorksZ6. Jednß se o skupinu produktu urΦenou k vytvß°enφ systΘmu zam∞°en²ch zejmΘna na obchod po telefonu. V²slednΘ aplikace potΘ komunikujφ se zßkaznφkem p°irozen²m jazykem.
|
2.2.2 Vφcevrstevn² systΘm rozpoznßvßnφ |
V literatu°e [13] je popsßna vφcevrstevnß neuronovß sφ¥ pro rozpoznßvßnφ plynulΘ °eΦi. Tato struktura je zalo₧ena na izolaci a identifikaci slabik. Jednß se vÜak pouze o ·vodnφ experimentßlnφ nßvrh a v²sledky testu jednotliv²ch vrstev nezaruΦujφ ·sp∞Ünost celΘho systΘmu. P°esto jejφ n∞kterΘ vlastnosti se p°i prßci s nφ ukßzaly jako u₧iteΦnΘ. Cφlem je integrovan² systΘm neuronovΘ sφt∞ spojujφcφ vÜechny vrstvy pro rozpoznßvßnφ plynulΘ °eΦi. Popis tohoto konkrΘtnφho nßvrhu systΘmu lze rozd∞lit do t∞chto zßkladnφch Φßstφ: |
o |
vrstva detekce slabik - prvnφ vrstva neuronovΘ sφt∞ pro rozpoznßvßnφ plynulΘ °eΦi zalo₧enΘho na odd∞lenφ a identifikaci slabik zjiÜ¥uje hranice slabik a poskytuje reprezentaci fonetickΘho obsahu ka₧dΘ takto zφskanΘ slabiky.
|
o |
fonetickß vrstva - dalÜφ vrstva se zam∞°uje na fonetick² obsah slabik. Ka₧dß bu≥ka tΘto vrstvy znaΦφ jeden fonΘm t∞ch nejobtφ₧n∞jÜφch slabik. Tyto bu≥ky jsou rozd∞leny na souhlßsky na zaΦßtku slabiky, samohlßsky a souhlßsky na konci slabik.
|
o |
slabikovß vrstva - ka₧dß bu≥ka t°etφ vrstvy p°edstavuje urΦitou slabiku. VφcenßsobnΘ aktivace jejich vstupu znaΦφ slabiky ovlivn∞nΘ danou v²slovnostφ.
|
o |
vrstva slov - zde ka₧dß bu≥ka p°edstavuje urΦitΘ slovo Φi frßzi.
|
Hlavnφm problΘmem identifikace slabik je zde to, ₧e bude dochßzet k odliÜnΘmu rozpoznßnφ slabiky v zßvislosti na v²slovnosti danΘho slova, v n∞m₧ se urΦitß slabika objevuje. DalÜφ otßzkou je definice slabiky, kdy se v₧dy ve skuteΦnosti nesna₧φme identifikovat slabiky, ale pouze seskupenφ hlßsek, kterΘ se blφ₧φ (a pokud mo₧no shoduje) k skuteΦn²m slabikßm.
|
2.2.3 Slabikovß vrstva |
Ka₧dß z t∞chto bun∞k je aktivovßna pro urΦit² typ slabiky. Vzhledem k tomu, ₧e nap°φklad angliΦtina mß kolem 10000 slabik, rozpoznßvßnφ v rßmci celΘho jazyka by vy₧adovalo stejn² poΦet bun∞k v tΘto vrstv∞, proto auto°i pou₧ili, dle jejich nßzoru, efektivn∞jÜφ k≤dovßnφ tΘto vrstvy, jeho₧ principy jsou popsßny dßle.
B∞hem v²slovnosti slabiky jsou pr∙b∞₧n∞ aktivovßny jednotlivΘ bu≥ky slabikovΘ vrstvy. Jakmile je ve fonotopickΘ vrstv∞ aktivovßna bu≥ka ticha, vÜechny bu≥ky hlßskovΘ a fonotopickΘ vrstvy jsou resetovßny, p°iΦem₧ zßznam vyslovenΘ slabiky ve slabikovΘ vrstv∞ z∙stane.
Tato slabikovß vrstva mß n∞kolik vlastnostφ, kterΘ dovolujφ, aby v²slovnost vφceznaΦn²ch spojenφ byla jednoznaΦn∞ rozpoznßna. Prvnφ z nich je vzßjemnΘ ovliv≥ovßnφ. Sice neexistuje ₧ßdnß interakce mezi bu≥kami, kterΘ jsou aktivovßny v Φase r∙zn²ch slabik, ale ka₧dΘ dv∞ slabikovΘ bu≥ky aktivovanΘ "zßrove≥" se navzßjem ovliv≥ujφ. Takto se zaruΦuje, ₧e nebudou vzßjemn∞ potlaΦeny a umo₧nφ, aby v²slednΘ rozhodnutφ o vyslovenΘ slabice uΦinily vyÜÜφ vrstvy, tedy vrstva slovnφ a p°φpadn∞ gramatickß. Dochßzφ tφmto k mo₧nΘmu omezenφ poΦtu slabikov²ch bun∞k, proto₧e je vyu₧ita kombinace vφce bun∞k.
Obr.1: Ilustrace alternativnφho slabikovßnφ
|
2.2.4 Alternativnφ slabikovßnφ |
Model rozpoznßvßnφ °eΦi musφ b²t schopen se p°izp∙sobit zm∞nßm ve slabikovßnφ, kterΘ se objevujφ na hranicφch slov. Za p°edpokladu, ₧e nap°φklad slova "speak" a "about" byla natrΘnovßna p°i vyslovovßnφ izolovan²ch slov, lze jejich sprßvnΘ rozpoznßnφ oΦekßvat pro odd∞lenou v²slovnost. P°i plynulΘ v²slovnosti je vÜak v²slednΘ slabikovßnφ "spea-ka-bout". CelΘ schΘma tohoto spojovßnφ slabik je jako p°φklad uvedeno na Obr. 1, kter² je p°evzat² z [13].
Tento v²sledek nevyhovuje pro porozum∞nφ smyslu frßze. S tφmto se systΘm, kter² rozpoznßvß takΘ slova, vyrovnßvß porovnßvßnφm zjiÜt∞nΘho slabikovßnφ a aktivnφch bun∞k, kterΘ jsou zaktivovßny pro jednotlivΘ p°edpony a p°φpony slabik. Takto se nap°φklad s pomocφ aktivnφch bun∞k "spea" a "k-" zφskß vyhovujφcφ slovo "speak". (Jde o nßhradnφ vstup slovnφ bu≥ky "speak"). Dßle je potΘ aktivovßna bu≥ka " -", kterß znaΦφ, ₧e souhlßska "k" jako p°edpona spojenφ "ka" m∙₧e b²t vynechßna. Vznikne takto "a" jako v²sledek souΦasnΘ aktivace " -" a "ka". Bu≥ky "a" a "ka" vÜak z∙stanou aktivnφ ob∞, proto₧e se m∙₧e jednat o splynutφ v²slovnostφ konce jednoho a zaΦßtku dalÜφho slova, kde "k" m∙₧e nßle₧et ob∞ma slov∙m.
|
2.2.5 DynamickΘ uΦenφ |
Tento uΦφcφ algoritmus slou₧φ k p°eklenutφ situace, kdy nenφ °eΦ rozeznßna v∙bec, nebo je rozeznßna chybn∞. Nap°φklad p°i zφskßnφ nesmyslnΘ anglickΘ sekvence "spea-ka-bout" porovnß aktivovanΘ bu≥ky s oΦekßvan²m slovem "speak". Takto je p°idßna v²Üe popsan²m principem alternativnφ definice "spea.k-" (tedy zßklad "spea" a koncovka p°evzatß z nßsledujφcφ slabiky) a v²stup tΘto bu≥ky musφ aktivovat hlßskovΘ mazßnφ tedy bu≥ku " -".
Po takto provedenΘm p°izp∙sobenφ na vstupnφ mno₧inu frßzφ m∙₧e dojφt k p°esunu souhlßsky i bez uvedenφ novΘho urΦenφ nßhrady ve slovnφ vrstv∞. P°φklad na Obr. 1, p°evzat² z [13], ukazuje takto vytvo°enΘ spojenφ pro p°eslabikovßnφ "spea-kov" na "speak of", kdy vytvo°enφ novΘ definice nenφ pot°ebnΘ, proto₧e je vyu₧ito ji₧ existujφcφ struktury.
|
2.3 SkrytΘ Markovovy modely |
Dosa₧enφ dobrΘho rozpoznßvßnφ s vyu₧itφm HMM systΘmu obecn∞ vy₧aduje fonetickΘ modely, kterΘ berou v ·vahu i kontext. Nap°φklad systΘm DECIPHER, jeho₧ struktura je popsßna v [10], vyu₧φvß ve svΘ kontextovΘ verzi n∞kolik ·rovnφ vΦetn∞ trojhlßsek, zobecn∞n²ch trojhlßsek, trojhlßsek jdoucφch p°es slova, prav²ch a lev²ch dvojhlßsek a zobecn∞n²ch dvojhlßsek. ZejmΘna modely VC u₧φvanΘ u n∞kter²ch zp∙sobu identifikace slabik jsou velmi podobnΘ rozpoznßvßnφ dvojhlßsek. Pro zajiÜt∞nφ robustnosti rozpoznßvßnφ musφ b²t p°φpadnΘ velmi specifickΘ kontextovΘ modely omezeny urΦit²m zp∙sobem tak, aby systΘm sprßvn∞ fungoval v p°φpade odliÜnΘho kontextu, pro kter² nenφ dostateΦnß trΘninkovß mno₧ina. K tomuto se vyu₧φvß "rozmazßnφ" jin²m obecn∞jÜφm modelem.
Oproti metod∞ DTW je nev²hodou skryt²ch Markovov²ch model∙ pracnost a Φasovß nßroΦnost p°i trΘnovßnφ parametr∙ modelu (i pro p°φpad mal²ch slovnφk∙, nebo¥ pro vytvo°enφ spolehlivΘho modelu slova je t°eba znaΦnΘ mno₧stvφ trΘnovacφch promluv).
|
2.4 Hybridnφ rozpoznßvßnφ °eΦi |
Ve v∞tÜin∞ souΦasn²ch systΘm∙ pro rozpoznßvßnφ °eΦi je u₧ito HMM. Tento p°φstup je omezen siln²mi statistick²mi p°edpoklady, kterΘ bohu₧el pro mluvu ne zcela platφ. Techniky pou₧φvajφcφ MLP (multilayer perceptrons) pro odhad pravd∞podobnosti tyto statistickΘ p°edpoklady zmenÜujφ. DalÜφ v²hoda MLP je obecnß schopnost NN omezit poΦet po₧adovan²ch parametr∙ p°i zachovßnφ rozliÜovacφ schopnosti, dochßzφ zde k vyΦlen∞nφ pouze t∞ch d∙le₧it²ch vlastnostφ, kterΘ jsou pro dan² ·kol podstatnΘ. Dßle jsou potΘ takΘ nauΦenΘ informace ulo₧eny distribuovan∞ a to prßv∞ vede k efektivn∞jÜφmu vyu₧itφ. ╚istΘ MLP systΘmy na rozpoznßvßnφ °eΦi nebyly dosud p°φliÜ ·sp∞ÜnΘ kv∙li nutnosti vyrovnat se s p°esn²m d∞lenφm plynulΘho °eΦovΘho signßlu. HMM na druhΘ stran∞ tuto schopnost dob°e postihnout Φlen∞nφ °eΦi z principu majφ a tφm poskytujφ dobrΘ prost°edφ pro rozpoznßvßnφ zejmΘna plynulΘ °eΦi. N∞kolika pracemi bylo prokßzßno, ₧e kombinovßnφ HMM a MLP je mo₧nΘ a lze takto vyu₧φt v²hod obou p°φstup∙. V t∞chto pracφch jako [10, 11] bylo vyu₧ito MLP pro odhad stavovΘ pravd∞podobnosti.
|
3 Metody potlaΦenφ hluku |
V²znam problΘmu potlaΦenφ hluku ve zpracovßvanΘ °eΦi se zv²Üil s rozvojem digitßlnφch celulßrnφch telefon∙. Zde se jednß zejmΘna o otßzku k≤dovßnφ a rozpoznßvßnφ °eΦi. Nßr∙st d∙le₧itosti souvisφ nejen s po₧adavky zßkaznφk∙ na lepÜφ p°enos i v situaci volßnφ ze zahluΦenΘho prost°edφ, ale takΘ pot°ebou p°enßÜet efektivn∞ °eΦ v malΘm datovΘm objemu. Narozdφl od p°enosu °eΦi ve velkΘm objemu dat, nφzkoobjemovΘ p°enosy neposkytujφ obvykle sami od sebe dostateΦnou odolnost v∙Φi hluku. Tφm se kvalita °eΦi v silnΘm ruÜenφ prudce sni₧uje. VeÜkerΘ systΘmy potlaΦovßnφ hluku vÜak nesmφ p°φliÜ naruÜit srozumitelnost poÜkozenφm samotnΘho ΦistΘho °eΦovΘho signßlu.
V minulosti se vylepÜovßnφ °eΦovΘho signßlu zam∞°ovalo na potlaΦenφ aditivnφho hluku na pozadφ. Z pohledu signßlovΘho zpracovßnφ je snazÜφ se vyrovnat s aditivnφm Üumem. Navφc vzhledem k p°irozenΘmu d∞lenφ °eΦi je mo₧nΘ sledovat samotn² Üum v pauzßch, co₧ m∙₧e b²t velice u₧iteΦnΘ.
VylepÜovßnφ °eΦi je velmi specißlnφ p°φpad odhadovßnφ signßlu, proto₧e mluva je nestacionßrnφ a lidskΘ ucho se ne°φdφ jednoduch²mi matematick²mi mφrami chyb. Proto je pot°eba mφt takΘ m∞°enφ subjektivnφ srozumitelnosti a kvality. Cφlem tedy je optimßlnφ odhad zφskan² m∞°enφm hluku. Metody pou₧φvajφcφ pouze jeden mikrofon zde jsou |
o | spektrßlnφ odeΦφtßnφ |
o | MAP nebo MMSE odhadovßnφ |
Existuje i n∞kolik dalÜφch mo₧n²ch metod pou₧iteln²ch pro rozpoznßvßnφ odolnΘ v∙Φi hluku. Zde uvedu pouze v²b∞r z [2], jednß se o |
o | vφcemikrofonovΘ snφmßnφ |
o | fyziologicky motivovanΘ zpracovßnφ |
o | systΘmy dßle vyvφjenΘ v tΘto oblasti
|
3.1 Spektrßlnφ odeΦφtßnφ |
Rozpoznßvßnφ °eΦi a jejφ p°enos v hluΦnΘm prost°edφ Φasto vy₧aduje preprocesor pro potlaΦenφ hluku. To b²vß obtφ₧nΘ zejmΘna v p°φpade, kdy₧ je hluk siln∞ nestacionßrnφ a rozpt²len². P°φkladem m∙₧e b²t pou₧itφ hands-free mobilnφho telefonu v automobilu [1]. Pokud je dßle po₧adovßna nφzkß cena a snadnΘ umφstn∞nφ v prostoru uvnit° vozu, lze pou₧φt pouze metody jedno- Φi dvoumikrofonovΘ. V tomto p°φpade Ülo takΘ p°edpoklßdat, ₧e je v snφmanΘ °eΦi p°φtomen pouze aditivnφ Üum.
Obr.2: Diagram principu cinnosti metody spektrßlnφho odecφtßnφ
Hlavnφ v²hodou metody spektrßlnφho odeΦφtßnφ je jejφ jednoduchost. Narozdφl nap°φklad od metod vyu₧φvajφcφch vφce mikrofon∙ k nalezenφ a odliÜenφ mluvy od okolnφho hluku, v p°φpade odhadu hluku v pauzßch °eΦi, lze spektrßlnφm odeΦφtßnφ pou₧φt i pro jednomikrofonovΘ snφmßnφ. DalÜφm kladem je takΘ mo₧nost nastavenφ odfiltrovßnφ pomocφ poΦtu jeho ôopakovßnφö, jak je znßzorn∞no na obrßzku.
Detektor pauzy slou₧φ k zφskßnφ vzorku hluku. Pokud znßm odhad hluku na pozadφ, mohu podle jeho charakteristik dostat rozt°φd∞nφ a rozeznßnφ zdroje hluku. Dobr² odhad spektra je omezen efektem hudebnφch t≤nu. Existuje sice n∞kolik metod na omezenφ tohoto efektu, p°esto jejich nev²hodou je i to, ₧e zkreslujφ v²slednou ôvylepÜenouö °eΦ.
Metody spektrßlnφho odeΦφtßnφ se liÜφ zejmΘna zp∙sobem odhadu a odeΦtenφ hluku. N∞kterΘ z nich jsou:
|
o | spektrßlnφ rozmazßvßnφ |
o | filtrovßnφ medißnem |
o | maskovßnφ Üirokopßsmov²m Üumem |
o | dvoucestnΘ usm∞rn∞nφ - omezφ vytvß°enφ hudebnφch t≤n∙, tedy nenaruÜuje zv²razn∞nou °eΦ. V²hody: je robustnφ, jednoduchΘ, pracuje i s nehudebnφmi zvuky, umo₧≥uje opakovßnφ |
o | Harrison∙v algoritmus
|
3.1.1 P°edzpracovßnφ |
Je nutnΘ zφskat vzorek hluku. Z tohoto d∙vodu se pou₧φvajφ metody p°edzpracovßnφ pro zlepÜenφ funkce detektoru pauzy a tφm zlepÜenφ funkce detektoru. Jednφm typem takovΘhoto detektoru je detektor se sledovßnφm energie. Mß tu nev²hodu, ₧e hlas musφ b²t v hluku co do intenzity v²razn². Proto v p°φpade siln∞ zahluΦenΘho prost°edφ je t°eba signßl p°edzpracovat a nejv∞tÜφ zdroje hluku odfiltrovat, p°φpadn∞ zajistit zv²razn∞nφ citlivostφ snφmacφ soustavy atd.
|
3.1.2 Detektor pr∙b∞hu °eΦi |
V pr∙b∞hu zjiÜ¥ovßnφ spektra hluku b∞hem pauzy se provßdφ jeho pr∙m∞rovßnφ. Tφmto se zφskß odhad spektra hluku pro spektrßlnφ odeΦφtßnφ v dob∞ promluvy. Pr∙m∞rovßnφ lze provΘst nap°φklad jednoduch²m exponencißlnφm zapomφnßnφm [1].
Detektory °eΦ/pauza mohou fungovat na r∙zn²ch principech. N∞kterΘ z nich nap°φklad jsou [15]:
|
o | detektor energie signßlu |
o | kepstrßlnφ detektor |
o | koherentnφ detektor (detektor koherence)
|
3.2 VφcemikrofonovΘ snφmßnφ |
V∞tÜφm zlepÜenφm pom∞ru signßlu k Üumu lze dosßhnout lepÜφ rozpoznßvacφ p°esnosti. Toho m∙₧eme docφlit pou₧itφm vφcemikrofonovΘho snφmßnφ. Nev²hodou naopak je v∞tÜφ slo₧itost a tedy i nßkladnost takovΘho °eÜenφ. Krom∞ toho v mnoha aplikacφch je umφst∞nφ vφce mikrofon∙ do okolφ mluvΦφho nemo₧nΘ.
|
3.3 Fyziologicky motivovanΘ zpracovßnφ |
N∞kolik schΘmat signßlovΘho zpracovßnφ mluvy bylo vyvinuto s ohledem na r∙znΘ schopnosti lidskΘho sluchu. Tak se b∞₧n∞ sklßdajφ ze skupiny pßsmov²ch propustφ (p°edstavujφcφch selektivitu lidskΘho sluchu) nßsledovanou nelineßrnφmi vztahy nap°φΦ mezi kanßly. Nakonec m∙₧e nßsledovat lineßrnφ zpracovßnφ s mechanismem pro bli₧Üφ vyjßd°enφ ΦasovΘ zm∞ny vzhledem k frekvenci.
VhodnΘ se z teoretickΘho hlediska ukazujφ systΘmy zalo₧enΘ na vlnkovΘ transformaci, proto₧e si lze p°edstavit ·vodnφ smyslovΘ zpracovßnφ jako urΦit² druh vlnkovΘ transformace nßsledovanΘ kompresnφm nelineßrnφm systΘmem.
|
3.4 DalÜφ v²voj v tΘto oblasti |
AΦ v²znamnΘ, je odolnΘ rozpoznßvßnφ °eΦi velmi mladou oblastφ v²zkumu. K dneÜku v∞tÜina ·sp∞Ün²ch systΘm∙ p°izp∙sobujφcφch se prost°edφ byla omezena na pom∞rn∞ mφrnΘ podmφnky (typicky s omezen²m kvazistacionßrnφm p°φdavn²m Üumem a lineßrnφm filtrovßnφm, nebo do oblastφ, kde je velkΘ mno₧stvφ dat charakterizujφcφch prost°edφ). P°izp∙sobovacφ algoritmy ·sp∞Ün∞ zvyÜovaly rozpoznßvacφ schopnost pro jazyk v n∞m₧ byly natrΘnovßny, ale p°esnost p°i rozpoznßvßnφ pro nenauΦenΘ jazyky byla podstatn∞ horÜφ i p°i adaptaci na danΘho mluvΦφho (p°φklad v D. S. Pallett, J. G. Fiscus, W. M. Fisher, J. S. Garofolo, B. A. Lund, A. Martin, and M. A. Przybocki. 1994 benchmark tests for the ARPA spoken language program. In ARPA [ARP95a], p. 5-36).
|
3.5 Shrnutφ |
NejjednoduÜÜφ a takΘ pravd∞podobn∞ nejΦast∞ji implementovanou metodou je metoda spektrßlnφho odeΦφtßnφ. Lze nalΘzt n∞kolik p°φklad∙ ·sp∞ÜnΘho pou₧itφ tΘto metody (nebo jejφ modifikace) pro omezenφ hluku. ╚asto volen²m prost°edkem je zde DSP. N∞kterΘ firmy nabφzejφ i ji₧ hotovΘ systΘmy potlaΦenφ hluku na urΦitΘ procesory v podob∞ programu.
Nev²hodou tΘto metody je nutnost odeΦφst hluk v pauzßch °eΦi. Pokud jsou tyto pauzy Üpatn∞ urΦeny, tak je potom cel² proces odeΦφtßnφ mnohem mΘn∞ ·Φinn², Φi dokonce znehodnocuje samotn² u₧iteΦn² °eΦov² signßl. Proto byly vyvinuty metody, kterΘ na zßklad∞ takto zφskanΘho odhadu Üumu dokß₧φ tento ruÜiv² signßl na pozadφ °eΦi rozeznat i b∞hem samotnΘ mluvy a tφm zv²Üit schopnost potlaΦenφ hluku oproti prostΘmu spektrßlnφho odeΦφtßnφ popsanΘmu v²Üe. Tφmto vÜak roste takΘ slo₧itost metody a vy₧aduje dobrΘ nastavenφ parametr∙, aby byl nejen sprßvn∞ urΦen ·sek °eΦovΘ aktivity, ale takΘ byla samotnß mluva dob°e odliÜena od hluku je₧ na pozadφ z∙stal.
|
4 Zßv∞r |
Otßzka identifikace slabik v hluku se sklßdß z n∞kolika problΘm∙, kterΘ v zßvislosti na pou₧itΘ Φi uva₧ovanΘ metod∞ majφ r∙znou vßhu, a takΘ n∞kterΘ problΘmy jsou pro urΦitΘ metody typickΘ.
Obecn∞ lze °φci, ₧e existujφ zßkladnφ dva p°φstupy, kterΘ se t²kajφ ·kolu vyrovnßnφ se s hlukem. Jednou mo₧nostφ je p°edem upravit zdrojov² signßl tak, aby v n∞m byl hluk omezen. Druh²m p°φstupem je u₧itφ dostateΦn∞ odolnΘho postupu rozpoznßvßnφ slabik, kter² je schopen p°eklenout i zkreslenφ danΘ zahluΦen²m prost°edφm.
Vzhledem k tomu, ₧e popsanΘ metody rozpoznßvßnφ slabik jsou v∞tÜinou zalo₧eny na nauΦenφ se vzoru mluvy v bezhluΦnΘm prost°edφ, je jejich schopnost odolßvat hluku z principu omezenß. Srovnßvßnφ jejich odolnosti je obtφ₧nΘ s ohledem na velkΘ mno₧stvφ struktur, jimi₧ je mo₧nΘ tyto metody realizovat. Obecn∞ je vÜak v p°φpad∞ silnΘho hluku nutnΘ v₧dy pou₧φt n∞kterou z metod na jeho omezenφ.
Metody potlaΦenφ hluku se d∞lφ hlavn∞ dle poΦtu signßl∙ (poΦtu mikrofon∙), kterΘ majφ k dispozici na vstupu. Zmφn∞ny byly zejmΘna metody: spektrßlnφ odeΦφtßnφ (typickΘ pro jeden pou₧it² mikrofon), obecnΘ vφcemikrofonovΘ snφmßnφ a vyu₧itφ typick²ch vlastnostφ °eΦi pro jejφ odliÜenφ od zahluΦenΘho pozadφ (uveden je p°φstup inspirovan² lidsk²ch sluchem).
D∙le₧it²m hlediskem je slo₧itost zpracovßnφ. Posuzovanß hlediska zßvisφ hlavn∞ na dostupn²ch prost°edcφch. Zatφm vÜak nebyla urΦena obecn∞ nejvhodn∞jÜφ metoda, tedy takovß, kterß by umo₧nila nejspolehliv∞jÜφ rozpoznßnφ. Nßroky systΘmu se t²kajφ p°edevÜφm snφmßnφ zvuku a potΘ jeho ·pravy k zφskßnφ v²sledku. Samotnß identifikace zasahuje oblast v²poΦetnφ nßroΦnosti p°i ·prav∞ a rozpoznßvßnφ. Prost°edky vyu₧itΘ p°i snφmßnφ jsou ovlivn∞ny zejmΘna po₧adavky na omezenφ hluku. Hlavnφm hlediskem je pot°ebn² poΦet mikrofon∙ (prostorovß nßroΦnost) a jejich p°φpadnß sm∞rovost.
|
Literatura |
[1] Pollßk, Petr - Sovka, Pavel - Uhlφ°, Jan. The Noise Suppression System for a Car [online]. In proc. of the 3rd European Conference on Speech Communication and Technology - EUROSPEECHÆ93. pp.1073-1076. Sep 1993 [cit. 2001-02-15]. http://noel.feld.cvut.cz/~pollak/publ/eur93.pdf
[2] Survey of the State of the Art in Human Language Technology [online]. Vydßno 21. listopadu 1995. [cit. 2001-02-08]. Formßt PostScript i HTML. DostupnΘ z URL: http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html
[3] Han₧l, Vßclav. Strukturalizace systΘmu pro rozpoznßvßnφ °eΦi [online]. [cit. 2000-12-07]. http://noel.feld.cvut.cz/speechlab/publ/ http://noel.feld.cvut.cz/cgi-bin/man.cgi?section=1&topic=ghostview
[4] Ingerle, Jan. Semestrßlnφ prßce z p°edm∞tu ASI : PotlaΦovßnφ Üumu v °eΦi na bßzi spektrßlnφho odeΦφtßnφ. Praha, 2000. 4 s. Semestrßlnφ prßce z p°edm∞tu ASI na Fakult∞ elektrotechnickΘ ╚eskΘho vysokΘho uΦenφ technickΘho na Kated°e teorie obvodu. [online]. Poslednφ revize 29. °φjna 2000 [cit. 2000-12-08].
http://amber.feld.cvut.cz/user/xingerle/files/asi.pdf http://amber.feld.cvut.cz/user/xingerle/files/asi.ps
[5] Ingerle, Jan - ètrupl, Miroslav. Study of Multisensor Beamformer [online]. 2000. Czech-German Speech Processing Workshop 2000. [cit. 2000-12-08]. http://amber.feld.cvut.cz/user/xingerle/files/ws2000.pdf http://amber.feld.cvut.cz/user/xingerle/files/ws2000.ps
[6] Rothkrantz, L.J.M. - Nollen, D. Speech Recognition using Elman Neural Networks [online]. 1999 [cit. 2000-12-08]. http://link.springer.de/link/service/series/0558/bibs/1692/16920146.htm
[7] KopeΦek, Ivan. Speech Recognition and Syllable Segments. In Proceedings of the International Workshop on Text, Speech and Dialogue - TSDÆ99. Berlin Heidelberg New York : Springer-Verlag, 1999., s. 203-208. Lectures Notes in Artificial Intelligence 1692. ISBN 3-450-66494-7. CEZ:J07/98:143300003, zam∞°. GA201/99/1248, projekt VaV. [online]. 1999 [cit. 2000-12-08]. http://link.sp°inger.de/link/service/series/0558/bibs/1692/16920203.htm
[8] KopeΦek, Ivan. Syllable Based Approach to Automatic Prosody Detection; Applications for Dialogue Systems. In Proceedings of the ESCA Workshop on Dialogue and Prosody. Veldhoven : European Speech Communication Association, 1999., s. 89-92. GA201/99/1248, projekt VaV. [online]. [cit. 2000-12-08]. http://www.fi.muni.cz/~kopecek/diapro99.ps
[9] Kopecek, Ivan. Syllable Segments in Czech. In Proceedings of the XXVII. Mezhvuzovskoy naucznoy konferencii, Vypusk 10. St. Petersburg : Univ. of St. Petersburg, 1998., s. 60-64. [online]. [cit. 2000-12-08]. http://www.fi.muni.cz/lsd/publications/stpb.ps
[10] Cohen, M. - Franco, H. - Morgan, N. - Rumelhart, D. - Abrash, V. Hybrid Neural Network/Hidden Markov Model Continuous Speech Recognition [online]. 1992, [cit. 2000-12-08]. http://www-speech.sri.com/projects/hybrid/papers/icslp.92.cohen.ps
[11] Abrash, V. - Cohen, M. - Franco, H. - Konig, Y. - Morgan, N. - Rumelhart, D. Combining Neural Networks and Hidden Markov Models for Continuous Speech Recognition [online]. [cit. 2001-03-19]. http://citeseer.nj.nec.com/197231.html
[12] Dobias, Ladislav. Metody a realizace hlasov²ch vstup∙ a v²stup∙ v robotice [online]. P°edm∞t ô╪φzenφ robot∙ö FEL CVUT. 10.11.1998, poslednφ revize 8.12.1998 [cit. 2000-12-08]. http://cs.felk.cvut.cz/~xdobiasl/
[13] Noetzel, Andrew. Robust Syllable Segmentation of Continuous Speech using Neural Networks. In Electro International Conference Record, New York, 1991. p. 580-585. (Andrew Noetzel; Associate Professor; Polytechnic University, Department of Computer Science; 333 Jay Street, Brooklyn, NY 11201).
[14] Shim, Chongjoon - Espinoza-Varas, Blas - Cheung, John Y. A PC-based Neural Network for Recognition of Difficult Syllables using LPC Coefficient Difference. In International Joint Conference on Neural Networks, San Diego, California, 1990. p. II-185 - II-190.
[15] Davidek, V. - Sika, J. - Stusak, J. Implementing a Noise Cancellation System with the TMS320C31 [online]. 1999, [cit. 2001-03-19].
http://www-s.ti.com/sc/psheets/spra335/spra335.pdf
[16] Psutka, Josef. Komunikace s poΦφtaΦem mluvenou °eΦφ. 1. vydßnφ. Praha : Academia, 1995. ISBN 80-200-0203-0.
|