Automatický překladač
na stranách i4U
Vadí vám, že na svých nejzajímavějších stranách mluví s vámi zatím Internet pořád ještě jenom anglicky?
Mysleli jsme na vás. Až příště najdete další nesmírně zajímavý text, jemuž nerozumíte, pak po přečtení tohoto článku budete znát řešení. Jmenuje se EuroTran96 a na Internetu jej od ledna najdete na naší stránce www.idg.cz/i4U .
Vlastně jen čirou náhodou, když jsme pátrali po dnešním působišti autora někdejšího velmi úspěšného českého programu Winton Milanu Šustkovi, dočkali jsme se překvapení v podobě Eurotranu. Jde o obchodní značkou chráněný programový modul nového anglicko-českého strojového překladače, který je schopen přeložit běžný anglický text do relativně srozumitelné podoby v češtině. Při překladu transformuje syntaktickou strukturu věty, sám skloňuje a časuje české tvary a u víceznačných slov se dokáže rozhodova t mezi několika možnými překlady na základě kontextu, ve kterém se dané slovo vyskytlo.
Modul je ve formě knihovny použitelné v jakékoliv windowsové aplikaci a pro jeho eventuální použití v oblasti Internetu se nabízejí dvě základní možnosti:
Překladový server.
Program běží na internetovém serveru na bázi Windows NT a je přístupný pomocí standardních webových prohlížečů. Uživatel do určeného pole zapíše nebo myší přenese anglický text, stiskne tlačítko a počítač zobrazí o okno níž rovnou text přeložený do češtiny.
Uživatel třeba pracuje běžným způsobem se stránkou v angličtině. Anglicky však umí pouze částečně a řadě slov nerozumí. Využije tedy možnosti strojového překladu a po stisku příslušného tlačítka se mu anglická stránka objeví ve stejném grafickém rozložení, ale už s českým textem. Jiný uživatel, který neumí anglicky vůbec, může zapnout on-line překlad nastálo a průběžně zobrazované strany Internetu se mu tak v dolní čísti obrazovky zobrazují i česky. Eurotran disponuje dostatečným výkonem na to, aby mohl přitékající data překládat průběžně.
Eurotran vychází při překladu z hloubkové analýzy syntaktické struktury každé věty překládaného textu. V průběhu analýzy je věta rozdělena na jednotlivé větné členy, které jsou pak překládány specifickým souborem gramatických pravidel. My zde pro ilustraci uvádíme jen výčet některých gramatických jevů, které Eurotran dokáže zpracovat:
Rozliší číslo podstatných jmen:
house přeloží jako dům
houses přeloží jako domy
Podstatná jména vyskloňuje podle české předložky:
in the book v knize
on the table na stole
Přívlastky podle pádu k nim patřících podstatných jmen:
an interesting new book zajímavá nová kniha
in her own records v jejích vlastních záznamech
Stupňování přídavných jmen:
larger větší
the most interesting nejzajímavější
Časování sloves:
he works on pracuje
we will be working my budeme pracovat
Vybere odpovídající vazbu u předmětu:
I read a book já čtu knihu
I gave him a new book já jsem dal jemu novou knihu
Program také dokáže rozpoznat všechny slovesné časy, podmiňovací způsob, zkrácené podoby slovesných tvarů (we\ll, don\t,...), dokáže správně skloňovat podstatná jména po číslovkách a podobně. Verze, již jsme obdrželi k prvnímu posouzení, vykazuje zatím ještě (vědomě) některé nedostatky, např. v rozkazovacím způsobu, ten však je v běžných textech mimo literární útvary většinou méně frekventovaný a navíc v příští verzi už má být vyřešen i ten. Ještě do konce roku bude probíhat doplňování, jak gramatic kých pravidel, tak slovníku, u nějž je ještě prováděna závěrečná revize.
Co Eurotran odlišuje od všech zatímních programů tohoto typu, je okolnost, že se umí na základě kontextu ve větě rozhodnout mezi několika možnými překlady téhož, do češtiny více způsoby převoditelného slova. Tak například totéž anglické slovo "stand" přeloží jinak, je-li u něj v originále člen "the stand" = postoj anebo, pokud je u něj zájmeno osobní, pochopí, že tentokrát není totéž slovo podstatným jménem, ale slovesem: I stand = já stojím
Podobně jsme vyzkoušeli:
the rock skála
we rock houpeme se
we run (my) běžíme
we run a hotel (my) provozujeme hotel
I try (já) snažím se
I try to succeed (já) pokouším se uspět
Ve ve složitějších případech překládá dokonce i podle typu předmětu:
he doesn\t say that (on) neříká to
he doesn\t say that he agrees (on) neříká, že on souhlasí
nebo podle předložkové vazby:
she looked at the picture dívala se na obraz
she looked for the picture (ona) hledala obraz
Sympatické je i respektování frekventovaných slovních spojení, jež umožní, že program totéž slovo přeloží pokaždé jinak, ale přesně tak, jak je třeba:
air condition klimatizace
air raid nálet
anebo podle funkce ve větném členu:
only my son jen můj syn
my only son můj jediný syn
V ještě složitějších případech a větách, jejichž analýza vede k většímu množství nejednoznačných řešení, používá program kromě výše uvedených metod také pravděpodobnostní metody využívající informace o frekventovanosti jednotlivých slov v anglickém a českém textu.
Zatím použitý slovník obsahuje přibližně 50 tisíc položek a představuje přibližně 95% pokrytí anglického textu. Další funkce umožňují propojit překladač s dalšími odbornými nebo uživatelskými slovníky, "natáhnout" do něj z Windows standardním způsobem celé články či knihy, a získat tak přímo do textového editoru už český překlad, nebo chcete-li podklad pro překlad.
Značka Microton, zaměřená na vývoj prostředků pro strojový překlad, dodává své překladové moduly už tradičně dalším zájemcům, kteří je pak uplatňují ve vlastních výrobcích. (Mezi zatím nejúspěšnější patří například PC Translator nebo Wintran.)
Nadstavba webového prohlížeče (plug-in).
Pro nás je nejzajímavější, že vzhledem k těmto kvalitativně zcela novým potenciálním možnostem Eurotranu i možnosti "naroubovat" jej na internetový server, jsme se s jeho tvůrci dohodli na tom, že od Nového roku budou právě naše internetové stránky prvními, na nichž bude možné jej pokusně vyzkoušet. Anglický text, který najdete na Internetu, budete moci na naší stránce (www.idg.cz/i4U) "prohnat" Eurotranem a během několika vteřin tak získáte sice provizorní, ale přece jen srozumitelný a už upravitel ný překlad do češtiny.
Tzv. beta-verze, na jejímž základě jsme se rozhodovali, je přitom ještě neúplná: chyběly v ní vazby se slovy of , by a that, zatím ještě nebyly aktivní doplňovatelný uživatelský slovník a nápověda a z programu se ještě nedalo tisknout. I tak už ale bylo zřejmé, že blížící se další tisíciletí je vskutku nedaleko. Takto nějak bude vypadat překladatelský robot, o němž jsme zatím jen snili. Program by se měl začít prodávat začátkem ledna a relativně nízká cena kolem 1500 Kč by měla odpovídat možnostem n ašeho trhu, na němž je podle odhadů z roku 1996 až 80% zbytečně drahého softwaru nelegálně kopírováno. Eurotran 96 by měl jít v tomto směru cenově příkladem. Pro názornost dali jsme jako vzorek překladu z elektronické pošty přeložit do češtiny kus vlastního anglického dopisu posílaného do ciziny:
Přátelé, Já jsem končit můj dopis nyní. (I am to close my letter now) Já budu psát příště jiný brzy. Mějte míruplný (peaceful) a barvy plný (colorful) Nový Rok a nechat mně vědět včas (let me know soon) kolem vašich plánů přijít k Praze. Já jsem jistý, že kdyby Mike být tady nyní, on by užíval si toho (he would enjoyed it) velmi hodně. Všechno je vzrušující tady nyní. A Já bych rád splácel vám vaše pohostinství. Zde jsou docela nádherné hotely nyní v Praze stejně jako v Singapore; a také hostní míst nost (guest room) v našem suterénovém podlaží (basement) pro vás také tak dobře.
S nejlepšími přáními pro přicházející Nový Rok
upřímně Váš
Možná to zní některým směšně. Ale ti, kdo znají "výsledky" zatímních překladových programů, vědí, že je to obrovský pokrok. Ostatně, na naší webové adrese se o tom od ledna přesvědčíte osobně. @
ajn
6 0387