Jak na text

Mnozí z nás se dostávají do problému, jak archivovat hmotnou předlohu textu do počítače a nemusí to být nutně jen papír, tiskne se i na další a méně skladné materiály. Důležité je předlohy správně naskenovat a nejlépe, s co nejmenší námahou, je převést do textové podoby pro zpětnou editovatelnost. Protože se nám podařilo pro Chip získat plnou verzi rozpoznávacího programu FineReader 5 Sprint v české a slovenské lokalizaci (instalace), rozhodli jsme se této otázce věnovat více včetně teorie OCR. Pro úplnost jsme oprášili i poslední test stolních skenerů a recenzi nejnovější verze FineReader 6.0.


OCR a čo s tým 
alebo Ako previesť papierovú predlohu do textového súboru

Skenovanie:
Takže ak to chceme spraviť, musíme mať skener, ktorým obraz predlohy zosnímame do počítača. Môže to byť aj digitálny fotoaparát, ale ten má na tento účel pomerne nízke rozlíšenie. Našťastie to už prestáva platiť, ale musí byť k nemu statív, dobrý /rovnomerný/ zdroj svetla a rozlíšenie aspoň 2MPx. Nezabudnime na to, že v tejto etape dostaneme do počítača iba bitovú mapu, nie hotový text!

Dôležitý je výber vhodného skeneru. Budem hovoriťo skeneroch pre domáce použitie, kategória SOHO, teraz do cca 3-4000,- Sk. Na knihy sú pomerne nevhodné skenery s CCD snímačom - tie najlacnejšie a najľahšie niekedy ani nepotrebujú napájací zdroj. Rozoznajú sa aj tým, že u nich je zdrojom svetla pás na zeleno svietiacich diód. Dajú sa použiť iba na jednotlivé listy, pretože majú malý svetelný výkon, maximálne na 1mm od skla. Obvykle sú aj výrazne pomalšie. Odporúčam skenery s vlastnou lampou, či už halogénovou - /Umax/ alebo lampou so studenou katódou /Microtek/. Halogénové lampy majú rýchlejší nábeh, ale niekoľkokrát menšiu životnosť, studenokatódové by mali chvíľu bežať, kým sa ustáli ich svetelný tok. Obraz je obvykle ostrý až do 20mm, rozoznateľný do 30mm. Pokiaľ majú externý zdroj, rýchlosti sú podobné - či už sú s rozhraním SCSII, USB, paralelný port. Bežne zosnímajú stranu A4 v rozlíšení 300DPI a vo farbe /25MB/ do dvoch minút, 600DPI /100MB/ do štyroch minút. Pri 300DPI a 8bit šedej A4 trvá cca 40-60sekúnd. USB a SCSII mávajú rýchlejší náhľad, do 20 sekúnd. Čo som skúšal napríklad Microtek2000, napájaný cez USB - je dobrý, ale zúfalo pomalý. Na rozlíšení nezáleží, všetky zvládajú rozlíšenie 300DPI /bodov na palec/, ani pri skenovaní obrázkov nemá význam ísť vyššie - iba pri skenovaní negatívov je potrebné aspoň 1200DPI, dianástavec a skener musí vedieť vypnúť vlastnú lampu.
Medzi skenermi vybavenými USB a paralelným portom, prípadne SCSII nie je v rýchlosti výrazný rozdiel, robieva to asi 10-20% v prospech USB /SCSII/, ale rýchlosť procesora sa podpíše veľmi výrazne. Napríklad PII 700 oproti P100 robí na rýchlosti viac ako 100%!
Multifunkčné zariadenia sa dajú takisto použiť /napríklad HP/, ale musíme si uvedomiť, na aký účel sa bude používať skenovaciu časť. Ak má celé zariadenie tvar tlačiarne, môžeme doň vložiť iba jednotlivé listy a na oskenovanie zviazanej brožúry môžeme zabudnúť. Vhodnejšie /a drahšie a väčšie/ sú s rovnou doskou pre skenovanie - ale sú univerzálnejšie.
V poslednom čase sa objavili skenery s rozhraním USBII. Ich mechaniky sú stavané na rýchlejší pohyb, náhľad býva do 10 sekúnd, čo bolo ešte nedávno výsadou špičkových SCSII skenerov. Pre tých, čo majú veľa skenovania sú zrejme vhodnejšie.

Dosť veľa záleží od vhodného ovládača pre skener. Vždy nejaký čas trvá, kým výrobca vychytá muchy, takže ak pri skenovaní počítač padá alebo je skenovanie príliš pomalé, neváhajme a stiahnime si novší ovládač zo stránky výrobcu. Mne napríklad novší ovládač /skener Microtek V6USL/ zrýchlil skenovanie skoro o polovicu.

S vhodným skenerom sa dá skenovať cca 200strán za hodinu /100 snímkov/, pri nastavení 300DPI, 8bit šedej /gray scale/, dve stránky A5 na jeden raz, jeden snímok potom zaberie asi 7MB. Treba rátať aj s dostatočne veľkým diskovým priestorom cca 500 - 1000MB na jednu knihu. Nezáleží na výstupnom formáte, ten si prednastaví skener a bolo by ho potrebné stále meniť - stačí použiť nekomprimovaný TIFF, BMP, PCX, každý moderný OCR /Optical Character Recognition - Optické rozoznávanie znakov/ ich pozná. Najvhodnejší je nekomprimovaný Tiff, napríklad PNG z AcdSee3 mi FineReader6 nezobral, zatiaľ čo z XnView bol bez problémov.

Ak stránka obsahuje grafiku, ktorú chceme zachovať, je vhodné si vždy urobiť náhľad /preview/, text potom zosnímať ako odtiene šedej a obrázok ako pravé farby /true color/. OCR to obvykle síce zvládne, ale väčšinou je potrebné obrázky mierne natočiť, orezať na správnu veľkosť, použiť vhodný filter, vymazať chyby, upraviť úrovne... Ak ide iba o text, stačí si raz nastaviť výrez a potom už iba odťukávať a otáčať strany.

Program na prezeranie obrázkov ACDSee /od verzie 3.00/ alebo XnView /freevare/ majú možnosť Acquire /využívajú Twain rozhranie na získanie obrázkov/. V položke Acquire setup nastavíme adresár, do ktorého ukladáme obrázky, formát a spôsob automatického číslovania a dáme Acquire now. Program zavolá rozhranie Twain a v ňom sa sa už iba odklepne SCAN. ACDSee v pozadí preberá obrázky, konvertuje do zvoleného formátu a čísluje ich.

Skenovať sa dá aj priamo z OCR - buď pomocou Twain rozhrania alebo priamo z programu. V takom prípade stačí výrazne menší diskový priestor ale napríklad FineReader verzie 5 na Win 98 je v tomto režime háklivejší, ľahšie padá.

Časom som prišiel na jednu vec, ako zlepšiť obraz počas skenovania. Dlho som totiž laboroval s nastavením jasu a kontrastu - veľmi to nepomáha, takže ich ponechávam na default hodnotách. Ale výrazne pomáha v nastavení Twain v záložke Advanced Image Correction: White/Black Points - najprv dám Auto - tým sa automaticky odstránia prázdne okraje a potom ťahám ľavý /čierny/ trojuholník doprava. Tým sa odstráni zažltnutosť strán a vyblednutosť textu.


Prevod do textu:
Je jasné, že oskenovaný obrázok zaberá príliš veľa priestoru. Dá sa zmenšiť pri použití vhodnej kompresie, zmenšením počtu bodov, farebnej hĺbky, orezaním na vhodný rozmer, použitím vhodných filtrov - ale stále je to obrázok, v ktorom sa rozumným spôsobom nedá text editovať.

Na tento účel sú vytvorené rôzne programy typu OCR, ktoré pomocou inteligentných algoritmov, vektorizácie textu a zabudovaných slovníkov rozoznávajú text z bitmapy, prípadne ho priamo prevádzajú do textu alebo do tabuliek. Pre naše účely môžeme použiť vlastne iba dva produkty - Recognita z maďarskej firmy Recognita, teraz už OmniPage a Finereader od ruskej firmy Abbyy. Oba produkty sú vo verzii 5, 6, už sú veľmi slušne použiteľné. Ja osobne preferujem Abby Finereader, pretože má lepšie výsledky pri prevode - menej chýb, nemá problémy pri farebnom pozadí a pri veľmi zlom podklade, z domovskej stránky sa dá stiahnuť vo verzii Office alebo Pro + príslušné slovníky podľa výberu + interface v slovenčine, čestine.... Nevýhody - je pomalší ako Recognita, stiahnutá verzia je typu Try & Buy /30 spustení, vo verzii 6 už iba 15 spustení/ a je háklivý na zmeny hardwaru a softwaru. Stiahnutá inštalačka /verzia 5, iba anglický jazyk/ zaberá asi 24MB, nainštalovaná verzia cca 37MB.

Oficiálna stránka programu Abby Finereader je www.abbyy.com, je možné si odtiaľ stiahnuť príslušnú demoverziu. Odporúčam ísť aj na stránku www.nupseso.cz, kde sú k dispozícii cenníky, aktualizácie, lokalizované demoverzie a návody na použitie.
Stránka programu Recognita je www.recogita.hu, na ktorej vidieť, že prešla pod ochranné krídla OmniPage. Kedysi tam bola demoverzia Recognity 5, dnes už iba podpora pre zakúpený produkt.

Čo sa týka stability programu FineReader, je to rôzne. Verzia 5 mi chodila bez problémov na Win98, Win98SE i WinXP /s patchom na úpravu registrov/, zatiaľ čo 6 mi na Win98 pri skenovaní so súčasným rozoznávaním textu pomerne spoľahlivo asi po 30 stranách spadla /aj s operačným systémom - chyba modulu Scanman/. Táto chyba zostala i naďalej, i keď sa tvrdí, že v novom builde sa zmenil skenovací modul. V takom prípade je najlepšie najprv oskenovať a FineReader /ďalej iba FR/ potom pustiť iba na obrázky. Inak na tom istom HW, s tými istými univerzálnymi ovládačmi pod WinXP bez problémov - a je tam aj rýchlejší.

Pre tých, čo chcú experimentovať s úpravou FR, napríklad majú verziu bez jazykovej mutácie a chcú si ju doinštalovať, pozor. FR si veľmi chráni integritu svojich modulov a pri výmene knižníc skončí trialová verzia s nulovým počtom dní. Napríklad Čediča /http://cedic.bonusweb.cz// svojho času dožralo, že FR6 nemal lokalizáciu, upravil príslušnú dll - fungovalo to, ale ak ju použijeme na najnovšom builde /647/, okamžite je po skúšaní. Dá sa tomu pomôcť iba tak, že si zazálohujeme systémový disk /napríklad programom NortonGhost alebo Powerquest DriveImage ešte pred inštaláciou FR/ a ak sa vám podarí zrušiť skúšanie, vrátime si systém do pôvodného stavu a inštalujeme znovu. Pozor, vytváranie Restore Point vo WinXP nepomôže.

Porovnanie medzi plnými verziami FR5 a 6 je z môjho hľadiska takéto: FR6 zaberá viac miesta, je rýchlejší, vie lepšie rozoznávať, trial verzia je iba na 15 spustení. Výrobca tvrdí, že vie prečítať aj zaheslované pdf súbory, ale je to tak, že si ich vytlačí do bmp a tie potom rozoznáva - síce s veľkou presnosťou, ale aj tak...


Takže ďalej o programe Abbyy FineReader 5, 6 /plná verzia/:



Po inštalácii programu a jeho úspešnom spustení je potrebné najprv zvoliť pracovný adresár, kde sa ukladajú texty, obrázky a výsledky - buď nový - File/New Batch alebo otvoriť predchádzajúci - Open Batch. Potom je potrebné zvoliť jazyk, prípadne viac jazykov naraz, ak sa vyskytujú v texte.



Ak sa bude prevádzť text priamo zo skeneru, musíte ho najprv nastaviť - Tools/Options/záložka Scan/Open Image/Select Source.

Ak sa bude prevádzať už naskenovaný obrázok, potom stačí cez tlačítko alebo File/Open Image - formáty bmp, dcx, jpg, pcx, png, tiff.

Program obrázky načíta, vyberie vlastný náhľad, natočí do správnej polohy, prečíta, do druhého okna vloží text, prípadne upozorní na chyby.

Samozrejmosťou je možnosť natočenia obrázka, ručného upravovania veľkosti rámcov, ich typu /obrázok, text, tabuľka, čiarový kód/ ... - po týchto úpravách treba príslušný dokument znovu prečítať. Výsledný text sa dá už priamo editovať, ale ja si to nechávam na neskôr, po načítaní výsledného dokumentu do Wordu. Vyplatí sa naštudovať si učiaci proces - hlavne pri častej práci a rovnakých podkladoch - napríklad program si niekedy mýli ď a d'...


Ak už boli načítané všetky podklady, treba uložiť výsledný dokument. Ja ho ukladám do súboru, vo formáte txt, všetky stránky do jedného súboru, s odstránením všetkých formátovacích značiek, bez obrázkov, vo veľkosti A5. Ak chceme zachovať obrázky, uložíme dokument ako dokument Word /bude vo formáte rtf, tak sa nečudujme, že môže narásť aj na niekoľko sto MB/ a po otvorení vo Worde ho uložíme ako html. Obrázky tam budú dvakrát, tie menšie vymažeme a tým máme /skoro/ originálny naskenovaný obrázok, ktorý si môžete upraviť podľa vlastnej chute. Ale príliš sa netešme, pretože je pri nich použitá silná kompresia /JPEG/ a detaily sa dosť výrazne zlievajú. Takže ak chceme získať dobré obrázky, najprv podklad oskenujeme, FR pustíme až na skeny a obrázky si robíme nezávisle.
V prípade, že ponecháme voľbu "Zachovať formátovanie", FR vytvorí veľké množstvo štýlov, ktoré sa snažia čo najvernejšie kopírovať vzhľad pôvodného dokumentu. Líšia sa od seba navzájom nepodstatnými drobnosťami - napríklad veľkosť písma sa líši o 0,5 bodu, odsadenie okrajov v 0,1mm, rozšírene a zúženie písma o 0,01mm... V dlhšom texte ich môže byť aj niekoľko stoviek. Dá sa to prežiť vtedy, ak s tým textom už ďalej nebudeme pracovať a ak je toho iba niekoľko strán. Ak je toho viac, je lepšie sa formátovania zbaviť a upravovať ho až pri korektúre.

Čo sa týka náročnosti na hardware - je vysoká. Ak pustíme rozoznávanie textu na Celeron 400, je to asi rýchlejšie klepať ručne, pri 850MHz nemôžete spustiť žiadnu inú úlohu, ale stíha v reálnom čase - t.j. kým sa jedna strana oskenuje, predchádzajúca sa stihne rozoznať a pri procesore nad 1000MHz už môžete popritom aj vypaľovať CD.

Porovnanie verzie Sprint a plnej verzie:


 

Po úspešnej inštalácii môžete dočasný adresár C:\ABBY vymazať.

Verzia Sprint je veľmi zjednodušená, hlavný rozdiel je v tom, že neumožňuje načítať viacero obrázkov a dávkovo ich spracovať. To znamená, že vždy sa dá otvoriť iba jeden obrázok, rozoznať ho a uložiť výsledok do súboru iba ako txt alebo rtf. To isté platí aj pre skenovanie, vždy sa spracováva iba jedna strana.

 

Nepodporuje viacstranové tif-y, ktoré vytvára FR6, takže je ich vhodné najprv prekonvertovať do png. Okrem toho umožňuje použiť iba jeden rozoznávací jazyk, je vidieť iba jedno okno - buď obrázok alebo rozoznaný text, nie oboje naraz, nedá sa upraviť nástrojová lišta. Tiež chýba režim učenia a vytváranie užívateľských slovníkov. Kvalita rozoznávania je veľmi dobrá, na počudovanie aj funguje celkom svižne /žeby preto Sprint?/. Na občasné použitie je táto verzia dostačujúca. Ak by bolo ale potrebné spraviť knihu s niekoľko sto stranami, potom je vhodnejšie ju naprv celú naskenovať a na obrázky pustiť pribalenú FR6 trial verziu, prípadne kúpiť plnú ako uprage na verziu Sprint.


Formátovanie a úpravy textu:
Najprv trošku všeobecne. Po digitalizácii dokumentu v texte vždy zostane určité množstvo značiek, ktoré možno práve teraz problémy nerobia, ale neskôr sa možno prejavia - buď pri konverzii do iných formátov, alebo pri čítaní v nových čítacích programoch. Napríklad Word má určité rezervy, veľa vecí ignoruje - ale čo keď sa to niekedy trafí? HTML stránky tiež niekedy na konci riadka pridávajú značku, ktorú potom musíme odstrániť.

Najjednoduchšie sa formátovacie značky odstránia tak, že celý dokument sa uloží ako prostý text. Ten sa potom otvorí buď priamo vo Worde alebo /lepšie/ text sa cez schránku /Vybrať všetko alebo Ctrl+A, Skopírovať do schránky alebo Ctrl+C/ vloží do dokumentu /Vložiť alebo Ctrl+V/.

Normálne neviditeľné znaky si zobrazíme tlačítkom pre ich zobrazenie . Potom je vidieť napríklad koniec odstavca, oddielu, viacnásobné medzery, voliteľné rozdelenie, ktoré bežne nevidíme.  

Vo Worde používam funkciu Rozvrhnutie dokumentu , podľa mňa je vhodnejšia než Obsah. Umožňuje rýchly pohyb po dokumente a dobrý prehľad. Vyvoláva sa tlačítkom alebo z menu Zobrazit / Rozvržení dokumentu.



Ak je dokument zle naformátovaný, rozvrhnutie je neprehľadné, nachádzajú sa v ňom kúsky textu... Vtedy je lepšie označiť celý dokument /Ctrl+A/ a z tlačítkového menu Štýly vybrať Normálny, prípadne Vymazať formátovanie.
Potom sa dajú jednotlivé nadpisy označovať príslušným štýlom. Ak aj nebude hneď vyhovovať, nevadí, po ukončení opráv sa dajú naraz upraviť z menu Formát / Štýl / Upraviť / Formát - odstavca alebo písma....


Číslo stránky sa obvykle nachádza na zápätí stránky, upraviť jeho formát je možné po poklepaní. Ak chceme zmeniť niektoré vlastnosti - napríklad nezobrazovať číslo stránky na prvej strane alebo začať číslovať nie od 1, nájdeme to v menu Vložiť / Čísla stránek / Formát.
Word má možnosť korekcie pravopisu - samozrejme, musí byť nainštalovaná. Vie síce automaticky rozpoznávať jazyk, ale nie je to slávne. Lepšie je označiť celý dokument a z menu Nástroje / Jazyk / Nastavit jazyk vybrať príslušný jazyk.
Ak chceme mať slová na konci stránky rozdeľované, /preferujem, dokument sa lepšie číta, sú v ňom menšie medzery/, je to dostupné z menu Nástroje / Jazyk / Dělení slov.

V prípade, že chceme použiť písma mierne neštandardné /okrem klasických napríklad Ariel, Times/, je dobré mať povolenú funkciu Vložit písma True Type z menu Nástroje / Možnosti / Uložit. Ak povolíme funkciu Vložit pouze použité znaky, môže sa pri otvorení na druhom počítači stať to, že dokument bude otvoriteľný iba pre čítanie a nebude sa dať editovať. Pomôže vybrať celý obsah cez schránku a uložiť ako nový dokument.


A na koniec:
Mnoho ľudí si myslí, že po prehnaní podkladu cez OCR získa na 100% taký istý text. Nie je to pravda. Podľa kvality podkladu sa získa text s určitou chybovosťou - ak je dobrý, býva 1-2 chyby na stránke, ale môže byť i niekoľko desiatok. Nerátam v to záhlavia a čísla stránok, ktoré vlastne tiež treba odstraňovať. Preto vždy musíme po OCR ešte skontrolovať výsledný dokument a porovnať ho s originálom, upraviť formátovanie, aby sa zhruba podobalo na originál a aby sa dal dobre čítať na obrazovke. Inak pri takomto porovnávaní často prídete na množstvo chýb aj v pôvodnom dokumente, tak sa veľmi nečudujme. A v tomto okamžiku si môžeme byť istí, že v 100 stranovom dokumente máme ešte asi 10-20 chýb, ktoré sme prehliadli. Preto nastupuje človek, nazývam ho korektor, ktorý si tento text prečíta - obvykle nemusí mať podklad a buď priamo opravuje chyby v texte alebo ich vyznačí farbou, prípadne ich uloží do textového súboru a pošle nám ho naspäť. My tieto opravy buď prijmeme alebo zamietneme. Dobrý text získame vtedy, ak si ho prečítajú aspoň dvaja rôzni korektori. Ak si teraz niekto pomyslí, že stačí, keď si to po sebe prečíta ešte dvakrát, tak je na omyle - tých chýb nájde oveľa menej.

OCR je dobrá vec, ale obrázok niekedy tiež...

RoboV