01   >   hardware   >   SkenujeÜ, skenujeme... Díl Φtvrtý o podstat∞ barev
 

Autor: P°emek D∞dic


Barvy jaký by bez nich byl sv∞t! Barevné kv∞tiny, monitory, ptáci, tiskárny, ryby, fotografie. AvÜak hned na zaΦátku technického rozboru je t°eba se zbavit iluzí.
Pravda je taková, ₧e barva je Φist∞ lidsky subjektivní pojem, navíc její urΦení siln∞ závisí na individualit∞, která ji posuzuje. Aby se daly barvy v∙bec nezávisle charakterizovat (definovat), je nutno nejprve p°ijmout urΦitý model, zjednoduÜení a standardizaci.
Ka₧dý dnes ví, ₧e sv∞tlo je stejné povahy jako zá°ení pro p°enos signálu pro televizi, rádio, telefony GSM, po°izování rentgenových snímk∙ atd. Jde o elektromagnetické zá°ení (vln∞ní) a viditelné sv∞tlo tvo°í jeho Φást charakterizovanou tzv. vlnovou délkou od 380 do 770 nm (nm je jedna miliontina milimetru). S vlnovou délkou úzce souvisejí barvy sv∞tla, jejich °azení p°ipomíná odstíny a barevné p°echody duhy.
Historie pochopení
Obvyklé sv∞tlo je mix zá°ení r∙zných vlnových délek; jsou-li zastoupeny vÜechny dostateΦn∞ rovnom∞rn∞, vnímáme sv∞tlo jako bílé. Prochází-li takové slo₧ené sv∞tlo optickým hranolem, rozkládá se na barevné slo₧ky, tzv. spektrum. Tyto základní v∞domosti jsou ji₧ velmi staré rozklad sv∞tla popsal Isac Newton ve svém spise z roku 1686 (jeden Φeský pramen udává spis Jana Marka, profesora Karlovy univerzity, z roku 1668). Popis sv∞tla jako elektromagnetického vln∞ní vytvo°il J. C. Maxwell roku 1860, a teprve na zaΦátku tohoto století (1905) definoval A. Einstein model sv∞tla jako tok Φástic. Tolik historie.
Fyzikáln∞ lze ka₧dé sv∞tlo dopadající do oka, a tedy ka₧dý vjem jednotlivé barvy popsat spektrální k°ivkou (mírou zastoupení jednotlivých barev spektra, zá°ení jednotlivých vlnových délek). Základní otázka je, zda lze dv∞ma r∙znými sv∞tly (tedy s rozdílnou spektrální k°ivkou) vytvo°it vjem stejné barvy. Je tomu tak. Dále se ukazuje, ₧e mícháním t°í rozdílných sv∞tel je mo₧no vytvo°it prakticky vÜechny barevné vjemy.
K pokusu lze u₧ít t°i barevné reflektory, které svítí do jednoho kruhu, kde se jejich sv∞tla prolínají. M∞ní-li se intenzita barevných sv∞tel, získáváme vjemy prakticky vÜech barev. Pár jich p∙sobí p°i míchání problémy, nap°íklad hn∞dá (je to hlavn∞ Φervená se ₧lutou, ale na sv∞tlejÜím pozadí) pak je pot°eba doplnit dalÜí "slo₧ku", sm∞s zesv∞tlit.
Ka₧dá barva se tedy dá zapsat souΦtem pokusných sv∞tel jako: barva = a x Sv∞tloA + b x Sv∞tloB + c x Sv∞tloC, musíme ale p°ipustit i záporné koeficienty a, b, c, jak jsme si ukázali u míchání barev problémových. Tady u₧ je vid∞t, ₧e jsme na dobré cest∞ k popisu barev. Víme, jak je zapsat, ₧e základní slo₧ky staΦí t°i a ₧e se barvy sΦítáním skládají.
Popis barev vid∞ných Φlov∞kem se samoz°ejm∞ neobeÜel bez studia a pokus∙ s vnímavostí oka. Oko má Φty°i typy sv∞telných receptor∙, z nich₧ jeden se uplat≥uje za velmi nízkého osv∞tlení a nedává informace o barv∞. Ostatní t°i typy jsou r∙zn∞ citlivé na sv∞tlo r∙zných vlnových délek a dají se i zkonstruovat jejich k°ivky citlivosti.
Zatím vÜak není jasné, jaká t°i sv∞tla k míchání zvolit (aby nebylo pot°eba pou₧ívat záporné koeficienty) obvykle se za základní barvy berou RGB (Φervená, zelená a modrá), p°i jejich pou₧ití je oblast barev získaná jen mícháním nejv∞tÜí.
Proto₧e jakýkoliv vjem lze namíchat slo₧ením barevných sv∞tel a ta zase urΦením jejich spektrálních k°ivek, staΦí znát zp∙sob, jak namíchat Φisté spektrální barvy. VÜe ostatní dostaneme pouhým "sΦítáním". Na tomto míst∞ m∙₧eme zavést pojem barevného prostoru je dán zvolenými základními barvami a vÜemi z nich míchanými (tedy jen kladnými sou°adnicemi slo₧ek). Tím urΦuje popis STEJNÝCH barev (vjem∙) R┘ZNÝMI pom∞ry (Φísly, sou°adnicemi) UR╚ITÝCH základních barev.
A co monitor...
P°íkladem m∙₧e být barevný prostor monitoru. Je charakterizován t°emi typy luminoforu. Bude-li 0 oznaΦovat, ₧e luminofor nesvítí a 255 ₧e je rozsvícen na maximum, pak vÜechno, co monitor umí zobrazit, je vyjád°eno trojicemi Φísel (a, b, c) v intervalu od 0 do 255. Má-li monitor luminofory barev RGB, máme známý barevný prostor RGB monitoru.
A tady je jedno velmi podstatné nedorozum∞ní: v₧dy¥ vezmeme-li jiný monitor, nap°íklad starÜí, vyrobený podle jiné normy, monitor jiného typu (t°eba LCD), Φi dokonce pootoΦíme-li regulátorem jasu, budou jeho základní barvy asi jiné! To ovÜem znamená, ₧e stejný obraz bude jen pouhou vým∞nou monitoru vypadat jinak! Toto je p°esn∞ ta nep°íjemnost, na kterou nikdo nechce narazit. Jak jsme zjistili, je RGB prostor b∞₧n∞ voln∞ definovaný závislý na konkrétním za°ízení. Stejn∞ je tomu u skener∙. Skener pracuje s CCD prvky nebo fotonásobiΦi a p°ípadn∞ filtry, je₧ jsou urΦitým zp∙sobem citlivé na spektrální k°ivku analyzovaného sv∞tla. Znamená to, ₧e dá-li urΦitá barva p°i snímání jedním typem skeneru urΦité sou°adnice, p°i snímání jiným typem budou tyto sou°adnice asi jiné. Barva se nezm∞nila, tak proΦ? Proto₧e se trochu zm∞nily základní barvy. Ve volné °eΦi uva₧ovaný barevný prostor RGB skeneru je tedy také závislý na za°ízení.
DalÜí varianta
Nelze si pomoci ani prací v barevném prostoru tiskových stroj∙ CMYK (cyan-azurová, magenta-purpurová, yellow-₧lutá a black-Φerná). Jejich základní barvy nejsou Φty°i, ale v podstat∞ také t°i CMY a volí se proto, ₧e jsou k popisu barev v ofsetovém tisku vhodn∞jÜí. ╚erná (K) není základní, ale její p°idání zv∞tÜí barevný prostor tisku je p°idávána z d∙vodu zlepÜení kresby, zlevn∞ní tisku a technologických omezení. Ka₧dý CMYK prostor je takté₧ zcela závislý na konkrétní technologii tisku, se°ízení tiskového stroje, pou₧itých barvách a podobn∞.
Problémy s barevnými prostory závislými na konktrétních za°ízeních °eÜí systémy správy barev v∞tÜinou tím, ₧e pracují s tzv. barevným profilem za°ízení. Ten jej zcela charakterizuje a sd∞lí-li se systému správy barev profil pro monitor, tiskárnu i skener, je pak schopen zobrazovat na monitoru to, co bude vytiÜt∞no.8 0748/D╠D o

Tipy pro práci s OCR
Jak jsme minule slíbili, tak se stalo máte zde tipy pro práci s OCR programy:
Skener
Nem∙₧ete od vaÜeho OCR programu oΦekávat, ₧e p°eΦte n∞co, co ani skener správn∞ nevidí. Jakýkoliv prach nebo Ümouhy na snímacím skle skeneru se objeví té₧ ve vysnímaném obraze, a tím sní₧í kvalitu rozpoznávání textu.
Více list∙, podavaΦ
Kvalita dokument∙, které najednou vlo₧íte do podavaΦe dokument∙ (ADF, Automatic Document Feeder) na vaÜem skeneru, by nem∞la být p°íliÜ rozdílná, nebo¥ b∞hem snímání dávky dokument∙ nelze provád∞t zm∞ny nastavení.
Zv∞tÜení
Umí-li program zobrazovat r∙zná zv∞tÜení dokumentu, lze p°i velkém zv∞tÜení (na úrove≥ pixel∙) odhalit teoreticky vÜe, a tak posoudit, zda odliÜné nastavení jasu a kontrastu m∙₧e odstranit dotýkající se, p°etrhané, rozmazané, tenké, p°íliÜ tlusté, slité nebo vypln∞né znaky.
Nepou₧ívejte bezd∙vodn∞ vysoká rozliÜení pro snímání dokument∙. V praxi dává snímání p°i rozliÜení 200 a₧ 300 dpi dostateΦný obraz dokumentu p°i rozumných velikostech obrazových soubor∙. VyÜÜí rozliÜení pou₧ijte jen p°i snímání velmi malého písma, a i tak nep°ekraΦujte 400 dpi.
Obraz získávaný skenerem
Pokud váÜ skener z n∞jakého d∙vodu nespolupracuje s OCR programem, pak lze nasnímat dokumenty do obrazových soubor∙ a soubory naΦíst do OCR programu a nechat rozpoznat.
Dovoluje-li to váÜ skener, zmenÜete co nejvíce snímanou plochu, nezahrnujte do ní prázdná místa a okraje. MenÜí plocha dokumentu vy₧aduje mén∞ pam∞ti binární, nekomprimovaný Φernobílý obraz prázdné stránky vy₧aduje práv∞ tolik pam∞ti, jako obraz stránky plné).
╚len∞ní dokumentu
Pokud vás zajímá jen Φást stránky, není nutno nechat rozpoznávat celý dokument. Na sesnímaném obrazu stránky lze obvykle myÜí zatrhnout oblast, která se má p°eΦíst. VaÜe dokumenty mohou obsahovat místa, která mohou být rozpoznána pouze s enormní chybovostí. Nové opsání takových pasá₧í textu pak m∙₧e být rychlejÜí, ne₧ opravování chyb v rozpoznaném textu.
Písmo
Rozpoznávací schopnost OCR je omezena na znaky, symboly a znaménka v urΦitém jazyce, obsa₧ené v tabulce znak∙, proto se informujte p°ed zakoupením softwaru, zda umí rozpoznávat vámi po₧adovaný jazyk (to platí i pro ΦeÜtinu).
Text, který je souΦástí graf∙ a obrázk∙, je zpravidla vhodn∞jÜí p°epsat, ne₧ nechat rozpoznávat. Aby se zlepÜilo Φtení dotýkajících se, vypln∞ných, p°íliÜ tlustých nebo rozmazaných znak∙, zkuste nastavit vyÜÜí jas u skeneru. Chybovost Φtení p°etrhaných znak∙ naopak zlepÜíte nastavením jasu menÜího.
Podtr₧ení textu m∞ní patiΦky písmen; podtr₧ené znaky a ozdobné písmo je t∞₧ké Φi dokonce nemo₧né rozpoznávat. Takové pasá₧e doporuΦujeme rad∞ji p°epsat.
Rukou psané poznámky a znaΦky zt∞₧ují nejen obraz, ale i urΦení zón s textem. Pokud se v originále vyskytují, zkuste je odstranit z dokumentu p°ed OCR (nebo alespo≥ z obrazu dokumentu).
Výstupní text/formát
ObΦas je jednoduché °eÜení tím nejlepÜím. Chcete-li zcela p°epracovat rozpoznaný text, aby vyhovoval dokumentu, do n∞j₧ jej chcete vlo₧it, zvolte jako výstupní formát obyΦejný text. Nebudete pak muset p°ed∞lávat celé formátování p∙vodního textu. M∞jte na pam∞ti, ₧e i obyΦejný text m∙₧e být v r∙zném kódování ve Windows pou₧ívejte ANSI (v Φeských Windows jde o kódovou stránku 1250), ne ASCII text (ten je v Φeském systému v Latin2, kódová stránka 852).
Pou₧ívejte RTF jako formát výsledného textu, chcete-li zachovat v rozpoznaném textu co nejvíce z formátování p∙vodního dokumentu.
Ostatní tipy
Ploché skenery mají oproti t∞m, které dokumenty posunují, výhodu v tom, ₧e jimi lze zpracovávat té₧ vázané dokumenty, tak₧e není nutno nejprve po°izovat jejich fotokopie, a ty pak teprve snímat. Kopie z kopírovacích stroj∙ jsou vÜak v₧dy p°íΦinou zvýÜení chybovosti p°i rozpoznávání.