OGONKI
czyli o polskich literach w Internecie

W polskim Internecie ma miejsce ostatnio "ogonkowa rewolucja". Niemal z dnia na dzie± w poczcie elektronicznej, na listach dyskusyjnych i w grupach Usenetu zaczΩto u┐ywaµ polskich liter. Nieco wcze╢niej polskie litery pojawi│y siΩ na stronach WWW, wci▒┐ trwa│y jednak spory o to, w jakim standardzie powinny one byµ tam kodowane. R≤wnie┐ i ten problem obecnie zosta│ definitywnie rozwi▒zany.

Aby w pe│ni zrozumieµ wagΩ przemiany, kt≤ra siΩ dokona│a, trzeba zdaµ sobie sprawΩ z problem≤w, jakie wi▒┐▒ siΩ ze stosowaniem polskich znak≤w we wspomnianych us│ugach sieciowych. Trzeba r≤wnie┐ nauczyµ siΩ stosowaµ je poprawnie, gdy┐ nie jest to wcale takie oczywiste, za╢ np. list elektroniczny z niepoprawnie zakodowanymi polskimi literami jest dla odbiorcy gorszym "nieszczΩ╢ciem", ni┐ gdyby nie u┐yto polskich liter w og≤le - pojawia siΩ bowiem na ekranie jako nieczytelne, niezrozumia│e "╢mieci", zmuszaj▒ce do du┐ego wysi│ku przy pr≤bie ich rozszyfrowania. Niniejszy artyku│ ma w│a╢nie s│u┐yµ obu tym celom: zapoznaniu czytelnika tak z problemami zwi▒zanymi z polskimi literami w Internecie, jak i dostΩpnymi narzΩdziami pozwalaj▒cymi te problemy rozwi▒zaµ.

K│opoty z ogonkami

Problem polskich liter towarzyszy│ komputerom od pocz▒tk≤w ich powszechnego wykorzystania w naszym kraju. ZetknΩli siΩ z nim jako pierwsi u┐ytkownicy edytor≤w tekst≤w: jak bowiem mo┐na my╢leµ o wykorzystaniu komputera do drukowania jakichkolwiek pism, list≤w, og│osze± itp. bez mo┐liwo╢ci uzyskania w tych wydrukach "ogonk≤w" przy takich literach jak "▒", "Ω" czy "≤"? W "epoce wczesnego DOS-a" radzono sobie z tym na najprzer≤┐niejsze sposoby, za╢ przy okazji tych stara± powsta│o kilkana╢cie niezgodnych ze sob▒, stosowanych przez r≤┐ne programy "standard≤w" kodowania polskich liter w tabeli ASCII - znanych pod takimi nazwami, jak np. Mazovia, DHN czy Latin-2 (strona kodowa 852) - ten ostatni o tyle istotny, ┐e zastosowany przez Microsoft w DOS-ie. Znalezienie jakiego╢ sposobu pogodzenia wszystkich tych "standard≤w" (s│owo to z ca│ym rozmys│em ujmujΩ w cudzys│≤w, gdy┐ wielu wzajemnie niezgodnych rozwi▒za± nie mo┐na nazywaµ standardami: standard jest jeden) wydawa│o siΩ problemem nierozwi▒zalnym, ale "przyszed│ walec i wyr≤wna│" - po prostu sam DOS jako taki straci│ na znaczeniu na korzy╢µ Windows, i to g│≤wnie ich polskiej wersji. Tu za╢ istnia│ ju┐ tylko jeden spos≤b kodowania polskich liter, znany jako strona kodowa 1250 (CP 1250). Wprawdzie inny od wszystkich "standard≤w" stosowanych dotychczas (w tym pochodz▒cego z tej samej firmy DOS-owego Latin-2), ale przynajmniej jednolity. I pozornie problem przesta│ istnieµ (przynajmniej na platformie komputer≤w PC): u┐ytkownicy rozpoczynaj▒cy swoj▒ "znajomo╢µ" z komputerami w ostatnich latach, od razu od polskiej wersji Windows, mogli w og≤le nie mieµ ╢wiadomo╢ci, ┐e polskie litery mog▒ stanowiµ jakikolwiek problem.

W Internecie nie by│o to jednak takie proste. Do niedawna wiΩkszo╢µ u┐ytkownik≤w Internetu mia│a do± dostΩp za po╢rednictwem konta na komputerze Unixowym, na kt≤rym pracowa│o siΩ w trybie terminalowym (wielu korzysta z tego rodzaju dostΩpu do tej pory). Za╢ oprogramowanie do pracy terminalowej, realizuj▒ce te same od lat protoko│y transmisji (Unix ma wszak ju┐ ponad 20 lat!), by│o w du┐ej czΩ╢ci "po staremu" siedmiobitowe - co oznacza│o, ┐e niemo┐liwe jest przesy│anie znak≤w o kodach ASCII wiΩkszych ni┐ 127 (w kt≤rym to obszarze kodowane s▒ polskie znaki). »eby sprawa by│a jeszcze bardziej skomplikowana, siedmiobitowy z definicji jest sam protok≤│ SMTP, w oparciu o kt≤ry przesy│a siΩ pocztΩ elektroniczn▒ w Internecie. Wprawdzie wiele nowoczesnych realizacji SMTP bez problemu akceptuje przesy│ki zawieraj▒ce znaki o╢miobitowe, zawsze mo┐na jednak trafiµ na implementacjΩ ╢ci╢le trzymaj▒c▒ siΩ standardu i nie pozwalaj▒c▒ na takie "nadu┐ycie". Wszystko to sprawia│o, ┐e "starzy" u┐ytkownicy Internetu jako rzecz oczywist▒ traktowali konieczno╢µ pisania w poczcie elektronicznej i grupach Usenetowych "po polskawemu", tzn. bez u┐ycia polskich "ogonk≤w", kt≤re zastΩpuje siΩ odpowiednimi literami │aci±skimi (np. s│owo "┐≤│ty" pisze siΩ jako "zolty"). By│o to czasami do╢µ niewygodne, np. w przypadku s│≤w takich jak "zadanie" (kto zgadnie, czy w istocie chodzi tu o "zadanie", czy o "┐▒danie"?), wydawa│o siΩ jednak nieuniknionym ograniczeniem zwi▒zanym z charakterem tych us│ug, i ma│o kto przewidywa│ rych│▒ zmianΩ tej sytuacji.

Wojny o WWW

Polskie litery zaczΩ│y jako pierwsze pojawiaµ siΩ na stronach WWW, gdy┐ tam ich stosowanie nie sprawia│o problem≤w technicznych (zar≤wno oprogramowanie, jak i protok≤│ HTTP, u┐ywany do transmisji tych stron, s▒ ju┐ w pe│ni o╢miobitowe), za╢ "polskawe" napisy w trybie graficznym by│y wybitnie ra┐▒ce. ZaczΩ│y siΩ jednak pojawiaµ problemy innego rodzaju - ponownie dosz│a do g│osu niezgodno╢µ r≤┐nych standard≤w kodowania polskich liter: tym razem pomiΩdzy r≤┐nymi systemami operacyjnymi i typami komputer≤w. Do Internetu do│▒czone s▒ wszak i komputery z Unixem, i z Windows, Macintoshe, Amigi, nie m≤wi▒c np. o du┐ych systemach mainframe produkcji IBM, w kt≤rych o polskich literach trudno wrΩcz my╢leµ, gdy┐ nie pracuj▒ one w og≤le w kodzie ASCII, i "rozumiej▒" tylko najbardziej podstawowy zbi≤r znak≤w alfanumerycznych z tego kodu. "Rozwi▒zanie" przez polskie Windows problemu "ogonk≤w" w ╢rodowisku komputer≤w PC nie mog│o przys│oniµ faktu, ┐e generalnie nadal nie istnia│ powszechnie stosowany, jednolity standard kodowania polskich liter.

Sytuacja by│a o tyle paradoksalna, ┐e ju┐ od do╢µ dawna istnia│a w tym zakresie Polska Norma - PN-93 T-42118, okre╢laj▒ca kody polskich liter w tabeli ASCII w spos≤b zgodny z miΩdzynarodow▒ norm▒ ISO 8859-2 (norma ISO 8859 zawiera w sumie dziewiΩµ r≤┐nych zestaw≤w znak≤w dla r≤┐nych jΩzyk≤w; zestaw ISO 8859-2 przeznaczony jest dla jΩzyk≤w ╢rodkowo- i wschodnioeuropejskich, za╢ ISO 8859-1 obejmuje jΩzyki zachodnioeuropejskie). Podstawow▒ wad▒ tej normy by│o jednak┐e to, ┐e... pojawi│a siΩ ona za p≤╝no. Mieli╢my ju┐ w≤wczas mrowie "standard≤w" DOS-owych, a Microsoft szykowa│ siΩ w│a╢nie do wprowadzenia Windows z CP 1250... Uchwalenie normy zosta│o odebrane bardzo negatywnie; prasa komputerowa totalnie skrytykowa│a j▒ jako normΩ "martw▒", uchwalon▒ bez ogl▒dania siΩ na praktykΩ i "standardy faktyczne", normΩ, kt≤rej nikt nie bΩdzie stosowa│. Dopiero p≤╝niej mia│o okazaµ siΩ, ┐e w istocie jest nieco inaczej... P≤ki co, norma zosta│a przez ╢rodowiska "pecetowe" odrzucona, natomiast - wbrew przewidywaniom, i┐ norma ta bΩdzie martwa - konsekwentnie zastosowali siΩ do niej producenci system≤w Unixowych, i w tych systemach sta│a siΩ ona faktycznie u┐ywanym standardem polskich liter.

Nic wiΩc dziwnego, ┐e kiedy zaczΩ│y siΩ pojawiaµ pierwsze strony WWW z polskimi literami, kodowane by│y one w│a╢nie w standardzie ISO. Ich autorzy - w wiΩkszo╢ci administratorzy sieci komputerowych na uczelniach - u┐ywali wszak g│≤wnie komputer≤w Unixowych jako swoich narzΩdzi pracy. Wywo│a│o to oczywi╢cie sprzeciw ze strony u┐ytkownik≤w Windows, domagaj▒cych siΩ, aby to w│a╢nie kodowanie Windows by│o standardem na polskich stronach WWW, argumentuj▒c to faktem, ┐e w╢r≤d ogl▒daj▒cych (a nie tworz▒cych!) te strony zdecydowan▒ wiΩkszo╢µ stanowi▒ korzystaj▒cy z Windows, a nie z Unixa. Za┐arte spory miΩdzy zwolennikami tych dwu sposob≤w kodowania (r≤┐ni▒cych siΩ miΩdzy sob▒ nota bene tylko sze╢cioma znakami: du┐ymi i ma│ymi literami , i ) wci▒┐ od nowa powraca│y w Internetowych grupach dyskusyjnych, przeradzaj▒c siΩ niejednokrotnie w k│≤tnie na temat "og≤lnej" wy┐szo╢ci jednego systemu operacyjnego nad innym. Ka┐da ze stron obstawa│a przy swoich racjach; czΩ╢µ polskich stron WWW kodowana by│a w ISO, druga czΩ╢µ w CP 1250; byli te┐ i tacy, kt≤rzy dla unikniΩcia k│opot≤w woleli w og≤le powstrzymywaµ siΩ od stosowania polskich liter na swoich stronach pisz▒c nadal po "polskawemu". Jedynym, choµ u│omnym, wyj╢ciem z tej sytuacji wydawa│o siΩ byµ stosowanie skrypt≤w przekodowuj▒cych, jakie wci▒┐ spotkaµ mo┐na na wielu polskich serwerach WWW: pozwala│y one ogl▒daµ te same strony w r≤┐nych wariantach kodowania polskich liter, w zale┐no╢ci od wyboru u┐ytkownika: raz w ISO, raz w CP 1250, a przy okazji tak┐e w kodowaniu Macintosha (jako╢ w ca│ej tej k│≤tni miΩdzy ISO i Windows zapomniano o u┐ytkownikach Maca...) b▒d╝ w og≤le bez polskich liter - dla tych, kt≤rzy nie maj▒ mo┐liwo╢ci zainstalowania ich w swoim systemie.

A jednak standard!

Jednak┐e wbrew pozorom w sporze miΩdzy ISO a CP 1250 nie chodzi│o tylko, a nawet nie przede wszystkim, o racje zwolennik≤w Windows b▒d╝ Unixa. By│ to sp≤r o zgodno╢µ ze standardami Internetu. Norma ISO jest nie tylko - jak j▒ potocznie nazywano - "standardem Unixowym"; jest tak┐e uniwersalnym standardem Internetowym. Zestawy znak≤w ISO s▒ jawnie wpisane w dokumenty RFC, opisuj▒ce protoko│y us│ug Internetowych takich jak np. HTTP, jako dopuszczalne zestawy znak≤w dla danych przesy│anych w sieci. Co wiΩcej, w tych┐e RFC zdefiniowany jest mechanizm pozwalaj▒cy zasygnalizowaµ programowi odbieraj▒cemu dane - np. przegl▒darce WWW - w kt≤rym z zestaw≤w znak≤w ISO 8859-x zapisany jest tekst. Daje to zatem - przynajmniej teoretycznie - mo┐liwo╢µ stworzenia przegl▒darki, kt≤ra bΩdzie w stanie odczytywaµ strony zapisane w kodach ISO niezale┐nie od ╢rodowiska, przekodowuj▒c znaki na odpowiedni standard "lokalny" - czy bΩdzie to Windows, czy Macintosh, czy jeszcze co╢ innego... By│oby to niew▒tpliwie najlepsze rozwi▒zanie omawianego problemu niezgodno╢ci standard≤w, ma│o kto jednak wierzy│ w to, aby mog│o siΩ ono urzeczywistniµ, aby ameryka±scy producenci oprogramowania przejΩli siΩ k│opotami polskich u┐ytkownik≤w. A jednak niemo┐liwe sta│o siΩ faktem - na wiosnΩ bie┐▒cego roku prawie r≤wnocze╢nie dwaj najwiΩksi producenci przegl▒darek WWW dla Windows - Netscape i Microsoft - wypu╢cili na rynek wersje swoich program≤w umo┐liwiaj▒ce przekodowywanie stron WWW ze standardu ISO na CP 1250 (b▒d╝ na inny lokalny standard u┐ywany w danym systemie w przypadku wersji Netscape Navigatora dla Macintosha i OS/2). Szczeg≤lnie mi│ym zaskoczeniem dla u┐ytkownik≤w Internetu by│a w│a╢nie postawa Microsoftu: firma, kt≤ra narzuci│a polskim u┐ytkownikom w│asny "standard" CP 1250, i konsekwentnie forsowa│a go przez lata, wreszcie da│a siΩ przekonaµ, ┐e warto czasami dostosowaµ siΩ do istniej▒cych standard≤w ustalonych przez kogo╢ innego... W ten spos≤b niespodziewanie wytr▒ci│a bro± z rΩki swoim samozwa±czym "obro±com", kt≤rzy w czasie gdy Microsoft dostosowywa│ w│a╢nie swoje oprogramowanie Internetowe do standardu ISO, nadal zawziΩcie bronili na listach dyskusyjnych CP 1250 i prawa Microsoftu do jej wprowadzenia...

Norma ISO 8859-2 okaza│a siΩ zatem wcale nie taka "martwa", jak to przepowiada│a jej prasa komputerowa kilka lat temu. W chwili obecnej jest uniwersalnym standardem, kt≤ry pozwala na odczytywanie tych samych stron WWW w dowolnym ╢rodowisku, czy bΩdzie to Unix, Windows czy Macintosh, je┐eli tylko u┐ytkownik dysponuje odpowiednio now▒ wersj▒ przegl▒darki. Problem polskich liter w WWW zosta│ rozwi▒zany. Autorzy niekt≤rych stron zdaj▒ siΩ jednak wci▒┐ tego nie dostrzegaµ, uparcie obstaj▒c przy CP 1250 jako jedynym b▒d╝ g│≤wnym - gdy stosowany jest skrypt przekodowuj▒cy - sposobie kodowania. Utrzymywanie takiego stanu rzeczy nale┐y uznaµ w tej chwili za dzia│anie szkodz▒ce Internetowi i utrudniaj▒ce, a nie u│atwiaj▒ce ┐ycie jego u┐ytkownikom: stronΩ zakodowan▒ w ISO mo┐e przeczytaµ obecnie ka┐dy u┐ytkownik Internetu, stronΩ zakodowan▒ w CP 1250 - tylko u┐ytkownik Windows, i to posiadaj▒cy star▒ przegl▒darkΩ, bez mo┐liwo╢ci przekodowywania. Przegl▒darka dostosowana do ISO na stronie kodowanej w CP 1250 poka┐e "╢mieci" - trzeba bΩdzie prze│▒czyµ j▒ rΩcznie na inny standard. Z drugiej strony, wci▒┐ celowe jest (i prawdopodobnie d│ugo bΩdzie) utrzymywanie skrypt≤w pozwalaj▒cych przekodowaµ zawarto╢µ strony na postaµ "polskaw▒" - nadal jeszcze jest wiele komputer≤w, kt≤rych u┐ytkownicy nie maj▒ w og≤le polskich liter, a chcieliby mieµ mo┐liwo╢µ ogl▒dania polskich stron WWW. Warto tu wzi▒µ pod uwagΩ chocia┐by Polak≤w zamieszka│ych za granic▒, korzystaj▒cych z angielskiej wersji Windows, czy z drugiej strony - komputery w rodzaju wspomnianych ju┐ mainframe'≤w IBM, wci▒┐ jeszcze obs│uguj▒ce kilka tysiΩcy kont u┐ytkownik≤w Internetu w Polsce (np. s│ynny wΩze│ PLEARN w Uniwersytecie Warszawskim).

MIME

Rozwi▒zanie problemu polskich liter w WWW zaostrzy│o "apetyty" na r≤wnie komfortow▒ sytuacjΩ w poczcie elektronicznej i w Usenecie. Tu by│o nieco trudniej, ze wzglΩdu na problemy techniczne wspomniane na pocz▒tku - zw│aszcza siedmiobitowo╢µ samego protoko│u SMTP. Tak┐e i tutaj jednak - podobnie jak w przypadku WWW - istnia│ zapisany w dokumentach RFC mechanizm, kt≤ry pozwala│ rozwi▒zaµ te problemy. By│ on nawet czasami stosowany, ale na niewielk▒ skalΩ: raczej w prywatnych e-mailach i po upewnieniu siΩ, ┐e miΩdzy dan▒ par▒ korespondent≤w istotnie to dzia│a. Bardzo niewielka bowiem czΩ╢µ istniej▒cego oprogramowania pocztowego obs│ugiwa│a go w spos≤b w pe│ni poprawny.

Mechanizm ten nosi nazwΩ MIME (Multipurpose Internet Mail Extensions), i zosta│ opracowany przede wszystkim po to, aby umo┐liwiµ przesy│anie poczt▒ elektroniczn▒ plik≤w binarnych - np. d╝wiΩkowych, graficznych lub program≤w wykonywalnych. Niejako "przy okazji" zdefiniowano w nim jednak tak┐e spos≤b kodowania w tekstach znak≤w z "g≤rnej po│≤wki" kodu ASCII tak, aby mo┐na by│o je przes│aµ za pomoc▒ siedmiobitowego protoko│u SMTP. Kodowanie to, okre╢lane jako Quoted-Printable, polega na zast▒pieniu znaku o kodzie ASCII powy┐ej 127 szesnastkow▒ warto╢ci▒ jego kodu, poprzedzon▒ znakiem "="; s│owo "piΩµ" bΩdzie zatem w takim kodowaniu przedstawione jako "pi=EA=E6" (kody polskich liter przedstawiono wed│ug ISO 8859-2). Dla unikniΩcia k│opot≤w w sytuacji, gdy kodowany tekst zawiera znaki r≤wno╢ci, sam znak "=" r≤wnie┐ zastΩpowany jest przez jego kod - "=3D".

Kodowanie to jest zasadniczo niewidoczne dla u┐ytkownika, gdy┐ dokonuje go automatycznie program pocztowy przy wysy│aniu listu, umieszczaj▒c r≤wnocze╢nie w jego nag│≤wku specjaln▒ informacjΩ, kt≤ra umo┐liwia - r≤wnie┐ automatyczne - zdekodowanie go po stronie odbiorcy (oczywi╢cie zak│adaj▒c, ┐e ma on program pocztowy "rozumiej▒cy" MIME). Na informacjΩ tΩ sk│adaj▒ siΩ nastΩpuj▒ce trzy wiersze:

     MIME-Version: 1.0
     Content-type: text/plain; charset=ISO-8859-2
     Content-transfer-encoding: Quoted-printable
Szczeg≤lna uwaga nale┐y siΩ w powy┐szym zapisie fragmentowi "charset=ISO-8859-2". Jest to informacja dla programu odbieraj▒cego pocztΩ, w jakim zestawie znak≤w zapisany jest tekst. We "wzorcowej" realizacji MIME, program wysy│aj▒cy pocztΩ powinien przekodowaµ tekst z "lokalnego" standardu na w│a╢ciwy dla danego jΩzyka kod ISO 8859-x (umieszczaj▒c oczywi╢cie stosown▒ informacjΩ w nag│≤wku), za╢ program odbieraj▒cy na podstawie tej informacji przekodowuje tekst z powrotem z ISO na sw≤j standard lokalny (w szczeg≤lno╢ci np. mo┐e zamieniaµ teksty na postaµ "polskaw▒" dla os≤b nie maj▒cych w systemie polskich liter). DziΩki temu, ┐e teksty w sieci zawsze s▒ w standardzie ISO, mo┐liwe jest przes│anie listu miΩdzy komputerami stosuj▒cymi zupe│nie r≤┐ne kody polskich liter. W podobny spos≤b standard MIME mo┐e byµ zastosowany r≤wnie┐ w Usenecie, tutaj jednak, jako ┐e protok≤│ NNTP jest o╢miobitowy, mo┐na zrezygnowaµ z kodowania Quoted-Printable i przesy│aµ bezpo╢rednio znaki w kodzie ISO.

Prze│om w poczcie

Opisane przekodowywanie, podobnie jak w przypadku WWW, pozostawa│o przez d│u┐szy czas mo┐liwo╢ci▒ raczej teoretyczn▒. Choµ istnia│o wiele program≤w pocztowych okre╢lanych jako "zgodnych z MIME" (MIME-compliant), w znakomitej wiΩkszo╢ci nie mia│y one jednak zaimplementowanej pe│nej obs│ugi tego standardu, tzn. w│▒cznie z odpowiedni▒ interpretacj▒ parametru "charset=", i poczyna│y sobie z tym parametrem do╢µ beztrosko. Do niechlubnych przyk│ad≤w nale┐y tu popularna PC Eudora, kt≤ra nie do╢µ ┐e nie dokonuje ┐adnych przekodowa± w wysy│anych i odbieranych listach, to na dodatek zawsze ustawia w nag│≤wku "charset=ISO-8859-1" niezale┐nie od tego, w jakim faktycznie zestawie znak≤w napisany jest tekst. Powoduje to ogromne k│opoty z odczytywaniem wysy│anej przez ten program poczty w sytuacji, gdy np. (przypadki takie zdarza│y siΩ wielokrotnie) nie╢wiadomy niczego u┐ytkownik Windows usi│uje napisaµ list z polskimi literami. Polskie litery kodowane w CP 1250 w po│▒czeniu z informacj▒ w nag│≤wku, i┐ jest to ISO 8859-1, stanowi▒ dla mailera z poprawnie zrealizowanym MIME "mieszankΩ piorunuj▒c▒" nie do odczytania. Niekt≤re polskie litery zamieniane s▒ na dziwne znaczki, inne - ca│kowicie znikaj▒ z tekstu, jako ┐e ich kody w CP 1250 w og≤le nie mieszcz▒ siΩ w tabeli ISO; odczytanie tak zniekszta│conego tekstu wymaga ogromnego trudu.

Oddzielny problem stoj▒cy na przeszkodzie powszechnemu stosowaniu MIME stanowi│a nieprawid│owa obs│uga przesy│ek w tym standardzie przez listy dyskusyjne. O ile w prywatnej korespondencji standard ten - nawet w niepe│nych implementacjach - dawa│ siΩ jako╢ stosowaµ, o tyle wiΩkszo╢µ listserv≤w obs│uguj▒cych listy dyskusyjne traktowa│a przesy│ki MIME bardzo brutalnie - obcinaj▒c z nag│≤wka listu owe charakterystyczne trzy wiersze, niezbΩdne do jego zdekodowania. W efekcie list trafia│ do uczestnik≤w listy dyskusyjnej w postaci "surowej", pe│nej napis≤w takich jak "=B3=F3d=BC" czy "=BF=F3=B3w" - rozszyfrowywanie tego nie nale┐a│o do przyjemno╢ci.

Wskutek raczej zniechΩcaj▒cych efekt≤w, wiΩkszo╢µ u┐ytkownik≤w rezygnowa│a zatem z pr≤b ujarzmienia MIME i po staremu pisa│a po "polskawemu". Prze│om nast▒pi│ prawie w tym samym momencie, w kt≤rym sta│o siΩ to w WWW; bo te┐ mia│o to miejsce za spraw▒ tych samych program≤w. Obydwie przegl▒darki WWW z mo┐liwo╢ci▒ przekodowywania - zar≤wno produkt Netscape, jak i Microsoftu - zawiera│y tak┐e modu│y obs│ugi poczty elektronicznej i news≤w. R≤wnie┐ i w tych modu│ach konsekwentnie wprowadzono mo┐liwo╢µ przekodowywania znak≤w ze standardu lokalnego na ISO i odwrotnie w oparciu o MIME. Tym samym znaczna czΩ╢µ u┐ytkownik≤w tych us│ug dosta│a "do rΩki" narzΩdzie, pozwalaj▒ce w poprawny spos≤b korzystaµ z polskich liter. Choµ trudno m≤wiµ o ca│kowitym rozwi▒zaniu problemu - w przeciwie±stwie do przegl▒darek WWW, r≤┐norodno╢µ wykorzystywanych w Internecie program≤w pocztowych jest o wiele wiΩksza - to przekroczona zosta│a pewna "masa krytyczna"; gdy po raz kolejny w kt≤rej╢ z grup Usenetowych kto╢ zaproponowa│ "a mo┐e by tak pisaµ z polskimi literami" - nagle zupe│nie nieoczekiwanie pomys│ "chwyci│"! Praktycznie z dnia na dzie± w polskich newsach zaczΩ│y pojawiaµ siΩ listy z polskimi literami. Przestarza│e oprogramowanie listserv≤w, nie potrafi▒ce obs│ugiwaµ MIME, zaczΩto w szybkim tempie wymieniaµ na nowe, i polskie litery pojawi│y siΩ tak┐e na listach dyskusyjnych. Choµ do powszechno╢ci stosowania polskich liter - jak ju┐ wspomina│em - jeszcze daleko, ich obecno╢µ w poczcie i Usenecie jest ju┐ wyra╝na. Co bardzo wa┐ne - zdecydowanie mniej widuje siΩ obecnie przesy│ek z niepoprawnie zakodowanymi polskimi literami (jak choµby te wysy│ane z PC Eudory). Najwyra╝niej prowadzona od kilku lat przez grupΩ wytrwa│ych zwolennik≤w polskich liter w Internecie kampania na rzecz (poprawnego!) ich stosowania zaczyna przynosiµ skutki...

DostΩpne narzΩdzia

Jak zatem wygl▒da w chwili obecnej sytuacja "na froncie" polskich liter? Jakie s▒ dostΩpne programy poprawnie obs│uguj▒ce polskie litery w poczcie, newsach i WWW?

Kilka lat temu kilku entuzjast≤w stosowania polskich liter w Internecie utworzy│o na serwerze WWW krakowskiej Akademii G≤rniczo - Hutniczej stronΩ s│u┐▒c▒ promocji tej idei; zebrano tam r≤┐ne informacje maj▒ce pom≤c w znalezieniu odpowiedniego oprogramowania i w│a╢ciwym jego skonfigurowaniu tak, aby poprawnie obs│ugiwane by│y standardy MIME oraz ISO 8859-2. To wszystko zdawa│o siΩ wtedy byµ g│osem wo│aj▒cego na puszczy; polskich liter i tak prawie nikt nie u┐ywa│, a je┐eli nawet to robi│, to najczΩ╢ciej "wiedzia│ lepiej" i nie mia│ ochoty siΩ do czegokolwiek dostosowywaµ; to inni mieli siΩ dostosowaµ do u┐ywanego przez niego programu i sposobu kodowania. Dopiero w sytuacji obecnej "ogonkowej rewolucji" strona ta, nosz▒ca dumn▒ nazwΩ Polskiej Strony Ogonkowej (dostΩpna pod adresem http://www.agh.edu.pl/ogonki/) zyska│a nale┐n▒ sobie rangΩ: jest obecnie g│≤wnym ╝r≤d│em informacji o tym, jakich u┐yµ program≤w i jak je skonfigurowaµ, aby m≤c czytaµ i pisaµ z polskimi literami. Tam te┐ mo┐na znale╝µ informacje bardziej szczeg≤│owe ni┐ to, co sygnalizujΩ w tym tek╢cie.

Je┐eli chodzi o WWW, sytuacja jest dosyµ prosta. Dwie czo│owe przegl▒darki WWW - Netscape Navigator i Microsoft Internet Explorer - maj▒ w swoich najnowszych wersjach wbudowany mechanizm przekodowywania stron WWW ze standardu ISO na CP 1250 (lub odpowiedni inny standard lokalny w przypadku system≤w innych ni┐ Windows). Przegl▒darki automatycznie rozpoznaj▒, ┐e strona zakodowana jest w ISO 8859-2, je┐eli autor strony umie╢ci│ na niej - co jest zalecane - odpowiedni informuj▒cy o tym znacznik, zgodnie ze specyfikacj▒ HTTP i HTML. Znacznik ten ma postaµ

  <META HTTP-EQUIV="Content-type" CONTENT="text/html; charset=ISO-8859-2">
i powinien byµ umieszczony zaraz po znaczniku <HTML> otwieraj▒cym dokument. Aby polskie litery by│y widoczne, niezbΩdne jest oczywi╢cie nakazanie programowi u┐ycia odpowiedniej, zawieraj▒cej je czcionki - we w│a╢ciwej opcji konfiguracyjnej programu (w Netscape jest to Options/General preferences/Fonts) wybieramy dla kodowania "Latin-2" czcionkΩ z polskimi literami - w polskich Windows z regu│y Times New Roman CE. ("Latin-2" w tym przypadku oznacza kodowanie ISO 8859-2, zwane r≤wnie┐ czasami ISO Latin-2; nie nale┐y tego kojarzyµ ze starym DOS-owym standardem Latin-2.) Aby m≤c poprawnie ogl▒daµ r≤wnie┐ strony nie zawieraj▒ce omawianego znacznika, nale┐y dodatkowo ustawiµ ISO 8859-2 jako domy╢lny zestaw znak≤w (w Netscape Options/Document Encoding; w MS Internet Explorerze Options/General/Font settings/Languages oraz MIME Encoding). Podczas pracy mo┐liwe jest oczywi╢cie chwilowe prze│▒czenie przegl▒darki na inny standard, je┐eli zdarzy siΩ nam np. trafiµ na stronΩ zapisan▒ w CP 1250.

W analogiczny spos≤b ustawiµ trzeba ISO jako domy╢lny standard w module pocztowym i news'owym Netscape Navigatora (je┐eli oczywi╢cie je wykorzystujemy). Standard ten dotyczy poczty wysy│anej; przy odczytywaniu list≤w w│a╢ciwy zestaw znak≤w okre╢lany jest na podstawie nag│≤wk≤w MIME. W programie MS Internet Mail and News - czΩ╢ci MS Internet Explorera odpowiedzialnej za obs│ugΩ poczty i Usenetu - standard ISO wybierany jest automatycznie, je┐eli zaznaczymy, ┐e chcemy u┐ywaµ MIME. W menu Mail/Options nale┐y wybraµ zak│adkΩ Send, po czym klikn▒µ na przycisk Settings przy opcji Plain text. W wy╢wietlonym okienku dialogowym wybieramy format MIME i kodowanie Quoted-Printable. Poniewa┐ MS Internet Mail and News mo┐e u┐ywaµ r≤┐nych sposob≤w kodowania w poczcie i w newsach, tΩ sam▒ czynno╢µ nale┐y powt≤rzyµ w menu News/Options, z tym, ┐e mo┐na tu wybraµ bardziej naturalne dla Usenetu przesy│anie znak≤w o╢miobitowych, wybieraj▒c w okienku dialogowym brak kodowania (Encode text using: None)å. Mo┐liwo╢µ wyboru miΩdzy kodowaniem Quoted-Printable i przesy│aniem o╢miobitowym istnieje tak┐e w Netscape Navigatorze (Options/Mail and News Preferences/Composition), jest ona jednak┐e wsp≤lna dla poczty i Usenetu, co jest mniej wygodne.

Opr≤cz modu│≤w pocztowych wymienionych przegl▒darek WWW mo┐liwo╢µ przekodowywania znak≤w ma tak┐e kilka "klasycznych", samodzielnych aplikacji pocztowych. W ╢rodowisku PC jest to przede wszystkim Pegasus Mail, dostΩpny w wersjach dla DOS-a i Windows, kt≤ry by│ chyba pierwszym programem wyposa┐onym w tak▒ mo┐liwo╢µ (istnieje tak┐e Pegasus Mail dla Macintosha). Jest to program o bardzo bogatych mo┐liwo╢ciach, jego konfiguracja jest jednak┐e nieco trudniejsza ni┐ program≤w opisanych powy┐ej, gdy┐ wymaga samodzielnego przygotowania tablic opisuj▒cych spos≤b konwersji znak≤w z ISO na standard lokalny (jest to zreszt▒ regu│▒ w samodzielnych programach pocztowych). Gotowe tablice dla stron kodowych 852 (DOS) i 1250 (Windows) znale╝µ mo┐na na Polskiej Stronie Ogonkowej. Analogiczn▒ mo┐liwo╢µ ma stosunkowo ma│o popularny PC Pine, pracuj▒cy w ╢rodowisku DOS - jego wad▒ jest niestety to, ┐e (podobnie jak i jego Unixowy pierwowz≤r) wymaga serwera pocztowego dzia│aj▒cego w protokole IMAP, a nie stosowanym przez wiΩkszo╢µ provider≤w POP. Przekodowywaµ znaki potrafi tak┐e (wreszcie!) najnowsza wersja jednego z najlepszych i najpopularniejszych newsreader≤w dla Windows - Forte Agenta.

U┐ytkownicy korzystaj▒cy z poczty w trybie terminalowym na koncie Unixowym tak┐e s▒ ju┐ w du┐o lepszej sytuacji ni┐ kiedy╢ - najnowsze wersje wszystkich popularnych aplikacji pocztowych i news'owych (elm, pine, tin) obs│uguj▒ ju┐ poprawnie MIME. NiezbΩdne jest jedynie korzystanie z o╢miobitowego programu terminalowego, jakie r≤wnie┐ s▒ ju┐ szeroko dostΩpne. Poniewa┐ standardem polskich liter w Unixie jest ISO, programy pocztowe nie wykonuj▒ ┐adnych przekodowa± znak≤w. Jednak na komputerze, na kt≤rym uruchamiamy program terminalowy, mo┐emy mieµ inny standard polskich znak≤w (np. przy pracy w ╢rodowisku Windows) i przekodowanie mo┐e byµ niezbΩdne "po drodze" pomiΩdzy terminalem i komputerem Unixowym. Istniej▒ programy terminalowe potrafi▒ce dokonaµ takiego przekodowania (m.in. spolszczona przez Piotra Pi▒tkowskiego z AGH wersja popularnego DOS-owego klienta telnetu - CUTCP); je┐eli natomiast skorzystanie z nich jest niemo┐liwe, przekodowania mo┐na dokonaµ na poziomie samego Unixa za pomoc▒ programu "Ogonki", umo┐liwiaj▒cego przekodowywanie "w locie" znak≤w wprowadzanych z klawiatury i wysy│anych na terminal przez dowolny program.

Choµ program≤w umo┐liwiaj▒cych korzystanie z polskich liter nie ma jeszcze zbyt wiele, jest to ju┐ realnie mo┐liwe. Z pewno╢ci▒ program≤w potrafi▒cych obs│ugiwaµ MIME bΩdzie przybywaµ i coraz szerzej w sieci spotykaµ bΩdziemy teksty napisane z u┐yciem polskich liter. A zatem, zajrzyjmy na Polsk▒ StronΩ Ogonkow▒, zaopatrzmy siΩ w odpowiedni program i... piszmy po polsku!


Kody polskich znak≤w w standardzie ISO 8859-2
177 B1h
í 161 A1h
µ 230 E6h
198 C6h
Ω 234 EAh
202 CAh
179 B3h
ú 163 A3h
± 241 F1h
209 D1h
243 F3h
211 D3h
182 B6h
ª 166 A6h
188 BCh
¼ 172 ACh
191 BFh
» 175 AFh


å Informacje o konfiguracji programu MS Internet Explorer podane s▒ na podstawie materia│≤w udostΩpnionych na Polskiej Stronie Ogonkowej przez Piotra Soli±skiego z Microsoft Polska; autor nie ma dostΩpu do tego programu.


Copyright (C) 1996 Jaros│aw Rafa. Prawa autorskie zastrze┐one. »adna czΩ╢µ niniejszego tekstu nie mo┐e byµ nigdzie publikowana ani rozpowszechniana w jakiejkolwiek innej formie (w│▒czaj▒c w to umieszczanie na innych serwerach w Internecie) bez pisemnej zgody autora.
Adres do korespondencji: raj@inf.wsp.krakow.pl.

Wersja HTML opracowana 9.11.96.


Powr≤t do wykazu artyku│≤w o Internecie PSO Statystyka