Z. Kotala, P. Toman: Java
	(Obsah)

C. Unicode

Unicode je šestnáctibitový systém kódování znaků, který je určen pro výměnu, zpracování a zobrazení textu v různých současných a historických jazycích. Toto kódování zavedlo Unicode Consorcium a nadále ho vyvíjí. V současné době je k dispozici verze 2.0, která je podporovaná i v Javě. Unicode je skoro shodný s normou ISO 10646, která jej přejala.

Kódování znaků \u0020 až \u007E je stejné jako v ASCII. Rovněž znaky \u00A0 až \u00FF odpovídají ASCII kódování. To je výhodné pro konverzi textů z kódování Latin-1 do Unicode a naopak. Převod mezi jiným kódováním je však poněkud komplikovanější, což je malá nevýhoda.

Druhou a to hlavní nevýhodou je malá podpora Unicode v současných operačních systémech. To je zapříčiněno velkou datovou náročností textů (jsou dvakrát delší), ale hlavně fontů, které by měly obsahovat přes 30 000 znaků.

Bližší a aktuální informace lze nalézt na [WWW17].

C.1. UTF-8

Jelikož je podpora Unicode zatím velmi malá a je zapotřebí zajistit přenos těchto znaků mezi platformami, byla vyvinuta kódování pro přenos na systémech, které podporují jen osmibitové kódování znaků (ASCII).

Java nabízí podporu kódování UTF-8, což je kód s proměnnou šířkou značky - jeden znak může být kódován jedno-, dvou- nebo tří-bytově. Jednoznačnost kódu umožňuje přesně stanovit začátek znaku, což je výhoda při obnově poškozeného souboru. Princip kódování shrnuje následující tabulka:

Znaky Bitů Kódování

0000-007F 7 0xxxxxxx

0080-07FF 11 110xxxxx 10xxxxxx

0800-FFFF 16 1110xxxx 10xxxxxx 10xxxxxx

C.2. Akcentované znaky v Unicode

V tabulce je zobrazeno kódování některých znaků v Unicode.

Unicode	Znak
0x00C1	Á
0x00C2	^A
0x00C4	Ä
0x00E1	á
0x00E2	^a
0x00E4	ä
0x00DF	B (ostré s)
0x010C	Č
0x010D	č
0x010E	Ď
0x010F	ď
0x00C9	É
0x00CB	"E

Unicode	Znak
0x011A	Ě
0x00E9	é
0x00EB	"e
0x011B	ě
0x00CD	Í
0x00CE	^I
0x00ED	í
0x00EE	^i
0x013D	Ĺ
0x013E	ĺ
0x0147	Ň
0x0148	ň
0x00D3	Ó

Unicode	Znak
0x00D4	Ô
0x00D6	Ö
0x00F3	ó
0x00F4	ô
0x00F6	ö
0x0154	Ŕ
0x0158	Ř
0x0155	ŕ
0x0159	ř
0x0160	Š
0x0161	š
0x0164	Ť
0x0165	ť

Unicode	Znak
0x016E	Ů
0x00DA	Ú
0x00DC	Ü
0x016F	ů
0x00FA	ú
0x00FC	ü
0x00DD	Ý
0x00FD	ý
0x017D	Ž
0x017E	ž

Converted by Selathco v0.9 on 25.09.1999 19:46