home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1316 < prev    next >
Encoding:
Internet Message Format  |  1993-01-25  |  5.0 KB

  1. Path: sparky!uunet!olivea!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Radicals Instead of Characters
  5. Message-ID: <1k1amuINN7rq@life.ai.mit.edu>
  6. Date: 25 Jan 93 18:14:54 GMT
  7. References: <1jpj9sINNlie@flop.ENGR.ORST.EDU> <1jtbfvINNqvr@life.ai.mit.edu> <1jucp0INN5pe@corax.udac.uu.se>
  8. Organization: MIT Artificial Intelligence Laboratory
  9. Lines: 93
  10. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  11.  
  12. In article <1jucp0INN5pe@corax.udac.uu.se> andersa@Riga.DoCS.UU.SE (Anders Andersson) writes:
  13. >Didn't you skip one step in your otherwise excellent analysis here?
  14. >The 20,000+ Han characters of Unicode today effectively employ 15 bits,
  15. >leaving 50-75% of the code space for characters from other scripts.
  16. >If the Han characters were only to use 11 bits, we surely wouldn't
  17. >start processing text in 11- or 12-bit chunks where we now use 16.
  18. >Instead, there would be more room within a 16-bit character set for
  19. >yet other scripts, as the Han characters would need less than 4% of it.
  20. >Is 16 bits enough for everything we'd like to encode, then?
  21.  
  22. There are probably about 45,000 - 50,000 legitimate Han characters that
  23. somehow need to be encoded.  More than half of these are no longer used,
  24. but were used in the past.
  25.  
  26. The question about how to use a 16-bit encoding space is a good question.
  27. The goal should be to represent as many scripts as possible in order
  28. to cover the maximum number of writing systems; however, the question of
  29. what is needed to adequately cover a writing system is an issue that must be
  30. resolved.  20K Han characters will certainly cover modern uses of the
  31. CJK writing systems, but not all past uses.
  32.  
  33. Furthermore, you are neglecting a major goal of Unicode in proposing
  34. decomposed encodings for the 20,902 existing Han character in Unicode;
  35. namely, that there must be a one-to-one round trip mapping between
  36. Unicode and common character sets.  This precludes a decomposed encoding
  37. for these 20K characters.
  38.  
  39. >Once we accept decomposition of characters into smaller elements,
  40. >we are de facto introducing variable-length encoding of characters
  41. >(as a character may consist of a variable number of elements).
  42. >in terms of storage and processing.
  43.  
  44. Here is where the term "character" becomes problematic.  There are
  45. two common, but different uses of the term:
  46.  
  47.   (1) an element of a coded character set, which has a unique
  48.       encoding (bit representation) and name.
  49.  
  50.   (2) an element of an alphabet, i.e., elements which are naturally
  51.       perceived as the atomic elements of a writing system by the users
  52.       of that writing system.
  53.  
  54. In the vocabulary used by the Unicode standard, these two elements are
  55. termed CODE ELEMENT and TEXT ELEMENT, respectively.  Furthermore, the
  56. second use above is only one kind of TEXT ELEMENT.
  57.  
  58. In the case of Unicode, each CODE ELEMENT, i.e., coded character element,
  59. is of fixed 16-bits width.  It is not variable length.  In contrast, a
  60. TEXT ELEMENT may be not only variable length in its encoding (by means
  61. of code elements), but also may have multiple encodings.  For example:
  62.  
  63.   Text Element            Unicode Encoding By Code Element(S)
  64.  
  65.   E WITH CIRCUMFLEX        =     0x00CA or 0x0045 0x0302
  66.   E WITH CIRCUMFLEX & ACUTE =   0x1EbE or 0x00CA 0x0301 or 0x0045 0x0302 0x0301
  67.  
  68. In Unicode, every "coded character element" consists of one and only one
  69. fixed-length 16-bit value; however, a "text element" may or may not have
  70. a fixed-length encoding by means of character code elements.
  71.  
  72. In our current discsussion about Han characters, you can think of such
  73. use of "character" to denote a graphical symbol which is considered atomic
  74. at some level of processing, but not necessarily at the level of encoding,
  75. i.e., it is a text element.
  76.  
  77. The design goal of Unicode is to define the set of code elements which
  78. can encode the largest number of text elements in a way most convenient
  79. for processing, and to insure that a certain collection of text elements,
  80. namely, those encoded by existing character set standards, have a direct
  81. (fixed-length) encoding (in order to insure 1-1 round trip mapping).
  82.  
  83. >Maybe there are reasonable compromises between a full precomposed set,
  84. >and a fully decomposed system based on radicals or whatever character
  85. >component is found useful.
  86.  
  87. Unicode was designed to be just this kind of compromise.
  88.  
  89. >Han characters are not the only candidates for decomposition;
  90. >I'd decompose Latin ligatures and letters with diacritical marks
  91. >right away (assuming we are still talking about a potential
  92. >character set, and not Unicode itself).
  93.  
  94. Many text elements used by less common alphabets cannot be represented
  95. in Unicode (currently) except by means of combining diacritical marks.
  96. This may always be the case, since Unicode may never contain all the
  97. precomposed combinations need by every future use or even uses which are
  98. not today well known.
  99.  
  100. A number of Unicode systems are designed to decomposed *everything*
  101. into maximal decompositions.  It turns out that certain types of
  102. processing are much simpler in this case.
  103.  
  104. Glenn Adams
  105.