home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1319 < prev    next >
Encoding:
Text File  |  1993-01-25  |  7.9 KB  |  173 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!cs.utexas.edu!uwm.edu!spool.mu.edu!yale.edu!ira.uka.de!scsing.switch.ch!josef!mduerst
  3. From: mduerst@ifi.unizh.ch (Martin J. Duerst)
  4. Subject: Re: Radicals Instead of Characters
  5. Message-ID: <1993Jan25.194330.680@ifi.unizh.ch>
  6. Sender: mduerst@ifi.unizh.ch (Martin J. Duerst)
  7. Organization: University of Zurich, Department of Computer Science
  8. References: <1jfgq1INNqmn@flop.ENGR.ORST.EDU> <2791@titccy.cc.titech.ac.jp> <1jpj9sINNlie@flop.ENGR.ORST.EDU> <1jtbfvINNqvr@life.ai.mit.edu>
  9. Date: Mon, 25 Jan 93 19:43:30 GMT
  10. Lines: 161
  11.  
  12.  
  13. In article <1jtbfvINNqvr@life.ai.mit.edu>, glenn@wheat-chex.ai.mit.edu (Glenn A. Adams) writes:
  14.  
  15. (A good post ideed, as always from Glenn A Adams. Just add my two cents)
  16. Just that you understand my comments: I am in no way advocating to split
  17. up Han characters by a radical coding.
  18.  
  19. > Another component set, called the Chiao-tung set, contains 446 components
  20. > and has been shown to generate more than 48,700 characters; however, even
  21. > it fails to describe certain characters.  Perhaps as many as 1,200 components
  22. > are needed to fully describe all known characters.
  23. Do you have any more information on this Chiao-tung set? I am greatly interested
  24. in it. I know of several character dictionaries that use more than the
  25. 218 radical set to explain certain connections and give hints for memorization.
  26.  
  27. > To disambiguate identical decompositions, it is necessary to tag each
  28. > decomposed component with a position and size metric.  The fully decomposed
  29. > character can then be unambiguously described as the sum of N components,
  30. > each having a specified position and size.
  31. I agree that you would have to disambiguate. But the bulk of the compositions
  32. would be left/right or top/bottom, or something similar. And for that, a single,
  33. prefixed code would be o.k. The positional balance could be refined by the
  34. rendering machine.
  35.  
  36.  
  37. > There are a number of text processing domains where character decomposition
  38. > might be useful:
  39. > 1. character encoding
  40. > 2. character input
  41. > 3. text compression
  42. > Similarly, glyph decomposition might be useful in the following domains:
  43. > 1. font encoding
  44. > 2. glyph representation
  45. > 3. glyph recognition (OCR)
  46. Add font design in both cases. For a font designer, it might be very convenient
  47. to ask for all the characters with a certain part in a certain position, not
  48. to mention specifying all these same parts on a global level before making
  49. the (clearly necessary) adjustments for each character.
  50.  
  51. > Since the present discussion revolves around character encoding issues,
  52. > it is useful to say how decomposition may affect character representation
  53. > and processing:
  54. > 1. Reduces character code element requirements:  (explanation deleted)
  55. > 2. Increases string lengths:  my guess is that, on the average, approximately
  56. >    4-5 components would be necessary, and, since each would require a position
  57. >    and size attribute, total string length would be increased by 9-12 times
  58. >    over a fully precomposed character encoding.  This could be reduced by
  59. >    multiply encoding each component, with one encoding for each position and
  60. >    size which that component could take.  In this case, if we assume that
  61. >    a fourth of the possible 10*10 position/size feature space was actually
  62. >    used by each component (on average), then 25*1200 code points would be
  63. >    needed, bringing us up to 25,000 code points.  A string would now increase
  64. >    only 3-4 times in size (in the average case), since position and size would
  65. >    be implicit.  However, the attraction of a small number of code points would
  66. >    be lost.
  67. As above, I slightly disagree. In your scheme, and that of most others
  68. proposed recently (with more or less details), you just add one componet
  69. after the other. You then need a code that tells you that the character
  70. is complete, which takes some space, too. On the other hand, with prefix
  71. composing codes like left-right and so, you can catch the great bunch of
  72. characters, and know where a character ends without any additional code.
  73. Of course, a small percentage of 'strange' characters is left, which still
  74. adds up to a fair number. But it would be better to code them as fixely
  75. composed characters, or to use some really basic description (what about
  76. postscript) for really rare characters.
  77.  
  78. > 3. Increase compression efficiency in the case of only using 1220 code
  79. >    positions; most compression schemes compress at a ratio which is
  80. >    directly proportional to the symbol count:  fewer symbols mean better
  81. >    compression.
  82. Interesting point, but of no avail:
  83. Fewer symbols -> longer messages  -> average compressed string length
  84.           -> more compression ->
  85. More symbols  -> shorter messages -> average compressed string length
  86.           -> less compression ->
  87. Do you think coding ASCII with one bit per byte (seven bytes per char)
  88. would increase compression efficiency? Surely not!
  89.  
  90. > 4. Allows for simple creation of new Han character symbols using combinatorial
  91. >    methods.
  92. Interesting for historians (not new, but newly discovered characters) and
  93. maybe writers/designers. But this should not be encouraged too much, just
  94. the existing characters give a lot to learn to anybody. And keep in mind
  95. that quite a few characters in use (or in a standard or a dictionary)
  96. have their origin in pure misspellings.
  97.  
  98. > 5. Text operations which must operate on each such decomposed Han character
  99. >    must now parse the string to find the boundaries of each decomposed Han
  100. >    character.  Indexing now becomes a O(n) problem, rather than a O(1)
  101. >    problem.
  102. > To summarize, a decomposed Han character approach may reduce the number of
  103. > code points needed from approximately 2^16 to approximately 2^11; however
  104. > text storage sizes will have a commensurate increase.  So, to roughly gauge
  105. > this, we might have:
  106. >   precomposed encoding
  107. >   2^20 precomposed characters *
  108. >   2^16 bits/precomposed character =
  109. >   2^36 bits
  110. >   decomposed encoding
  111. >   2^20 precomposed characters *
  112. >   2^4  decomposed characters/precomposed character *
  113. >   2^11 bits/decomposed character =
  114. >   2^35 bits
  115. > Thus a decomposed encoding may produce a 2 times space savings overall;
  116. > perhaps more still if the average decomposition is much smaller than 16
  117. > elements.  However, the cost of processing now increases dramatically
  118. > since indexing is no longer possible without parsing a string.  Furthermore,
  119. > nobody is going to use 11 bit character codes.  Once you go over 8 bits,
  120. > the only logical choice is 16 bits, or perhaps 32 bits.  Since 32 bits is
  121. > clearly overkill, there remains a 16-bit encoding model:  Unicode.
  122. I don't understand this. Are you trying to store a 1Mchar (2^20) text?
  123. This would be 2^20*16 = 2^24 bits = 16Mbits = 2Mbytes for precomposed and
  124. 2^20*4*11 = 44Mbits ~= 5.5Mbytes for decomposed, although the second is
  125. far below your estimate above (point 2).
  126. Or are you calculating something else, and I got it completely wrong?
  127.  
  128. > Perhaps further investigation of decomposition is justified in the context
  129. > of finding good compression algorithms; however, it is not justified in
  130. > the context of finding a reasonably simple yet adequate character encoding.
  131. > Some information regarding Han character and glyph decomposition which was
  132. > used above was taken from "On the Formalization of Glyph in Chinese
  133. > Language," by C. C. Hsieh, C. T. Chang, and Jack K. T. Huang, Feb 6, 1990,
  134. > a contribution to the Kyoto meeting of AFII (Association for Font Information
  135. > and Interchange).
  136. Do you have any information on this Association? Is it possible to join as
  137. an individual?
  138.  
  139. > Glenn Adams
  140.  
  141.  
  142. ----
  143. Dr.sc.  Martin J. Du"rst                ' , . p y f g c R l / =
  144. Institut fu"r Informatik                 a o e U i D h T n S -
  145. der Universita"t Zu"rich                  ; q j k x b m w v z
  146. Winterthurerstrasse  190                 (the Dvorak keyboard)
  147. CH-8057   Zu"rich-Irchel   Tel: +41 1 257 43 16
  148.  S w i t z e r l a n d       Fax: +41 1 363 00 35   Email: mduerst@ifi.unizh.ch
  149. Ñ╞Ñσí╝ÑδÑ╣Ñ╚íªÑ▐í╝Ñ╞ÑúÑ≤íªÑΣÑ│Ñ╓í╩Ñ┴Ñσí╝ÑΩÑ├Ñ╥┬τ│╪╛≡╩≤▓╩│╪▓╩í╦
  150. ----
  151.