home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1263 < prev    next >
Encoding:
Internet Message Format  |  1993-01-21  |  5.2 KB

  1. Path: sparky!uunet!sequent!gaia.ucs.orst.edu!flop.ENGR.ORST.EDU!jade.CS.ORST.EDU!crowl
  2. From: crowl@jade.CS.ORST.EDU (Lawrence Crowl)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Radicals Instead of Characters
  5. Date: 21 Jan 1993 21:07:10 GMT
  6. Organization: Computer Science Department, Oregon State University
  7. Lines: 93
  8. Message-ID: <1jn39uINNbk0@flop.ENGR.ORST.EDU>
  9. References: <1j8kroINNf59@flop.ENGR.ORST.EDU> <1993Jan18.212846.3030@fcom.cc.utah.edu> <mvdvalk.727454246@rhone> <MELBY.93Jan21144739@dove.yk.fujitsu.co.jp> <1jlngtINNqnk@life.ai.mit.edu>
  10. NNTP-Posting-Host: jade.cs.orst.edu
  11.  
  12. In article <mvdvalk.727454246@rhone>
  13. mvdvalk@cs.utwente.nl (Martijn van der Valk) writes:
  14. >May be it's because I'm just too dumb to see the point of using ``radicals
  15. >instead of characters'', but to me it seems that the majority of Chinese
  16. >characters contain alot of ``familiar sets of strokes'' which are NOT radicals
  17. >according to KangXi dictionary. How to encode these? Enlarge the set of
  18. >radicals to encompass these ``pseudo-radicals''? Anyway, I don't get the
  19. >point. Could the original poster please re-explain what he means with the
  20. >original statement?
  21.  
  22. The proposal was that each of the 214 radicals be given a code point
  23. similar to letters.  Each CJK character would be represented as a
  24. sequence of radical codes, just as an English word is represented as a
  25. sequence of letter codes.  The important criteria is that each CJK
  26. character be uniquely determined by a sequence of radicals, not that it
  27. _appear_ as a simple composition of radicals.
  28.  
  29. The advantage to this approach is that it permits coding (nearly) all
  30. >50,000 CJK characters with (roughly) 214 code points, in contrast to
  31. the current unicode scheme, which (presently) encodes >20,000
  32. characters in >20,000 code points.  Fewer code points translates to
  33. smaller tables, possibly fewer bits in the code, and potentially lower
  34. costs.  With this approach, an international code might fit into 12
  35. bits instead of 16.  Countries not requiring CJK characters would then
  36. save 25% in the length of their text and 95% in the size of display
  37. tables and so forth.
  38.  
  39. The disadvantage to the radical coding approach, is that now individual
  40. characters require multiple code points.  Suppose
  41.   -  the hypothetical international-radical-coded character set
  42.      requires 12 bits,
  43.   -  the number of distict characters to be represented requires
  44.      18 bits, and
  45.   -  there are an average of 2.5 radicals per character.
  46. A paragraph of CJK characters would require 66% more bits with the
  47. radical-coded approach.  Table sizes for CJK fonts would not be
  48. affected.
  49.  
  50. In article <1jlngtINNqnk@life.ai.mit.edu>
  51. glenn@muesli.ai.mit.edu (Glenn A. Adams) writes:
  52. >In article <MELBY.93Jan21144739@dove.yk.fujitsu.co.jp>
  53. >melby@dove.yk.fujitsu.co.jp (John B. Melby) writes:
  54. >>Looking at Han characters in a probabilistic sense probably is not going
  55. >>to help much, since the positioning of radicals varies widely between
  56. >>characters.
  57. >
  58. >The idea being discussed for Han decomposition would have different
  59. >combining radicals for each of the possible positions the radical
  60. >could take; e.g. MAN-LEFT, MAN-TOP, MAN-BOTTOM, etc.
  61.  
  62. I was thinking more that radicals would have a defined order, so that,
  63. for instance, the first radical coded would be the one on the upper
  64. left.
  65.  
  66. >>(1) some rare characters cannot be expressed in this manner,
  67. >
  68. >Characters which could not be decomposed in this manner would be
  69. >represented in their entirety (i.e., as non-decomposed symbols).
  70. >
  71. >>(2) allowing the display of arbitrary characters using this sort of
  72. >>composition does not mean that their components will be aesthetically
  73. >>spaced.
  74. >
  75. >A system that displayed such decomposed symbols would most likely
  76. >employ a font which either (1) contained glyphs that represented the
  77. >entire symbol; or (2) contained internal instructions that would allow
  78. >it to position the radical properly.  In both cases, the correct
  79. >display geometry would be used.  The display engine would have to
  80. >map multiple coded character elements to single glyph references
  81. >or mutliple glyph references as appropriate.
  82.  
  83. In addition, display systems using the radical coded approach can
  84. provide cheap low-quality display of CJK characters by composing the
  85. radicals.  This would permit display of CJK characters in those markets
  86. where need for such display is rare.  I can't imagine anyone selling
  87. such displays to someone who uses CJK characters more than rarely.
  88.  
  89. >>A 16 bit font is insufficient for encoding rare characters, whichever way
  90. >>you look at it, although having 16-bit CJK unification and a user-defined
  91. >>character facility may be sufficient for an average user.
  92. >
  93. >Keep in mind that there is no necessary relation between a 16-bit character
  94. >encoding and a 16-bit font.  One can have a 16-bit character encoding like
  95. >Unicode (with 20,902 precomposed Han characters, and possibly a collection
  96. >of combining radical characters) and display with a 16-bit font that contains
  97. >2^16 Han glyphs, or even with a 24-bit font, a 32-bit font, etc.  The
  98. >relation of Unicode character code to font code is not defined by the
  99. >Unicode display model.
  100.  
  101. -- 
  102.   Lawrence Crowl        503-737-2554    Computer Science Department
  103.                crowl@cs.orst.edu    Oregon State University
  104.           ...!hplabs!hp-pcd!orstcs!crowl    Corvallis, Oregon,  97331-3202
  105.