home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1322 < prev    next >
Encoding:
Internet Message Format  |  1993-01-25  |  3.1 KB

  1. Path: sparky!uunet!ogicse!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Radicals Instead of Characters
  5. Message-ID: <1k1p4kINNjse@life.ai.mit.edu>
  6. Date: 25 Jan 93 22:21:07 GMT
  7. Article-I.D.: life.1k1p4kINNjse
  8. References: <1jpj9sINNlie@flop.ENGR.ORST.EDU> <1jtbfvINNqvr@life.ai.mit.edu> <1993Jan25.194330.680@ifi.unizh.ch>
  9. Organization: MIT Artificial Intelligence Laboratory
  10. Lines: 62
  11. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  12.  
  13. In article <1993Jan25.194330.680@ifi.unizh.ch> mduerst@ifi.unizh.ch (Martin J. Duerst) writes:
  14. >
  15. >In article <1jtbfvINNqvr@life.ai.mit.edu>, glenn@wheat-chex.ai.mit.edu (Glenn A. Adams) writes:
  16. >>   precomposed encoding
  17. >> 
  18. >>   2^20 precomposed characters *
  19. >>   2^16 bits/precomposed character =
  20. >>   2^36 bits
  21. >> 
  22. >>   decomposed encoding
  23. >> 
  24. >>   2^20 precomposed characters *
  25. >>   2^4  decomposed characters/precomposed character *
  26. >>   2^11 bits/decomposed character =
  27. >>   2^35 bits
  28.  
  29. Sorry, my arithmetic was broken, I should have had:
  30.  
  31. precomposed encoding
  32.  
  33.  2^20 precomposed characters *
  34.  16   bits/precomposed character =
  35.  2^24 bits = 2 MB
  36.  
  37. decomposed encoding
  38.  
  39.  2^20 precomposed characters *
  40.  9    decomposed characters/precomposed character *
  41.  11   bits/decomposed character =
  42.  1.55 * 2^26 bits = 12.375 MB
  43.  
  44. This works out to a 6.2 times increase in size for the decomposed form.  If
  45. the decomposition required fewer elements on average, say 4 instead of 9,
  46. then that would reduce the expansion to 2.75 times the precomposed form.
  47.  
  48. I don't know if 4 element decompositions are possible on the average,
  49. particularly given size and position ambiguities.  Even if it were
  50. possible, not only would you require nearly 3 times the size as the
  51. precomposed form, but you also would have the complexities introduced by
  52. variable length text element (in this case, Han graphic symbol = Han
  53. character) encodings.
  54.  
  55. The only reason I could see in pursuing this is to support encoding rarely
  56. used characters rather than wasting the encoding space on little used
  57. elements.  If all characters through the 90 percentile are encoded as
  58. single code elements and the remainder decomposed using a decomposition
  59. scheme, then I expect the best efficiency will hold on both size and
  60. on encoding space usage.  Text processing algorithms will be somewhat
  61. complicated by having to deal with variable length text element encodings;
  62. however, the same is true even now for dealing with Unicode non-spacing
  63. diacritics on Latin and Cyrillic base forms.
  64.  
  65. One way out of this last problem is to use the Unicode Private Use Zone
  66. (6144 code positions) as a dynamically reconfigurable character set area.
  67. Then, upon input, translate rare decomposed Han elements (or other decomposed
  68. text elements) to a code point which is dynamically assigned from the private
  69. use zone.  Of course, when interchanging the data, it would have to be
  70. retranslated back to the decomposed form -- I assume you  don't want to send
  71. someone Unicode data with private use zone data, that is, unless you are
  72. in complete control of both sending and receiving parties.
  73.  
  74. Glenn Adams
  75.