home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 962 < prev    next >
Encoding:
Internet Message Format  |  1993-01-01  |  5.2 KB

  1. Path: sparky!uunet!cs.utexas.edu!qt.cs.utexas.edu!yale.edu!yale!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 1 Jan 1993 06:33:06 GMT
  6. Organization: MIT Artificial Intelligence Laboratory
  7. Lines: 91
  8. Message-ID: <1i0oj2INNp4v@life.ai.mit.edu>
  9. References: <1hu9v5INNbp1@rodan.UU.NET> <8490@charon.cwi.nl> <1hvu79INN4qf@rodan.UU.NET>
  10. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  11. Keywords: ISO10646 Unicode
  12.  
  13. In article <1hvu79INN4qf@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  14. >If a combination of letters is treated as a letter IT IS A LETTER.
  15.  
  16. So, are <qu> and <ch> letters in English?  Is <a-e> a discontiguous
  17. letter in English 'take'?  You are grossly oversimplifying the process
  18. of determining what the graphemes are in a writing system, the way that
  19. its users perceive it, and the best way to encode it as information.
  20.  
  21. >The idea of visual encoding (and one letter-onr glyph is nothing more
  22. >than a compressed image of the text) is simply wrong...
  23.  
  24. Where did you get the idea that 10646 is a "visual encoding"?  Sure
  25. 10646 contains some glyphic like encodings.  But they are there not
  26. only to satisfy compatibility goals.  Nobody is recommending their
  27. use. 
  28.  
  29. >10646 was meant as an encoding eliminating the necessity to carry off-text
  30. >information (which is not a piece of cake, especially in multi-lingual
  31. >texts).
  32.  
  33. This is just complete nonsense.  I don't know who you've been talking
  34. with, but whoever it was, they certainly don't know much about 10646
  35. or Unicode.  Unicode (and the 10646 BMP by extension) is oriented around
  36. encoding the minimum content that allows for minimally legible display.
  37. This is alredy a well known and understood model for text:  ASCII, EBCDIC,
  38. etc.   I don't know a single ASCII-only encoding that tells me what
  39. language it is, what correct sort order to use, what font to display it
  40. with, etc.  Why should Unicode change this?
  41.  
  42. Nobody (who understands Unicode) ever claimed that it could solve all
  43. text processing problems without extra information.  Indeed, Unicode
  44. explicitly does not specify this additional information for good
  45. engineering reasons.
  46.  
  47. Consider for a moment why this was a good idea:  (1) Unicode fits the
  48. ASCII model extremely well; (2) Unicode explicitly supports higher
  49. level protocols just like ASCII, e.g., escape sequences; (3) the
  50. designers of Unicode recognized that an essentially unbounded amount
  51. of additional information may be useful for various text processes,
  52. various system platforms, etc.; (4) obtaining a consensus in ISO on
  53. a universal set of characters is an enormous problem -- expanding the
  54. goals to solve all the problems of multi-lingual text processing
  55. would have doomed the effort from the beginning.
  56.  
  57. >Take a life, guys. We in Russia did that mistake (DKOI and "GOST" encodings)
  58. >many years ago and came to realize that this solution is too simple to
  59. >be correct.
  60.  
  61. Good engineers know that building solutions to complex problems require
  62. dividing it into simpler sub-problem.  Good engineers also recognize
  63. that many complex problems do not have a single optimal solution, but many
  64. sub-optimal solutions.  The designers of Unicode and 10646 recognized
  65. from considerable experience in the field that the biggest problem was
  66. the proliferation of incomplete, inadequate character sets.  Creating
  67. a single character set that could correct this rapidly problematic
  68. state of affairs was the single and most important goal of Unicode's
  69. design.  Doing this task efficiently and with some measure of compatibility,
  70. both for existing data and existing software, were also important
  71. goals for its design.
  72.  
  73. What Unicode was not designed to do is extremely important for you and
  74. others to know.  It was not designed to solve the "multi-lingual text
  75. processing" problem.  Indeed, I would challenge you to create a single
  76. character set, which, in and of itself, solves this problem, and which
  77. could pass through existing standard bodies to become an international
  78. standard.  Your radical optimism about the possibility of doing so
  79. leads me to believe that you really have little experience in this field.
  80. [Not to say that others, including myself, didn't start out with a similar
  81. ungrounded optimism.]
  82.  
  83. If you want to truly bring forward the state of the art in multi-lingual
  84. text processing, you would be much better off to consider how to begin
  85. using Unicode (10646) with all of its intentional, designed-in limitations,
  86. rather than incorrectly attributing to 10646 a goal of panacea, then using
  87. the reality  of its limitations to shoot down your misattribution.  If you
  88. take the time to look at the facts, you will find that (1) Unicode was
  89. designed by a truly global community, and not a USCentric one as has been
  90. wrongly claimed; (2) Unicode and 10646 continues to solicit ideas
  91. and aid from persons who have useful contributions to make; and, (3)
  92. Unicode (10646) provides an adequate foundation on which complete
  93. solutions to the problems of multi-lingual text processing can be
  94. constructed.
  95.  
  96. If you have a genuine interest in learning about the facts surrounding
  97. Unicode and 10646, I would recommend a good reading of the Unicode Standard
  98. and the Proceedings of the Unicode Implementor's Workshops.
  99.  
  100. Glenn Adams
  101. Cambridge, Massachusetts
  102.  
  103.  
  104.