home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 949 < prev    next >
Encoding:
Internet Message Format  |  1992-12-31  |  4.5 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 31 Dec 1992 03:11:17 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 97
  8. Message-ID: <1hu9v5INNbp1@rodan.UU.NET>
  9. References: <1992Dec30.010216.2550@nobeltech.se> <1992Dec30.061759.8690@fcom.cc.utah.edu>
  10. NNTP-Posting-Host: rodan.uu.net
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. In article <1992Dec30.061759.8690@fcom.cc.utah.edu> terry@cs.weber.edu (A Wizard of Earth C) writes:
  14. >The "ugly thing Unicode does with asiatic languages" is exactly what it
  15. >does with all other languages:  There is a single lexical assignment for
  16. >for each possible glyph.
  17. >....
  18. >ADMITTED DRAWBACKS IN UNICODE:
  19. >
  20. >The fact that lexical order is not maintained for all existing character
  21. >sets (NOTE: NO CURRENT OR PROPOSED STANDARD SUPPORTS THIS IDEA!) means that
  22. >a direct arithmatic translation is not possible for...
  23.  
  24. It means that:
  25.  
  26. 1) "mechanistic" conversion between upper and lower case
  27.    is impossible (as well as case-insensitive comparisons)
  28.  
  29.    Example:     Latin  T -> t
  30.         Cyrillic T -> m
  31.         Greek T -> ?
  32.  
  33.    This property alone renders Unicode useless for any business
  34.    applications.
  35.  
  36. 2) there is no trivial way to sort anything.
  37.    An elementary sort program will require access to enormous
  38.    tables for all possible languages.
  39.  
  40.    English: A B C D E ... T ...
  41.    Russian: A .. B ... E ... C T ...
  42.  
  43. 3) there is no reasonable way to do hyphenation.
  44.    Since there is no way to tell language from the text there
  45.    is no way to do any reasonable attempts to hyphenate.
  46.    [OX - which language this word is from]?
  47.  
  48.    Good-bye wordprocessors and formatters?
  49.  
  50. 4) "the similar gliphs" in Unicode are often SLIGHTLY different
  51.    typographical gliphs -- everybody who ever dealt with international
  52.    publishing knows that fonts are designed as a WHOLE and every
  53.    letter is designed with all others in mind -- i.e. X in Cyrillic
  54.    is NOT the same X as Latin even if the fonts are variations of
  55.    the same style. I'd wish you to see how ugly the Russian
  56.    texts prited on American desktop publishing systems with
  57.    "few characters added" are.
  58.  
  59.    In reality it means that Unicode is not a solution for
  60.    typesetting.
  61.  
  62. Having unique glyphs works ONLY WITHIN a group of languages
  63. which are based on variations of a single alphabet with
  64. non-conflicting alphabetical ordering and sets of
  65. vowels. You can do that for European languages.
  66. An attempt to do it for different groups (like Cyrillic and Latin)
  67. is disastrous at best -- we already tried is and finally came to
  68. the encodings with two absolutely separate alphabets.
  69.  
  70. I think that there is no many such groups, though, and it is possible
  71. to identify several "meta-alpahbets". The meta-alphabets have no
  72. defined rules for cross-sorting (unlike latters WITHIN one
  73. meta-alphabet; you CAN sort English and German words together
  74. and it still will make sense; sorting Russian and English together
  75. is at best useless). It increases the number of codes but not
  76. as drastically as codifying languages; there are hundreds of
  77. languages based on a dozen of meta-alphabets.
  78.  
  79. >The fact that all character sets do not occur in their local lexical order
  80. >means that a particular character can not be identified as to language by
  81. >its ordinal value.  This is a small penalty to pay for the vast reduction
  82. >in storage requirements between a 32-bit and a 16-bit character set that
  83. >contains all required glyphs.
  84.  
  85. Not true. First of all nothing forces to use 32-bit representation
  86. where only 10 bits are necessary.
  87.  
  88. So, as you see the Unicode is more a problem than a solution.
  89. The fundamental idea is simply wrong -- it is inadequate for
  90. anything except for Latin-based languages. No wonder we're
  91. hearing that Unicode is US-centric.
  92.  
  93. Unfortunately Unicode looks like a cool solution for people who
  94. never did any real localization work and i fear that this
  95. particular mistake will be promoted as standard presenting
  96. us a new round of headache. It does not remove necessity to
  97. carry off-text information (like "X-Language: english") and
  98. it makes it not better than existing ISO 8-bit encodings
  99. (if i know the language i already know its alphabet --
  100. all extra bits are simply wasted; and programs handling Unicode
  101. text have to know the laguage for reasons stated before).
  102.  
  103. UNICODE IS A *BIG* MISTAKE.
  104.  
  105. (Don't get me wrong -- i'm for the universal encoding; it's
  106. just that particular idea of unique glyphs that i strongly
  107. oppose).
  108.  
  109. --vadim
  110.