home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 982 < prev    next >
Encoding:
Text File  |  1993-01-01  |  8.6 KB  |  211 lines

  1. Path: sparky!uunet!zaphod.mps.ohio-state.edu!cs.utexas.edu!qt.cs.utexas.edu!yale.edu!ira.uka.de!smurf.sub.org!incom!kostis!blues!kosta
  2. From: kosta@blues.kk.sub.org (Kosta Kostis)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  6. Message-ID: <DwqPwB3w165w@blues.kk.sub.org>
  7. Date: Fri, 01 Jan 93 20:34:36 MET
  8. References: <1hu9v5INNbp1@rodan.UU.NET>
  9. Organization: The Blues Family
  10. Lines: 199
  11.  
  12. avg@rodan.UU.NET (Vadim Antonov) writes:
  13.  
  14. > 1) "mechanistic" conversion between upper and lower case
  15. >    is impossible (as well as case-insensitive comparisons)
  16. >    Example:     Latin  T -> t
  17. >               Cyrillic T -> m
  18. >               Greek T -> ?
  19.  
  20. What do you consider a "mechanistic" case conversion?
  21.  
  22. UniCode includes all the characters defined in ISO 8859-x.
  23. Is case conversion a real problem with these?
  24. We need more "clever" conversion routines.
  25.  
  26. Whenever you want to convert a characters case or want to sort things,
  27. the language used is one of the parameters, not only the character code.
  28.  
  29. >    This property alone renders Unicode useless for any business
  30. >    applications.
  31.  
  32. You really had a look at UniCode, hadn't you?  :-)
  33.  
  34. UniCode is limited because everything is squeezed into 16-bit, but
  35. for latin languages (and the like) it's just fine.
  36.  
  37. > 2) there is no trivial way to sort anything.
  38. >    An elementary sort program will require access to enormous
  39. >    tables for all possible languages.
  40. >    English: A B C D E ... T ...
  41. >    Russian: A .. B ... E ... C T ...
  42.  
  43. This is a problem regardless of the character set being used.
  44. Why do you blame UniCode for that?
  45.  
  46. > 3) there is no reasonable way to do hyphenation.
  47. >    Since there is no way to tell language from the text there
  48. >    is no way to do any reasonable attempts to hyphenate.
  49. >    [OX - which language this word is from]?
  50. >    Good-bye wordprocessors and formatters?
  51.  
  52. No. It's a big "hello" for *good* wordprocessors and formatters that
  53. "know" about the language the words are written in and they *need* to
  54. know that to perform correct actions. This is again regardless of the
  55. character set being used. No reason to blame UniCode *here*.
  56.  
  57. > 4) "the similar gliphs" in Unicode are often SLIGHTLY different
  58. >    typographical gliphs -- everybody who ever dealt with international
  59. >    publishing knows that fonts are designed as a WHOLE and every
  60. >    letter is designed with all others in mind -- i.e. X in Cyrillic
  61. >    is NOT the same X as Latin even if the fonts are variations of
  62. >    the same style. I'd wish you to see how ugly the Russian
  63. >    texts prited on American desktop publishing systems with
  64. >    "few characters added" are.
  65.  
  66. The Cyrillic "X" is *not* the same as the Latin 1 "X" in UniCode,
  67. as you might know. Have you ever tried this with an "american DTP system"
  68. that uses UniCode?   :-)  I don't think so...
  69.  
  70. >    In reality it means that Unicode is not a solution for
  71. >    typesetting.
  72.  
  73. Come on. What did you expect? A universal character set is not the
  74. "solution", it's just intended to help you develop it.
  75.  
  76. Anyway I doubt there will ever *a* solution for this field.
  77. Even with UniCode I guess there will be many solutions covering
  78. just facets of the whole "problem".
  79.  
  80. > Having unique glyphs works ONLY WITHIN a group of languages
  81. > which are based on variations of a single alphabet with
  82. > non-conflicting alphabetical ordering and sets of
  83. > vowels. You can do that for European languages.
  84.  
  85. You can't. Maybe you should learn more about European languages. ;-)
  86.  
  87. > An attempt to do it for different groups (like Cyrillic and Latin)
  88. > is disastrous at best -- we already tried is and finally came to
  89. > the encodings with two absolutely separate alphabets.
  90.  
  91. That's what's done in ISO 8859-5 and what UniCode does. RTFM.  :-)
  92.  
  93. > I think that there is no many such groups, though, and it is possible
  94. > to identify several "meta-alpahbets". The meta-alphabets have no
  95. > defined rules for cross-sorting (unlike latters WITHIN one
  96. > meta-alphabet; you CAN sort English and German words together
  97. > and it still will make sense; 
  98.  
  99. Why do you think it would make sense?
  100.  
  101. It won't make sense. Lexical sorting makes only sense, if at all, in
  102. *one* single language. You will have to sort data with the attribut
  103. "language" if you want to do it correctly in any case, either implied
  104. or added explicitly. A sorting program made for Russian text in e. g.
  105. ISO 8859-5 may do the job well for exactly that, it will create trash
  106. when run over German text coded in ISO 8859-1. A "general" sorting
  107. program would be so complex that it's *almost* impossible to do.
  108. It will at least be very much memory and CPU consuming at it will
  109. take years (many years) to develop it. I'd love to be wrong here.
  110.  
  111. >                               sorting Russian and English together
  112. > is at best useless). It increases the number of codes but not
  113. > as drastically as codifying languages; there are hundreds of
  114. > languages based on a dozen of meta-alphabets.
  115.  
  116. Why should you want to sort data with mixed Russian and e. g. English
  117. words anyway? If you do so using plain character sets instead of clever
  118. algorithms, you must fail hopelessly.
  119.  
  120. > >The fact that all character sets do not occur in their local lexical order
  121. > >means that a particular character can not be identified as to language by
  122. > >its ordinal value.  This is a small penalty to pay for the vast reduction
  123. > >in storage requirements between a 32-bit and a 16-bit character set that
  124. > >contains all required glyphs.
  125.  
  126. (sorry, Vadim, I know you didn't write the above)
  127.  
  128. Who defines "required"? This is a classical "don't care about the
  129. users culture/needs" approach that was so harmfull in the past.
  130.  
  131. > Not true. First of all nothing forces to use 32-bit representation
  132. > where only 10 bits are necessary.
  133.  
  134. 10 bits? You want to keep Asian languages out of the game, too?  :-)
  135.  
  136. Transfering 10-bit will cost the same as 16-bit if you don't do some
  137. tricky encoding which I don't think I want to have, do you?
  138.  
  139. This assumes you organize/store character data in multiple 8-bit
  140. octets which should be true for the vast majority of computers today
  141. and in the future.
  142.  
  143. > So, as you see the Unicode is more a problem than a solution.
  144.  
  145. No, I think it's more like one step aside and one towards a solution.
  146.  
  147. > The fundamental idea is simply wrong -- it is inadequate for
  148. > anything except for Latin-based languages. No wonder we're
  149. > hearing that Unicode is US-centric.
  150.  
  151. I agree that UniCode is not very good for Asian languages, but
  152. for European languages (and some more) it's really OK. Should
  153. we ever decide to use the full 32-bits ISO 10646 intended to
  154. allocate for character codes, we should be able to cover almost
  155. all languages (to some extend).
  156.  
  157. Digital systems and numbering systems in general are limited.
  158. You can get close to the "original", but you will never be able
  159. to do more than an approximation, but that's another story.  ;-)
  160.  
  161. > Unfortunately Unicode looks like a cool solution for people who
  162. > never did any real localization work and i fear that this
  163. > particular mistake will be promoted as standard presenting
  164. > us a new round of headache. It does not remove necessity to
  165. > carry off-text information (like "X-Language: english") and
  166. > it makes it not better than existing ISO 8-bit encodings
  167. > (if i know the language i already know its alphabet --
  168.  
  169. No, you don't. Look at the existing ISO 8-bit encodings, namely
  170. ISO 8859-x and you can see that many languages can be encoded in
  171. several character sets. You will always have to include a language
  172. tag if the language is not implied.
  173.  
  174. > all extra bits are simply wasted; and programs handling Unicode
  175. > text have to know the laguage for reasons stated before).
  176.  
  177. Extra bits aren't wasted. 10-bit or 16-bit make no real difference. 
  178.  
  179. > UNICODE IS A *BIG* MISTAKE.
  180.  
  181. This may be your opinion, but I don't agree. It's still a better
  182. "mistake" than plain US ASCII and it's better than 8-bit encodings
  183. and/or character set switching.  ;-)
  184.  
  185. > (Don't get me wrong -- i'm for the universal encoding; it's
  186. > just that particular idea of unique glyphs that i strongly
  187. > oppose).
  188.  
  189. I agree. Unique glyphs are important, and this is not done for
  190. Japanese, Chinese and Korean(?). Well, at least not for those... :-)
  191.  
  192. The other languages you stated, like Russian, Greek and English
  193. seem to be served well by UniCode, I think.
  194.  
  195. As much as I can see no universal character set will ever *solve*
  196. the problems arising from sorting, case conversion, hyphenation
  197. and many more, thus we shouldn't expect that.
  198.  
  199. > --vadim
  200.  
  201.     Kosta
  202.  
  203.  
  204. -- 
  205.   Kosta Kostis, Talstrasse 25, D-6074 Roedermark 3, Germany
  206.   kosta@blues.kk.sub.org                                        (home)
  207.   sw authors: please support ISO 8859-x!      Σ÷ⁿ─╓▄▀ = aeoeueAEOEUEss
  208.