home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 984 < prev    next >
Encoding:
Internet Message Format  |  1993-01-01  |  8.5 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 1 Jan 1993 19:47:18 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 203
  8. Message-ID: <1i2ommINN5uh@rodan.UU.NET>
  9. References: <1hu9v5INNbp1@rodan.UU.NET> <DwqPwB3w165w@blues.kk.sub.org>
  10. NNTP-Posting-Host: rodan.uu.net
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. In article <DwqPwB3w165w@blues.kk.sub.org> kosta@blues.kk.sub.org (Kosta Kostis) writes:
  14. >What do you consider a "mechanistic" case conversion?
  15.  
  16. The one which does not ask user which language he means every time
  17. he runs more -i.
  18.  
  19. >UniCode includes all the characters defined in ISO 8859-x.
  20. >Is case conversion a real problem with these?
  21.  
  22. It is not in every separate code (well, there are some irregularities
  23. but it's still algorithmic).
  24.  
  25. >We need more "clever" conversion routines.
  26.  
  27. Unfortunately there is a logical gap. I don't care WHICH algorith
  28. im used as long as it is ALGORITHM. There is no way to convert Unicode
  29. strings uppercase without "external" information.
  30.  
  31. >Whenever you want to convert a characters case or want to sort things,
  32. >the language used is one of the parameters, not only the character code.
  33.  
  34. Exactly. Then, if you already know the language why on the Earth
  35. do you need to waste bits on Unicode?
  36.  
  37. >>    This property alone renders Unicode useless for any business
  38. >>    applications.
  39. >
  40. >You really had a look at UniCode, hadn't you?  :-)
  41.  
  42. Sure.
  43.  
  44. >UniCode is limited because everything is squeezed into 16-bit, but
  45. >for latin languages (and the like) it's just fine.
  46.  
  47. Nope. It was already discussed here.
  48.  
  49. >> 2) there is no trivial way to sort anything.
  50. >>    An elementary sort program will require access to enormous
  51. >>    tables for all possible languages.
  52. >> 
  53. >>    English: A B C D E ... T ...
  54. >>    Russian: A .. B ... E ... C T ...
  55. >
  56. >This is a problem regardless of the character set being used.
  57. >Why do you blame UniCode for that?
  58.  
  59. Regardless????  ASCII allows to sort English; KOI-8 allows to
  60. sort both Russian and English. With Unicode i can't do it
  61. if i don't know the language of the text. What about AI in sort?
  62.  
  63. >The Cyrillic "X" is *not* the same as the Latin 1 "X" in UniCode,
  64. >as you might know. Have you ever tried this with an "american DTP system"
  65. >that uses UniCode?   :-)  I don't think so...
  66.  
  67. No i haven't tried and it is one more reason to be careful with Unicode --
  68. it wasn't tested in the real life.
  69.  
  70. >> Having unique glyphs works ONLY WITHIN a group of languages
  71. >> which are based on variations of a single alphabet with
  72. >> non-conflicting alphabetical ordering and sets of
  73. >> vowels. You can do that for European languages.
  74. >
  75. >You can't. Maybe you should learn more about European languages. ;-)
  76.  
  77. Already discussed. I sure don't know everything but i know that
  78. you can made a minimal strictly ordered set from unification of
  79. strictly ordered sets by merging similar elements.
  80.  
  81. >> An attempt to do it for different groups (like Cyrillic and Latin)
  82. >> is disastrous at best -- we already tried is and finally came to
  83. >> the encodings with two absolutely separate alphabets.
  84. >
  85. >That's what's done in ISO 8859-5 and what UniCode does. RTFM.  :-)
  86.  
  87. ISO 885905 is dead. Nobody uses it in Russia, FYI. And we've got
  88. the same problem with cyrillic-based languages as with latin-based
  89. languages in Europe; in my native Northern Caucasus there are about
  90. 300 different languages, most of them have writing based on cyrillic.
  91.  
  92. >> I think that there is no many such groups, though, and it is possible
  93. >> to identify several "meta-alpahbets". The meta-alphabets have no
  94. >> defined rules for cross-sorting (unlike latters WITHIN one
  95. >> meta-alphabet; you CAN sort English and German words together
  96. >> and it still will make sense; 
  97. >
  98. >Why do you think it would make sense?
  99.  
  100. It's easy, Watson. Names, for example. Or (a case from my practice)
  101. -- there is a lot of commercial enterprises in Moscow with English
  102. names (moda, i guess). Then, i've got to sort the list.
  103. The KOI-8 sorting produced a list contained all Russian names
  104. in alphabetical order and then all English in alpabetical order
  105. which was exactly what was desired.
  106.  
  107. >It won't make sense. Lexical sorting makes only sense, if at all, in
  108. >*one* single language.
  109.  
  110. See before.
  111.  
  112. >You will have to sort data with the attribut
  113. >"language" if you want to do it correctly in any case, either implied
  114. >or added explicitly. A sorting program made for Russian text in e. g.
  115. >ISO 8859-5 may do the job well for exactly that, it will create trash
  116. >when run over German text coded in ISO 8859-1.
  117.  
  118. "Sorting" is not only as in sort, it is also in [a-z] in grep or
  119. in the screen editor search; it is in awk, perl and shell globbing.
  120. Want to modify all those languages to tell the language every time?
  121. Don't be ridiculous.
  122.  
  123. >A "general" sorting
  124. >program would be so complex that it's *almost* impossible to do.
  125. >It will at least be very much memory and CPU consuming at it will
  126. >take years (many years) to develop it. I'd love to be wrong here.
  127.  
  128. Your wish is granted. See my prevous postings with discussion of
  129. techniques (composite letters and equivalence classes).
  130.  
  131. >>                               sorting Russian and English together
  132. >> is at best useless). It increases the number of codes but not
  133. >> as drastically as codifying languages; there are hundreds of
  134. >> languages based on a dozen of meta-alphabets.
  135. >
  136. >Why should you want to sort data with mixed Russian and e. g. English
  137. >words anyway? If you do so using plain character sets instead of clever
  138. >algorithms, you must fail hopelessly.
  139.  
  140. See before. I have files with both Russian and English names in my
  141. directory, btw, and ls produces exactly what i want.
  142.  
  143. >> Not true. First of all nothing forces to use 32-bit representation
  144. >> where only 10 bits are necessary.
  145. >
  146. >10 bits? You want to keep Asian languages out of the game, too?  :-)
  147.  
  148. It was nothing more than a figure of speech (i.e. 32 bits aren't always
  149. necessary). We're in agreement here :-)
  150.  
  151. >> The fundamental idea is simply wrong -- it is inadequate for
  152. >> anything except for Latin-based languages. No wonder we're
  153. >> hearing that Unicode is US-centric.
  154. >
  155. >I agree that UniCode is not very good for Asian languages, but
  156. >for European languages (and some more) it's really OK. Should
  157. >we ever decide to use the full 32-bits ISO 10646 intended to
  158. >allocate for character codes, we should be able to cover almost
  159. >all languages (to some extend).
  160.  
  161. It is also inadequate for cyrillic-based languages (slavic and
  162. others; not all slavic languages use cyrillic and most of
  163. Cyrillic languages aren't slavic!)
  164.  
  165. >> Unfortunately Unicode looks like a cool solution for people who
  166. >> never did any real localization work and i fear that this
  167. >> particular mistake will be promoted as standard presenting
  168. >> us a new round of headache. It does not remove necessity to
  169. >> carry off-text information (like "X-Language: english") and
  170. >> it makes it not better than existing ISO 8-bit encodings
  171. >> (if i know the language i already know its alphabet --
  172. >
  173. >No, you don't. Look at the existing ISO 8-bit encodings, namely
  174. >ISO 8859-x and you can see that many languages can be encoded in
  175. >several character sets. You will always have to include a language
  176. >tag if the language is not implied.
  177.  
  178. I never tols that i like ISO 8859-x encodings; quite opposite.
  179.  
  180. However, there are multilingual enbcodings which do not require
  181. explicit language specifications for sorting and case conversion.
  182. KOI-8 (English and Russian) is an example.
  183.  
  184. >> all extra bits are simply wasted; and programs handling Unicode
  185. >> text have to know the laguage for reasons stated before).
  186. >
  187. >Extra bits aren't wasted. 10-bit or 16-bit make no real difference. 
  188.  
  189. You missed the argument, apparently i failed to explain. See in my
  190. other postings.
  191.  
  192.  
  193. >> UNICODE IS A *BIG* MISTAKE.
  194. >
  195. >This may be your opinion, but I don't agree. It's still a better
  196. >"mistake" than plain US ASCII and it's better than 8-bit encodings
  197. >and/or character set switching.  ;-)
  198.  
  199. I simply know the hole it'll sunk in. We already saw it with
  200. several Russian-English encodings.
  201.  
  202. >The other languages you stated, like Russian, Greek and English
  203. >seem to be served well by UniCode, I think.
  204.  
  205. I can say for sure aboout Russian (since it's my native language and
  206. i'm quite experienced in localization issues) that it is out of
  207. question that Unicode will never be used inside Russia.
  208.  
  209. >As much as I can see no universal character set will ever *solve*
  210. >the problems arising from sorting, case conversion, hyphenation
  211. >and many more, thus we shouldn't expect that.
  212.  
  213. There are some sensible solutions, Unicode isn't one of them.
  214.  
  215. --vadim
  216.