home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 996 < prev    next >
Encoding:
Text File  |  1993-01-02  |  10.6 KB  |  253 lines

  1. Path: sparky!uunet!cs.utexas.edu!qt.cs.utexas.edu!yale.edu!ira.uka.de!Germany.EU.net!incom!kostis!blues!kosta
  2. From: kosta@blues.kk.sub.org (Kosta Kostis)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  6. Message-ID: <VyqRwB2w165w@blues.kk.sub.org>
  7. Date: Sat, 02 Jan 93 22:31:18 MET
  8. References: <1i2ommINN5uh@rodan.UU.NET>
  9. Organization: The Blues Family
  10. Lines: 241
  11.  
  12. avg@rodan.UU.NET (Vadim Antonov) writes:
  13.  
  14. > In article <DwqPwB3w165w@blues.kk.sub.org> kosta@blues.kk.sub.org (Kosta Kost
  15. > >What do you consider a "mechanistic" case conversion?
  16. > The one which does not ask user which language he means every time
  17. > he runs more -i.
  18.  
  19. Nice. Your local language will be implied somehow and you can use it as
  20. a default. What's your problem?
  21.  
  22. > >We need more "clever" conversion routines.
  23. > Unfortunately there is a logical gap. I don't care WHICH algorith
  24. > im used as long as it is ALGORITHM. There is no way to convert Unicode
  25. > strings uppercase without "external" information.
  26.  
  27. There is no way to convert non-US ASCII strings without "external"
  28. information. Simple "solutions" may work for "Russian and English"
  29. or for "Greek and English", where you imply the language, but there's
  30. no *general* solution. You don't seem to understand that.
  31.  
  32. > >Whenever you want to convert a characters case or want to sort things,
  33. > >the language used is one of the parameters, not only the character code.
  34. > Exactly. Then, if you already know the language why on the Earth
  35. > do you need to waste bits on Unicode?
  36.  
  37. Because there are more languages but English and Russian.  ;-)
  38.  
  39. > >> 2) there is no trivial way to sort anything.
  40. > >>    An elementary sort program will require access to enormous
  41. > >>    tables for all possible languages.
  42. > >> 
  43. > >>    English: A B C D E ... T ...
  44. > >>    Russian: A .. B ... E ... C T ...
  45. > >
  46. > >This is a problem regardless of the character set being used.
  47. > >Why do you blame UniCode for that?
  48. > Regardless????  ASCII allows to sort English; KOI-8 allows to
  49. > sort both Russian and English. With Unicode i can't do it
  50. > if i don't know the language of the text. What about AI in sort?
  51.  
  52. Nice for you you're bilingual, but there are companies and the like
  53. that need support for much more than two languages and their
  54. "common alphabet" won't fit in 8-bit, 9-bit or 10-bit.
  55.  
  56. > >The Cyrillic "X" is *not* the same as the Latin 1 "X" in UniCode,
  57. > >as you might know. Have you ever tried this with an "american DTP system"
  58. > >that uses UniCode?   :-)  I don't think so...
  59. > No i haven't tried and it is one more reason to be careful with Unicode --
  60. > it wasn't tested in the real life.
  61.  
  62. This is funny. I think you were joking here, right?   ;-)
  63.  
  64. > >> Having unique glyphs works ONLY WITHIN a group of languages
  65. > >> which are based on variations of a single alphabet with
  66. > >> non-conflicting alphabetical ordering and sets of
  67. > >> vowels. You can do that for European languages.
  68. > >
  69. > >You can't. Maybe you should learn more about European languages. ;-)
  70. > Already discussed. I sure don't know everything but i know that
  71. > you can made a minimal strictly ordered set from unification of
  72. > strictly ordered sets by merging similar elements.
  73.  
  74. You think you can do so. Implement it and try to sell it. Good luck.
  75.  
  76. > >> An attempt to do it for different groups (like Cyrillic and Latin)
  77. > >> is disastrous at best -- we already tried is and finally came to
  78. > >> the encodings with two absolutely separate alphabets.
  79. > >
  80. > >That's what's done in ISO 8859-5 and what UniCode does. RTFM.  :-)
  81. > ISO 885905 is dead. Nobody uses it in Russia, FYI. And we've got
  82. > the same problem with cyrillic-based languages as with latin-based
  83. > languages in Europe; in my native Northern Caucasus there are about
  84. > 300 different languages, most of them have writing based on cyrillic.
  85.  
  86. I can see 202 cyrillic characters (including diacritic marks) in
  87. UniCode Version 1.0 - that's better than ISO 8859-5 (96 characters).
  88. Does KOI-8 cover more than 202 cyrillic characters?
  89.  
  90. > >> I think that there is no many such groups, though, and it is possible
  91. > >> to identify several "meta-alpahbets". The meta-alphabets have no
  92. > >> defined rules for cross-sorting (unlike latters WITHIN one
  93. > >> meta-alphabet; you CAN sort English and German words together
  94. > >> and it still will make sense; 
  95. > >
  96. > >Why do you think it would make sense?
  97. > It's easy, Watson. Names, for example. Or (a case from my practice)
  98. > -- there is a lot of commercial enterprises in Moscow with English
  99. > names (moda, i guess). Then, i've got to sort the list.
  100. > The KOI-8 sorting produced a list contained all Russian names
  101. > in alphabetical order and then all English in alpabetical order
  102. > which was exactly what was desired.
  103. > >It won't make sense. Lexical sorting makes only sense, if at all, in
  104. > >*one* single language.
  105. > See before.
  106.  
  107. You have your way of sorting names, others have other ways of sorting.
  108. Foreign names are written in German with German letters in Germany.
  109. My name is Greek, but I write it with Latin characters, so are all names
  110. in Germany. German sorting rules apply and we would never think to
  111. distinguish between an English and a Russian or German name in that case.
  112.  
  113. > >You will have to sort data with the attribut
  114. > >"language" if you want to do it correctly in any case, either implied
  115. > >or added explicitly. A sorting program made for Russian text in e. g.
  116. > >ISO 8859-5 may do the job well for exactly that, it will create trash
  117. > >when run over German text coded in ISO 8859-1.
  118. > "Sorting" is not only as in sort, it is also in [a-z] in grep or
  119. > in the screen editor search; it is in awk, perl and shell globbing.
  120. > Want to modify all those languages to tell the language every time?
  121. > Don't be ridiculous.
  122.  
  123. *This* is ridiculous. You constantly miss the point.
  124.  
  125. Dig it: there are more than two languages.
  126.  
  127. You can add "implied" bilinguality in your grep or whatever but that's
  128. about it. 
  129.  
  130. > >A "general" sorting
  131. > >program would be so complex that it's *almost* impossible to do.
  132. > >It will at least be very much memory and CPU consuming at it will
  133. > >take years (many years) to develop it. I'd love to be wrong here.
  134. > Your wish is granted. See my prevous postings with discussion of
  135. > techniques (composite letters and equivalence classes).
  136.  
  137. Will this help with Arabic, Hebrew, Kanji and all that?
  138. You constantly try to squeeze everything in the scheme you used
  139. while having to bring together cyrillic and english, but what's
  140. good in one case doesn't need to be good in another case.
  141. ASCII like solution just don't work for the whole world.
  142.  
  143. > >>                               sorting Russian and English together
  144. > >> is at best useless). It increases the number of codes but not
  145. > >> as drastically as codifying languages; there are hundreds of
  146. > >> languages based on a dozen of meta-alphabets.
  147. > >
  148. > >Why should you want to sort data with mixed Russian and e. g. English
  149. > >words anyway? If you do so using plain character sets instead of clever
  150. > >algorithms, you must fail hopelessly.
  151. > See before. I have files with both Russian and English names in my
  152. > directory, btw, and ls produces exactly what i want.
  153.  
  154. Yeah, OK. Your "ls" would not produce what I want on a ISO 8859-1 terminal.
  155. I don't want to see cyrillic letters when I expect umlauts and so on. 
  156. Your cyrillic order scheme doesn't work for other character sets.
  157. If you want to support many languages with one program you will have to
  158. tell the program the languages *and* have a more rich character set.
  159.  
  160. > It is also inadequate for cyrillic-based languages (slavic and
  161. > others; not all slavic languages use cyrillic and most of
  162. > Cyrillic languages aren't slavic!)
  163.  
  164. I believe you, but what's the problem with UniCode here?
  165. Maybe you should tell me more about KOI-8 (by email, please).
  166.  
  167. > >No, you don't. Look at the existing ISO 8-bit encodings, namely
  168. > >ISO 8859-x and you can see that many languages can be encoded in
  169. > >several character sets. You will always have to include a language
  170. > >tag if the language is not implied.
  171. > I never tols that i like ISO 8859-x encodings; quite opposite.
  172.  
  173. Why? For me it's better than US ASCII and I have no advantage using
  174. KOI-8 when I want to read/write Greek, right?
  175.  
  176. > However, there are multilingual enbcodings which do not require
  177. > explicit language specifications for sorting and case conversion.
  178. > KOI-8 (English and Russian) is an example.
  179.  
  180. The language is implied. It's yet another incarnation of a national
  181. "island solution". Do you think one character set for every country
  182. (or better region) is really what we should be looking for?
  183. Don't we have that already and wasn't that one reason to create UniCode?
  184.  
  185. > >> all extra bits are simply wasted; and programs handling Unicode
  186. > >> text have to know the laguage for reasons stated before).
  187. > >
  188. > >Extra bits aren't wasted. 10-bit or 16-bit make no real difference. 
  189. > You missed the argument, apparently i failed to explain. See in my
  190. > other postings.
  191.  
  192. I Can't. Expire done the dirty work already.  :-)
  193. (BTW: in which group? I don't read all.  :-) )
  194.  
  195. > >> UNICODE IS A *BIG* MISTAKE.
  196. > >
  197. > >This may be your opinion, but I don't agree. It's still a better
  198. > >"mistake" than plain US ASCII and it's better than 8-bit encodings
  199. > >and/or character set switching.  ;-)
  200. > I simply know the hole it'll sunk in. We already saw it with
  201. > several Russian-English encodings.
  202.  
  203. UniCode is not a Russian-English encoding. It's a multilingual
  204. encoding with advantages and drawbacks.
  205.  
  206. > >The other languages you stated, like Russian, Greek and English
  207. > >seem to be served well by UniCode, I think.
  208. > I can say for sure aboout Russian (since it's my native language and
  209. > i'm quite experienced in localization issues) that it is out of
  210. > question that Unicode will never be used inside Russia.
  211.  
  212. Did I hear your shoe on the table?   :-)
  213.  
  214. Changes are not liked in general. Especially if they mean "work".
  215. You don't see the advantages right now, but as soon as Russia makes
  216. more business with non-english speaking companies, you will understand
  217. the problems. Just open the door, it's real nice outside.  :-)
  218.  
  219. > >As much as I can see no universal character set will ever *solve*
  220. > >the problems arising from sorting, case conversion, hyphenation
  221. > >and many more, thus we shouldn't expect that.
  222. > There are some sensible solutions, Unicode isn't one of them.
  223.  
  224. There are partial solutions for local problems, fine, but that's
  225. it and that's what will be. No universal character set will ever
  226. solve that [period].  (Now hear my shoe on the table ...  ;-) )
  227.  
  228.         Kosta
  229.  
  230.  
  231. -- 
  232.   Kosta Kostis, Talstrasse 25, D-6074 Roedermark 3, Germany
  233.   kosta@blues.kk.sub.org                                        (home)
  234.   sw authors: please support ISO 8859-x!      Σ÷ⁿ─╓▄▀ = aeoeueAEOEUEss
  235.