home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / unix / bsd / 10827 < prev    next >
Encoding:
Internet Message Format  |  1993-01-01  |  10.3 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.unix.bsd
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 1 Jan 1993 18:27:05 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 217
  8. Message-ID: <1i2k09INN4hl@rodan.UU.NET>
  9. References: <1992Dec30.061759.8690@fcom.cc.utah.edu> <1ht8v4INNj7i@rodan.UU.NET> <1993Jan1.094759.8021@fcom.cc.utah.edu>
  10. NNTP-Posting-Host: rodan.uu.net
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. In article <1993Jan1.094759.8021@fcom.cc.utah.edu> terry@cs.weber.edu (A Wizard of Earth C) writes:
  14. >In article <1ht8v4INNj7i@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  15. >>In article <1992Dec30.061759.8690@fcom.cc.utah.edu> terry@cs.weber.edu (A Wizard of Earth C) writes:
  16. >>1) "mechanistic" conversion between upper and lower case
  17. >>   is impossible (as well as case-insensitive comparisons)
  18. >>
  19. >>   Example:     Latin  T -> t
  20. >>        Cyrillic T -> m
  21. >>        Greek T -> ?
  22. >>
  23. >>   This property alone renders Unicode useless for any business
  24. >>   applications.
  25. >
  26. >This is simply untrue.  Because a subtractive/additive conversion is
  27. >impossible in *some* cases does not mean a *mechanistic* conversion is
  28. >also impossible.  In particular, a tabular conversion is an obvious
  29. >approach which has already been used with success, with a minimal
  30. >(multiply plus dereference) overhead.
  31.  
  32. You omitted one small "detail" -- you need to know the language of the word
  33. the letter belongs to to make a conversion. Since Unicode does not
  34. provide for specifying the language it is obvious that is should be
  35. obtained from user or kept somewhere off the text. In both cases
  36. as our program ALREADY knows the language from the environment it knows
  37. the particular (small) alphabet -- no need to use multibyte encodings!
  38. See how Unicode renders itself useless?
  39.  
  40. I wonder why programmers aren't taught mathematical logic. I'm somehow
  41. an exception because i'm a mathematican by education and i use to look
  42. for holes in "logical" statements.
  43.  
  44. >The Cyrillic characters within the Unicode standard (U+0400 -> U+04FF)
  45. >are based on the ECMA registry under ISO-2375 for use with ISO-2022.  It
  46. >contains several Cyrillic subsets.  The most recent and most widely
  47. >accepted of these is ISO-8859-5.  Unicode uses the same relative
  48. >positions as in ISO-8859-5.  Are you also adverse to ISO-8859-5?
  49.  
  50. ISO-8859-5 is ok, though it is a dead code. Nobody uses it in Russia,
  51. mind you. The most wide-spread codes are KOI-8 (de-facto Unix and
  52. networking standard) and the so-called "alternative" code which is
  53. popular between MS-DOS users.
  54.  
  55. [lots of information about the dead code is omitted]
  56.  
  57. >The main "disording" of character sets is with regard to the Japanese
  58. >JIS standard.   The minutes of the 20 Apr 90 UNICODE meeting (as reported
  59. >by Ken Whistler, Metaphor Computer Systems justify this as follows:
  60.  
  61. Unfortunately i'm not competent to discuss Japanese and Chinese.
  62.  
  63. >Of these, some argument can be made against only the final paragraph,
  64. >since it vies internationalization as a tool for multinationalization
  65. >rather than localization.  I feel that a strong argument can be held
  66. >out for internationalization as a means of providing fully data driven
  67. >localizations of software.  As such, the argument of monolingual vs.
  68. >multilingual is not supported.  However, lexical sort order can be
  69. >enforced in the access rather than the storage mechanism, making this
  70. >a null point.
  71.  
  72. Nay, you missed the same point again. You need information about
  73. laguage case-conversion and sorting rules and you can obtain it from
  74. the encoding (making user programs simple) or from user programs
  75. (forcing them to ask user at every step or to keep track of the language).
  76. What would you choose for your program?
  77. Besides, as i already argued asking or keeping off-text inforamtion
  78. makes the whole enterprise useless.
  79.  
  80. >>2) there is no trivial way to sort anything.
  81. >>   An elementary sort program will require access to enormous
  82. >>   tables for all possible languages.
  83. >>
  84. >>   English: A B C D E ... T ...
  85. >>   Russian: A .. B ... E ... C T ...
  86. >
  87. >I believe this is addressed adequately in the ISO standards; however,
  88.  
  89. Your belief is wrong for it is not considered adequate by real users.
  90.  
  91. >the lexical order argument is one of the sticking points against the
  92. >Japanese acceptance of Unicode, and is a valid argument in that arena.
  93. >The fact of the matter is that Unicode is not an information manipulation
  94. >standard, but (for the purposes of it's use in internationalization) a
  95. >storage and an I/O standard.  View this way, the lexical ordering argument
  96. >is nonapplicable.
  97.  
  98. It'd be sticking point about Slavic languages as well, you may be sure.
  99. Knowing ex-Soviet standard-making routine i think the official fishy-eyed
  100. representatives will silentlly vote pro to get some more time for raving
  101. in Western stores and nobody will use it since then.  The "working" standards
  102. in Russia aren't made by commitees.
  103.  
  104. >>3) there is no reasonable way to do hyphenation.
  105. >>   Since there is no way to tell language from the text there
  106. >>   is no way to do any reasonable attempts to hyphenate.
  107. >>   [OX - which language this word is from]?
  108. >>
  109. >>   Good-bye wordprocessors and formatters?
  110. >
  111. >By this, you are obviously not referring to idegrahic languages, such as
  112. >Han, since hyphenation is meaningless for such languages.  Setting aside
  113. >the argument that if you don't know how to hyphenate in a language, you
  114. >have no business generating situations requiring hyphenation by virtue
  115. >of the fact that you are basically illeterate in taht language... ;-).
  116.  
  117. The reason may be as simple as reformatting spreadsheet containing
  118. (particularly) addresses of companies in the language i don't comprehend
  119. (though i can write it on the envelope).
  120.  
  121. >Hyphenation as a process is language dependent, and, in particular,
  122. >dependent on the rendering mechanism (rendereing mechanisms are *not*
  123. >the subject under discussion; storage mechanisms *are*).  Bluntly
  124. >speaking, why does one need word processing software at all if this
  125. >type of thing is codified?  Hyphenation, like sorting, is manipulation
  126. >of the information in a native language specific way.
  127.  
  128. Exactly. But there is a lot of "legal" ways to do hyphenation -- and
  129. there are algorithms which do reasonably well knowing nothing about
  130. the language except which letters are vowels. It's quite enough
  131. for printing address labels. If i'm formatting a book i can specify the
  132. language myself.
  133.  
  134. >Find another standard to tell you how to write a word processor.
  135.  
  136. Is there any? :-)
  137.  
  138.  
  139. >>4) "the similar gliphs" in Unicode are often SLIGHTLY different
  140. >>   typographical gliphs -- everybody who ever dealt with international
  141. >>   publishing knows that fonts are designed as a WHOLE and every
  142. >>   letter is designed with all others in mind -- i.e. X in Cyrillic
  143. >>   is NOT the same X as Latin even if the fonts are variations of
  144. >>   the same style. I'd wish you to see how ugly the Russian
  145. >>   texts prited on American desktop publishing systems with
  146. >>   "few characters added" are.
  147. >>
  148. >>   In reality it means that Unicode is not a solution for
  149. >>   typesetting.
  150. >
  151. >No, you're right; neither is it a standard for the production of
  152. >pipefittings or the design of urban transportation systems. 
  153.  
  154. You somehow forgot that increasing number of texts get printed with
  155. typographical quality with all the stuff which follows.
  156. Ever saw a laser printer?
  157.  
  158. >Forgetting for the moment that worrying about the output mechanism for
  159. >such a document before worrying about the input mechanism whereby such
  160. >a document can be created, The Unicode 1.0 standard (in section 2.1)
  161. >clearly makes a distinction between "Plain" and "Fancy" text:
  162.  
  163. I see no reasons why we should treat the regular expression matching
  164. as "fancy" feature.
  165.  
  166. >Clearly, then, the applications you are describing are *not* Unicode
  167. >applications, but "Fancy text" apllications which could potentially
  168. >make use of Unicode for character storage.
  169.  
  170. Don't you think the ANY text is going to be fancy because Unicode
  171. as it is does not provide adequate means for the trivial operations?
  172.  
  173. >This is, incidently, the resoloution of the Chinese/Japanese/Korean
  174. >unification arguments.
  175.  
  176. As well i can provide every text with a font file. It is not a solution
  177. at all.
  178.  
  179. >This would be Runic encoding, right?
  180.  
  181. Exactly.
  182.  
  183. >I can post the Plan-9 and Metis
  184. >mechanisms for doing this, if you want.
  185.  
  186. Thank you, i already expressed my opinion on Plan 9 UTF in comp.os.research.
  187. I also do not think it's exciting. There are much more efficient runic
  188. encodings (my toy OS uses 7bit per byte and 8th bit as a continuation
  189. indicator).
  190.  
  191. >sunce the 386BSD file system works on byte boundries, I can't believe
  192. >were suggesting direct 10-bit encoding of characters, right?
  193.  
  194. 10 bits are nothing more than example.
  195.  
  196. >I don't see many multinational applications or standards coming out
  197. >of Zambia or elsewhere (to point out the fact that they have to come
  198. >from somewhere, and the US is as good as any place else).  The fact
  199. >that much of Unicode is based on ISO standards, and ISO-10646 encompasses
  200. >all of Unicode, means that there is more than US support and input on
  201. >the standard.
  202.  
  203. Pretty soon it will be a dead standard because of the logical problems
  204. in the design. Voting is inadequate replacement for logic, you know.
  205. I'd better stick to a good standard from Zambia than to the brain-dead
  206. creature of ISO even if every petty bureaucrat voted for it.
  207.  
  208. >I am willing to listen to arguments for any accepted or draft standards
  209. >you care to put forward.
  210. >
  211. >Arguments *against* proposals are well and good, as long as the constructive
  212. >criticism is accompanied by constructive suggestions.
  213.  
  214. I expressed my point of view (and proposed some kind of solution) in
  215. comp.std.internat, where the discussion should belong. I'd like you to
  216. see the problem not as an excercise in wrestling consensus from an
  217. international body but as a mathematical problem. From the logistical
  218. point of view the solution is simply incorrect and no standard commitee
  219. can vote out that small fact. The fundamental assumption Unicode is
  220. based upon (i.e. one glyph - one code) makes the whole construction
  221. illogical and it, unfortunately, cannot be mended without serious
  222. redesign of the whole thing.
  223.  
  224. Try to understand the argument about the redundance of encoding with
  225. external restrictions provided i used earlier in this letter. The
  226. Unicode commitee really get caught in a logical trap and it's a pity
  227. few people realize that.
  228.  
  229. --vadim
  230.