home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / unix / bsd / 10812 < prev    next >
Encoding:
Text File  |  1993-01-01  |  13.9 KB  |  294 lines

  1. Newsgroups: comp.unix.bsd
  2. Path: sparky!uunet!gatech!usenet.ins.cwru.edu!agate!dog.ee.lbl.gov!hellgate.utah.edu!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Message-ID: <1993Jan1.094759.8021@fcom.cc.utah.edu>
  6. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  7. Sender: news@fcom.cc.utah.edu
  8. Organization: Weber State University  (Ogden, UT)
  9. References: <1992Dec30.010216.2550@nobeltech.se> <1992Dec30.061759.8690@fcom.cc.utah.edu> <1ht8v4INNj7i@rodan.UU.NET>
  10. Date: Fri, 1 Jan 93 09:47:59 GMT
  11. Lines: 281
  12.  
  13. In article <1ht8v4INNj7i@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  14. >In article <1992Dec30.061759.8690@fcom.cc.utah.edu> terry@cs.weber.edu (A Wizard of Earth C) writes:
  15. >>The "ugly thing Unicode does with asiatic languages" is exactly what it
  16. >>does with all other languages:  There is a single lexical assignment for
  17. >>for each possible glyph.
  18. >>....
  19. >>ADMITTED DRAWBACKS IN UNICODE:
  20. >>
  21. >>The fact that lexical order is not maintained for all existing character
  22. >>sets (NOTE: NO CURRENT OR PROPOSED STANDARD SUPPORTS THIS IDEA!) means that
  23. >>a direct arithmatic translation is not possible for...
  24. >
  25. >It means that:
  26. >
  27. >1) "mechanistic" conversion between upper and lower case
  28. >   is impossible (as well as case-insensitive comparisons)
  29. >
  30. >   Example:     Latin  T -> t
  31. >        Cyrillic T -> m
  32. >        Greek T -> ?
  33. >
  34. >   This property alone renders Unicode useless for any business
  35. >   applications.
  36.  
  37. This is simply untrue.  Because a subtractive/additive conversion is
  38. impossible in *some* cases does not mean a *mechanistic* conversion is
  39. also impossible.  In particular, a tabular conversion is an obvious
  40. approach which has already been used with success, with a minimal
  41. (multiply plus dereference) overhead.
  42.  
  43. The Lexical ordering of the Latin-1 character set is not in question;
  44. case conversion is done by an arithmetic offset of decimal 32.
  45.  
  46. The Cyrillic characters within the Unicode standard (U+0400 -> U+04FF)
  47. are based on the ECMA registry under ISO-2375 for use with ISO-2022.  It
  48. contains several Cyrillic subsets.  The most recent and most widely
  49. accepted of these is ISO-8859-5.  Unicode uses the same relative
  50. positions as in ISO-8859-5.  Are you also adverse to ISO-8859-5?
  51.  
  52. There are a number of Cyrillic letters not defined in ISO-8859-5 (both
  53. historical and extended) which exist in the Unicode standard; it is true
  54. that the case conversion is not based on an offset of decimal 32 for the
  55. extended characters not covered by the 8859-5 standard; however, the
  56. historic letters (such as those used in Ukranian and Belorussian) are
  57. dialectic in nater, and thus are regarded as a font change.  Bearing this
  58. in mind, case conversion can be done in the context of the dialectic
  59. table used for local representation of the characters for device I/O
  60. using the decimal 32 offset *through the lookup table*.  I fail to follow
  61. your T -> m conversion argument; could you please identify the letters
  62. in question with regard to their ordinal values in ISO-8859-5?
  63.  
  64.  
  65. The argument for case conversion within the Greek is equally flawed,
  66. unless you are also taking issue with the ISO-8859-7 character set,
  67. per ECMA registry ISO-2375 for use with ISO-2022.  Taking issue with
  68. this particular standard would be difficult to support on your part,
  69. as the ISO-8859-7 standard is based on the Greek national standard
  70. ELOT-928 and also ECMA-118, the origin of which is Greece.
  71.  
  72. Again, historical forms are not in a lexically correct order for decimal
  73. 32 conversion of case; however, these are also dialectical variants and
  74. the difficults inherent in these variants are resolvable under the same
  75. mechanisms as those discussed for Cyrillic.
  76.  
  77. As to business suitability, it is unlikely that one would use something
  78. like Polytonic (re: classical and Byzantine ancient Greek) for a business
  79. application.
  80.  
  81.  
  82. The main "disording" of character sets is with regard to the Japanese
  83. JIS standard.   The minutes of the 20 Apr 90 UNICODE meeting (as reported
  84. by Ken Whistler, Metaphor Computer Systems justify this as follows:
  85.  
  86. ] Han Unification Issues:
  87. ] The compromise WG2 position advocated Han unification, but it seemed
  88. ] to imply that the unified set would start off with codes in JIS order.
  89. ] There was some discussion of whether the compromise proposal really
  90. ] did or did not state (or imply) that.  Then the group reviewed the
  91. ] Japanese objections to a Han unification that does not incorporate
  92. ] JIS ordering.
  93. ] The consensus was that a JIS-first ordering in a unified Han encoding
  94. ] is unacceptable for at least 3 reasons:
  95. ]         1. It is morally unacceptable to favor the Japanese standard
  96. ]                 this way in an international encoding, at the expense
  97. ]                 of the Chinese and Korean standards.
  98. ]         2. The proposal attempts to solve a technical problem (namely
  99. ]                 the actual work of unifying the characters) with a
  100. ]                 political solution.
  101. ]         3. Preservation of the JIS order, so as to attempt to
  102. ]                 encapsulate that as a default sort order, makes no
  103. ]                 sense outside of a JIS-oriented application.  The
  104. ]                 Han unification should present a more generally
  105. ]                 recognizable default sort order (i.e. one which
  106. ]                 can also be used by the Chinese and the Koreans,
  107. ]                 and which applies to the characters beyond JIS 1 & 2).
  108. ] Examination of the cost/benefits of unified Han character encoding
  109. ] should lead to the following conclusions:  If an application is
  110. ] Japanese only, then simply use JIS.  If an application is truly
  111. ] multilingual, then a JIS-first encoding doesn't make particular
  112. ] sense.  Hence, the Unicode consensus is that an alternative and
  113. ] universal ordering principle should be applied to the unified
  114. ] Han set.  (The consensus is still that radical/stroke order, with
  115. ] or without level distinctions, is the right way to go.)
  116.  
  117. Of these, some argument can be made against only the final paragraph,
  118. since it vies internationalization as a tool for multinationalization
  119. rather than localization.  I feel that a strong argument can be held
  120. out for internationalization as a means of providing fully data driven
  121. localizations of software.  As such, the argument of monolingual vs.
  122. multilingual is not supported.  However, lexical sort order can be
  123. enforced in the access rather than the storage mechanism, making this
  124. a null point.
  125.  
  126.  
  127. >2) there is no trivial way to sort anything.
  128. >   An elementary sort program will require access to enormous
  129. >   tables for all possible languages.
  130. >
  131. >   English: A B C D E ... T ...
  132. >   Russian: A .. B ... E ... C T ...
  133.  
  134. I believe this is addressed adequately in the ISO standards; however,
  135. the lexical order argument is one of the sticking points against the
  136. Japanese acceptance of Unicode, and is a valid argument in that arena.
  137. The fact of the matter is that Unicode is not an information manipulation
  138. standard, but (for the purposes of it's use in internationalization) a
  139. storage and an I/O standard.  View this way, the lexical ordering argument
  140. is nonapplicable.
  141.  
  142.  
  143. >3) there is no reasonable way to do hyphenation.
  144. >   Since there is no way to tell language from the text there
  145. >   is no way to do any reasonable attempts to hyphenate.
  146. >   [OX - which language this word is from]?
  147. >
  148. >   Good-bye wordprocessors and formatters?
  149.  
  150. By this, you are obviously not referring to idegrahic languages, such as
  151. Han, since hyphenation is meaningless for such languages.  Setting aside
  152. the argument that if you don't know how to hyphenate in a language, you
  153. have no business generating situations requiring hyphenation by virtue
  154. of the fact that you are basically illeterate in taht language... ;-).
  155.  
  156. Hyphenation as a process is language dependent, and, in particular,
  157. dependent on the rendering mechanism (rendereing mechanisms are *not*
  158. the subject under discussion; storage mechanisms *are*).  Bluntly
  159. speaking, why does one need word processing software at all if this
  160. type of thing is codified?  Hyphenation, like sorting, is manipulation
  161. of the information in a native language specific way.
  162.  
  163. Find another standard to tell you how to write a word processor.
  164.  
  165.  
  166. >4) "the similar gliphs" in Unicode are often SLIGHTLY different
  167. >   typographical gliphs -- everybody who ever dealt with international
  168. >   publishing knows that fonts are designed as a WHOLE and every
  169. >   letter is designed with all others in mind -- i.e. X in Cyrillic
  170. >   is NOT the same X as Latin even if the fonts are variations of
  171. >   the same style. I'd wish you to see how ugly the Russian
  172. >   texts prited on American desktop publishing systems with
  173. >   "few characters added" are.
  174. >
  175. >   In reality it means that Unicode is not a solution for
  176. >   typesetting.
  177.  
  178. No, you're right; neither is it a standard for the production of
  179. pipefittings or the design of urban transportation systems.  Your
  180. complaint is one of the representation of multilingual text using the
  181. same characters (as a result of unification) in the same document.
  182.  
  183. >Having unique glyphs works ONLY WITHIN a group of languages
  184. >which are based on variations of a single alphabet with
  185. >non-conflicting alphabetical ordering and sets of
  186. >vowels. You can do that for European languages.
  187. >An attempt to do it for different groups (like Cyrillic and Latin)
  188. >is disastrous at best -- we already tried is and finally came to
  189. >the encodings with two absolutely separate alphabets.
  190. >
  191. >I think that there is no many such groups, though, and it is possible
  192. >to identify several "meta-alpahbets". The meta-alphabets have no
  193. >defined rules for cross-sorting (unlike latters WITHIN one
  194. >meta-alphabet; you CAN sort English and German words together
  195. >and it still will make sense; sorting Russian and English together
  196. >is at best useless). It increases the number of codes but not
  197. >as drastically as codifying languages; there are hundreds of
  198. >languages based on a dozen of meta-alphabets.
  199.  
  200. Forgetting for the moment that worrying about the output mechanism for
  201. such a document before worrying about the input mechanism whereby such
  202. a document can be created, The Unicode 1.0 standard (in section 2.1)
  203. clearly makes a distinction between "Plain" and "Fancy" text:
  204.  
  205. ] Plain and Fancy Text
  206. ]
  207. ] Plain text is a pure sequence of character codes; plain Unicode text
  208. ] is a sequence of Unicode character codes.  Fancy text is any text
  209. ] representation consisting of plain text pluss added information such
  210. ] as font size, color, and so on.  For example, a multifont text as
  211. ] formated by a desktop publishing system is fancy text.
  212.  
  213. Clearly, then, the applications you are describing are *not* Unicode
  214. applications, but "Fancy text" apllications which could potentially
  215. make use of Unicode for character storage.
  216.  
  217. This is, incidently, the resoloution of the Chinese/Japanese/Korean
  218. unification arguments.
  219.  
  220. >>The fact that all character sets do not occur in their local lexical order
  221. >>means that a particular character can not be identified as to language by
  222. >>its ordinal value.  This is a small penalty to pay for the vast reduction
  223. >>in storage requirements between a 32-bit and a 16-bit character set that
  224. >>contains all required glyphs.
  225. >
  226. >Not true. First of all nothing forces to use 32-bit representation
  227. >where only 10 bits are necessary.
  228.  
  229. This would be Runic encoding, right?  I can post the Plan-9 and Metis
  230. mechanisms for doing this, if you want.  Both are, in my opinion,
  231. vastly inferior to other available mechanisms.  In particular, the
  232. requirement of using up to 6 characters to represent a single 31 bit
  233. value is particularly repulsive, especially for glyphs in excess of
  234. hex 04000000 (6 character encoding mandatory).  Far eastern users
  235. already have the penalty of effectively half the disk space per glyph
  236. for storage of texts using raw (16 bit) Unicode.  Admittedly, this
  237. has more to do with their use of pictographic rather than phonetic
  238. writing, but asking them to sacrifice yet more disk spac for Western
  239. convenience is ludicrous.
  240.  
  241. sunce the 386BSD file system works on byte boundries, I can't believe
  242. were suggesting direct 10-bit encoding of characters, right?
  243.  
  244.  
  245. >So, as you see the Unicode is more a problem than a solution.
  246. >The fundamental idea is simply wrong -- it is inadequate for
  247. >anything except for Latin-based languages. No wonder we're
  248. >hearing that Unicode is US-centric.
  249. >
  250. >Unfortunately Unicode looks like a cool solution for people who
  251. >never did any real localization work and i fear that this
  252. >particular mistake will be promoted as standard presenting
  253. >us a new round of headache. It does not remove necessity to
  254. >carry off-text information (like "X-Language: english") and
  255. >it makes it not better than existing ISO 8-bit encodings
  256. >(if i know the language i already know its alphabet --
  257. >all extra bits are simply wasted; and programs handling Unicode
  258. >text have to know the laguage for reasons stated before).
  259.  
  260. I don't see many multinational applications or standards coming out
  261. of Zambia or elsewhere (to point out the fact that they have to come
  262. from somewhere, and the US is as good as any place else).  The fact
  263. that much of Unicode is based on ISO standards, and ISO-10646 encompasses
  264. all of Unicode, means that there is more than US support and input on
  265. the standard.
  266.  
  267. >UNICODE IS A *BIG* MISTAKE.
  268. >
  269. >(Don't get me wrong -- i'm for the universal encoding; it's
  270. >just that particular idea of unique glyphs that i strongly
  271. >oppose).
  272.  
  273. I am willing to listen to arguments for any accepted or draft standards
  274. you care to put forward.
  275.  
  276. Arguments *against* proposals are well and good, as long as the constructive
  277. criticism is accompanied by constructive suggestions.
  278.  
  279.  
  280.                     Terry Lambert
  281.                     terry@icarus.weber.edu
  282.                     terry_lambert@novell.com
  283. ---
  284. Any opinions in this posting are my own and not those of my present
  285. or previous employers.
  286. -- 
  287. -------------------------------------------------------------------------------
  288.                                         "I have an 8 user poetic license" - me
  289.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  290. -------------------------------------------------------------------------------
  291.