home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / unix / bsd / 10678 < prev    next >
Encoding:
Text File  |  1992-12-28  |  9.0 KB  |  177 lines

  1. Newsgroups: comp.unix.bsd
  2. Path: sparky!uunet!spool.mu.edu!agate!dog.ee.lbl.gov!hellgate.utah.edu!fcom.cc.utah.edu!cs.weber.edu!terry
  3. From: terry@cs.weber.edu (A Wizard of Earth C)
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Message-ID: <1992Dec28.062554.24144@fcom.cc.utah.edu>
  6. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  7. Sender: news@fcom.cc.utah.edu
  8. Organization: University of Utah Computer Center
  9. References: <id.M2XV.VTA@ferranti.com> <1992Dec18.043033.14254@midway.uchicago.edu> <1992Dec18.212323.26882@netcom.com> <1992Dec19.083137.4400@fcom.cc.utah.edu> <2564@titccy.cc.titech.ac.jp>
  10. Date: Mon, 28 Dec 92 06:25:54 GMT
  11. Lines: 164
  12.  
  13. In article <2564@titccy.cc.titech.ac.jp>, mohta@necom830.cc.titech.ac.jp (Masataka Ohta) writes:
  14. |> In article <1992Dec19.083137.4400@fcom.cc.utah.edu>
  15. |>     terry@cs.weber.edu (A Wizard of Earth C) writes:
  16. |> 
  17. |> >US Engineers produce software for the available market; because of the
  18. |> >input difficulties involved in 6000+ glyph sets of symbols, there has been
  19. |> >a marked lack of standardization in Japanese hardware and software. This
  20. |> >means that the market in Japan consists of mostly "niche" markets, rather
  21. |> >than being a commodity market.
  22. |> 
  23. |> Do you know what Shift JIS is? It's a defacto standard for charcter encoding
  24. |> established by microsoft, NEC, ASCII etc. and common in Japanese PC market.
  25.  
  26. I am aware of JIS; however, even you must agree that the Japaneese hardware
  27. and software markets have not reached the level of "commodity hardware"
  28. found elsewhere in the world (ie: the US and Europe).  There are multiple
  29. conflicting platforms, and thus multiple conflicting code sets for
  30. implementation.  If we had to pick one platform to support (I am loathe to
  31. do this, as it means support for other platforms may be ignored until
  32. something incompatable has fossilized) it would probably be the NEC 98, which
  33. is not even PC compatible.
  34.  
  35. I think other mechanisms, such as ATOK, Wnn, and KanjiHand deserve to be
  36. examined.  One method would be to adopt exactly the input mechanism of
  37. "Ichi-Taro" (the most popular NEC 98 word processer).
  38.  
  39. |> Now, DOS/V from IBM strongly supports Shift JIS.
  40. |> 
  41. |> In the workstation market in Japan, some supports Shift JIS, some
  42. |> supports EUC and some supports both. Of course, many US companies
  43. |> sell Japanized UNIX on thier workstations.
  44.  
  45. I think this is precisely what we want to avoid -- localization.  The basic
  46. difference, to my mind, is that localization invloves the maintenance of
  47. multiple code sets, whereas internationalization requires maintenance of
  48. multiple data sets, a much smaller job.
  49.  
  50. |> >This has changed somewhat with the Nintendo
  51. |> >corporations recent successes in Japan, where standardized hardware is
  52. |> 
  53. |> I'm sure you are just joking here.
  54.  
  55. Yes, this was intended to be a jab at localization of a system as opposed
  56. to internationalization.  The set of Nintendo games in the US and Japan
  57. are largely non-intersecting sets of software... games sold in the US are
  58. not sold in Japan and vice versa.  I feel that "localization" is the
  59. "Nintendo" soloution.  I also feel that we need to be striving for a level
  60. of complexity well above that of a toy.
  61.  
  62. |> >Microsoft has adopted Unicode as a standard.  It will probably be the
  63. |> >prevalent standard because of this -- the software world is too wrapped
  64. |> >up in commodity (read "DOS") hardware for it to be otherwise.  Unicode
  65. |> >has also done something that XPG4 has not: unified the Far Eastern and
  66. |> >all other written character sets in a single font, with room for some
  67. |> >expansion (to the full 16 bits) and a discussion of moving to a full
  68. |> >32 bit mechanism.
  69. |> 
  70. |> Do you know that Japan vote AGAINST ISO10646/Unicode, because it's not
  71. |> good for Japanese?
  72. |> 
  73. |> >So even if the Unicode standard ignores backward compatability
  74. |> >with Japanese standards (and specific American and European standards),
  75. |> >it better supports true internationalization.
  76. |> 
  77. |> The reason of disapproval is not backward compatibility.
  78. |> 
  79. |> The reason is that, with Unicode, we can't achieve internationalization.
  80.  
  81. This I don't understand.  The maximum translation table from one 16 bit value
  82. to another is 16k.  This means 2 16k tables for translation into/out of
  83. Unicode for Input/Output devices, and one 16k table and one 512 byte table
  84. if a compact storage methos is used to remove the normal 2X storage penalty
  85. for 256 character languages, like most European languages.
  86.  
  87. I don't see why the storage mechanism in any way effects the validity of the
  88. data -- and thus I don't understand *why* you say "with Unicode, we can't
  89. achieve internationalization."
  90.  
  91. |> >XPG4, by adopting the JIS standard, appears to be
  92. |> >igonoring HAN (Chinese) and many other languages covered by the Unicode
  93. |> >standard.
  94. |> 
  95. |> Unicode can not cover both Japanese and Chinese at the same time, because
  96. |> the same code points are shared between similar characters in Japan
  97. |> and in China.
  98.  
  99. I don't understand this, either.  This is like saying PC ASCII can not cover
  100. both the US and the UK because the American and English pound signs are not
  101. the same, or that it can't cover German or Dutch because of the 7 characters
  102. difference needed for support of those languages.
  103.  
  104. |> Of course, it is possible to LOCALIZE Unicode so that it produces
  105. |> Japanese characters only or Chinese characters only. But don't we
  106. |> need internationalization?
  107.  
  108. The point of an internationalization effort (as *opposed* to a localization
  109. effort) is the coexistance of languages within the same processing means.
  110. The point is not to produce something which is capable of "only English" or
  111. "only French" or "only Japanese" at the flick of an environment variable;
  112. the point is to produce something which is *data driven* and localized by
  113. a change of data rather than by a change of code.  To do otherwise would
  114. require the use of multiple code trees for each language, which was the
  115. entire impetus for an internationalization effort in the first place.
  116.  
  117. |> Or, how can I process a text containing both Japanese and Chinese?
  118.  
  119. Obviously, the input mechanisms will require localization for the set of
  120. characters out of the Unicode set which will be used for a particular
  121. language; there is no reason JIS input can not be used to input Unicode
  122. as well as any other font; your argument that the lexical order of the
  123. target language effects the usability of a storage standard is invalid.
  124. Sure, the translation mechanisms may be *easier* to code given localization
  125. of lexical ordering, but that doesn't mean they *can't* be coded otherwise;
  126. if it was easy, we'd do it in hardware.  ;-).
  127.  
  128. |> >I think that Japaneese
  129. |> >users (and European and American users, if nothing is done about storage
  130. |> >encoding to 8 bit sets) are going to have to live with the drawbacks of
  131. |> >the standard for a very long time (the primary one being two 16K tables
  132. |> >for input and output for each language representable in 8 bits, and two
  133. |> >16k tables for runic mapping for languages, like Japaneese, which don't
  134. |> >fit on keyboards without postprocessing).
  135. |> 
  136. |> What? 16K? Do you think 16K is LARGE?
  137. |> 
  138. |> Then, you know nothing about how Japanese are input. We are happily using
  139. |> several hundreds kilo bytes or even several mega bytes of electrical
  140. |> dictionary, even on PCs.
  141.  
  142. No, I don't think 16k is large; however the drawback is not in the size of
  143. the tables, but in their use on every character in from an input device or
  144. out to an output device.  In addition, an optimization of the file system
  145. to allow for "lexically compact storage" (my term) is necessary to make
  146. Americans and Europeans accept the mechanism.  This involves yet another
  147. set of localization-specific storage tables to translate from an ISO or
  148. other local font to Unicode and back on attributed file storage.  To do
  149. otherwise would require 16 bit sotrage of files, or worse, runic encoding
  150. of any non-US ASCII characters in a file.  This either doubles the file
  151. size for all text files (something the west _will_not_accept_), or
  152. "pollutes" the files (all files except those stored in US-ASCII have file
  153. sizes which no longer reflect true character counts on the file).
  154.  
  155. Admittedly, these mechanisms are adapatable for XPG4 (not widely available)
  156. and XPG3 (does not support eastern languages), but the MicroSoft adoption
  157. of Unicode tells us that at least 90% of the market is now committed to
  158. Unicode, if not now, then in the near future.
  159.  
  160.  
  161. I would like to hear any arguments anyone has regarding *why* Unicode is
  162. "bad" and should not be adopted in the remaining 10% of the market (thus
  163. ensuring incompatability and a lack of interoperability which is guaranteed
  164. to prevent penetration of the existing 90%).
  165.  
  166.  
  167.                     Terry Lambert
  168.                     terry@icarus.weber.edu
  169.                     terry_lambert@novell.com
  170. ---
  171. Any opinions in this posting are my own and not those of my present
  172. or previous employers.
  173. -------------------------------------------------------------------------------
  174.                                         "I have an 8 user poetic license" - me
  175.  Get the 386bsd FAQ from agate.berkeley.edu:/pub/386BSD/386bsd-0.1/unofficial
  176. -------------------------------------------------------------------------------
  177.