home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 921 < prev    next >
Encoding:
Internet Message Format  |  1992-12-22  |  3.4 KB

  1. Path: sparky!uunet!zaphod.mps.ohio-state.edu!saimiri.primate.wisc.edu!ames!sun-barr!sh.wide!wnoc-tyo-news!sranha!anprda!pmcgw!personal-media.co.jp
  2. From: ishikawa@personal-media.co.jp (Chiaki Ishikawa)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Data tagging (was: 8-bit representation, plus an X problem)
  5. Message-ID: <ISHIKAWA.92Dec22180817@ds5200.personal-media.co.jp>
  6. Date: 22 Dec 92 09:08:03 GMT
  7. References: <24426@alice.att.com| <1gpruaINNhfm@frigate.doc.ic.ac.uk>
  8.     <1gtrpdINN6c4@corax.udac.uu.se> <24455@alice.att.com>
  9. Sender: news@pmcgw.personal-media.co.jp
  10. Reply-To: ishikawa@personal-media.co.jp
  11. Organization: Personal Media Corp., Tokyo Japan
  12. Lines: 53
  13. Nntp-Posting-Host: ds5200
  14. In-reply-to: andrew@alice.att.com's message of 20 Dec 92 06:37:41 GMT
  15. X-Md4-Signature: d014e4083e841a53c4f8ad47ee0edd19
  16.  
  17.  
  18. Hello. I am a Japanese working at a Japanese software company in
  19. Tokyo, Japan.
  20.  
  21. In article <24455@alice.att.com> andrew@alice.att.com (Andrew Hume) writes:
  22.  
  23.     [long text deleted]
  24.  
  25.        for mostly these reasons, Plan 9 chose a byte-stream encoding
  26.    (initially UTF-1 and then UTF-2) and applied it uniformly according
  27.    to a single rule: all byte streams interpreted as characters shall
  28.    be interpreted as a sequence of 10646 characters encoded as UTF-2.
  29.    this applies everywhere: it applies to the kernel and file server,
  30.    it applies to the window system and the user's display, it applies
  31.    to names in archives and tar files. and best of all, the existing
  32.    system and its text is, because we were an ascii site, already
  33.    correctly encoded. (actually, we were a Latin-1 system, but we were
  34.    willing to make user's convert latin-1 text to the new format.)
  35.  
  36.        normally, such a solution
  37.    requires everything entering/leaving the plan 9 universe be converted.
  38.    however as the encoding we use is backward compatible with ASCII,
  39.    no conversion needs be done for the only important case (text files on
  40.    networked filesystems). it also has the advantage that all programs
  41.    can display text uniformly; users don't have to write S-JIS editors
  42.    because the regular editor (sam or ed) edits kana/kanji just fine.
  43.    all the conversion effort can be, and is, confined to one place
  44.    (a program called tcs [translate character sets]). the hope is
  45.    that is most cases, this conversion can happen automatically
  46.    (which is how this stream arose originally; the case of mail
  47.    and news should be easy to make happen).
  48.  
  49. The work done for plan 9 seems to be very well done in terms of I18N
  50. character support. I think I read an article about Plan 9 itself in a
  51. Usenix publication, but is there a technical paper specicifically
  52. written about I18N aspect of plan 9 available? (BTW, is plan 9 named
  53. after "Plan 9 from outer space"? Now there is a computer game based on
  54. this movie, I have found out.)
  55.  
  56.        i believe these system (design and migration) issues have been
  57.    essentially ignored in all the work and fuss on unicode/10646.
  58.    i know that deep within unicode and in places like X/Open, there are
  59.    efforts to develop support libraries for wide characters but this simply
  60.    ignores the system issues.
  61.  
  62.                andrew hume
  63.  
  64. I agree. Characters alone don't make a system I18N. With all the
  65. hoopla in POSIX standardization, meaning of locale still leaves so
  66. many loose ends. However, I can say we are defining the problems
  67. clearly now. The solutions are not in sight, though.
  68.  
  69. ishikawa@personal-media.co.jp
  70.