home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 974 < prev    next >
Encoding:
Internet Message Format  |  1993-01-01  |  2.4 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 1 Jan 1993 16:56:34 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 44
  8. Message-ID: <1i2emiINN2td@rodan.UU.NET>
  9. References: <1992Dec31.203101.5447@prl.dec.com> <1i0s05INNnfn@rodan.UU.NET> <1993Jan1.114158.17149@prl.dec.com>
  10. NNTP-Posting-Host: rodan.uu.net
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. In article <1993Jan1.114158.17149@prl.dec.com> boyd@prl.dec.com (Boyd Roberts) writes:
  14. >In article <1i0s05INNnfn@rodan.UU.NET>, avg@rodan.UU.NET (Vadim Antonov) writes:
  15. >> 
  16. >> A good encoding should support easy (i'd say natural) localization.
  17. >> It should provide simple algorithms for simple functions
  18. >> like getting string length, searching a character, case-insensitive
  19. >> comparison, lexicographical comparison.
  20. >> 
  21. >
  22. >Well that's where you're wrong.  The characters and how they are used
  23. >are distinct problems.
  24.  
  25. Don't you realize that having trivial programs to ask which language
  26. they're doing operation in effectively defeats the entire purpose of
  27. Unicode? Should my shell ask me about language of every [a-z] in my
  28. commands? If it shouldn't then it has to get the information somewhere,
  29. right? If the information is kept outside the text (file names in this case)
  30. then why do i need all those extra bits -- my program *already* knows the exact
  31. (small) alphabet.
  32.  
  33. "Unicode -- a code for texts which will never be sorted!" Great.
  34.  
  35. >UNICODE is
  36. >a good example of this:  not only does it specify the code -> glyph
  37. >mapping (ie the encoding) it has support for left -> right, right -> left
  38. >writing styles and a bunch of other stuff, and this part of UNICODE is a mess.
  39.  
  40. Yuck. Right->left is nothing more than a character with negative width.
  41.  
  42. >Problem 2 (localisation) is damn hard.
  43.  
  44. Tell me. I've spent ten years doing *real* localization and i know
  45. the price of ill-thought solutions on the ground level (aka character
  46. set ordering).
  47.  
  48. >Should Problem 1 cater for the fact I type `localisation' whereas
  49. >you type `localization'?  We're both using Engligh, typed on American
  50. >keyboards (I guess, oops mine's made in West Germany) so where are you
  51. >going to draw the line.  Is this Problem 1?  I say it's Problem 2.
  52.  
  53. The example is artificial and has nothing to do with the character sets.
  54. As you well aware it is different words in the same alphabet.
  55.  
  56. --vadim
  57.