home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 955 < prev    next >
Encoding:
Text File  |  1992-12-31  |  4.2 KB  |  78 lines

  1. Newsgroups: comp.std.internat
  2. Path: sparky!uunet!mcsun!news.funet.fi!hydra!klaava!wirzeniu
  3. From: wirzeniu@klaava.Helsinki.FI (Lars Wirzenius)
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Message-ID: <1992Dec31.171450.1513@klaava.Helsinki.FI>
  6. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  7. Organization: University of Helsinki
  8. References: <1992Dec30.061759.8690@fcom.cc.utah.edu> <1hu9v5INNbp1@rodan.UU.NET> <8490@charon.cwi.nl>
  9. Date: Thu, 31 Dec 1992 17:14:50 GMT
  10. Lines: 66
  11.  
  12. dik@cwi.nl (Dik T. Winter) writes:
  13. >Wrong Vadim.  You cannot even do it in the European languages.  You cannot
  14. >even do it in German.  How would you assign codes such that the German
  15. >A-umlaut sorts as if it is the letter combination AE, and at the same
  16. >time the umpteenth letter of Swedish (after Z).
  17.  
  18. (Second letter after Z, actually; the letter in between is
  19. A-with-ring-on-top -- don't know its official name, if any.  The
  20. Finnish alphabet has no A-w-r-o-t, so I guess they have A-umlaut after
  21. Z, although they/we seem to usually include the A-w-r-o-t too, thereby
  22. effectively using the same alphabet (we) Swedes use.  I'm a bit
  23. uncertain of the official way, and I only have two dictionaries at the
  24. moment and those are both for English (one by Oxford, one by
  25. Webster).)
  26.  
  27. The immediately obvious solution to the problem with the German
  28. A-umlaut not being the same as the Swedish A-umlaut (it looks like a
  29. duck, but it doesn't walk like a duck, and it doesn't quack like a
  30. duck, is it a duck?) is to assign them different codes so that you can
  31. differentiate between languages.  Hm..., this could get messy though,
  32. since then you get confused people: should a spelling checker for
  33. Swedish accept the German a-umlaut in a Swedish word?  Should a
  34. sorting program sort the Swedish a-umlaut differently from the German?
  35. How many people are going to look at the 2^32 entries big table and
  36. accidentally pick the wrong code, especially when they are not that
  37. happy about foreign languages to begin with?
  38.  
  39. Personally, I think that giving two characters that look the same and
  40. that are usually thought to be the same (as the German and Swedish
  41. a-umlauts are, or the a-umlauts in other languages), even if they are
  42. used differently in different languages.  A character encoding
  43. standard should provide an efficient, simple way of referring to
  44. different characters, not confuse things by trying to encode all other
  45. possible information as well.  Single characters can be encoded
  46. simply, what happens when they are used in groups to form words in
  47. different languages is an other issue and should be dealt with
  48. separately.  IMHO as a layman with only a little experience with I18N.
  49. (I've written one program that was able to switch output languages --
  50. Swedish, Finnish, and English -- thought that the issue was ugly and
  51. unpleasant, if only because of the character set issues, and decided
  52. to use English as the only language unless I have to use another until
  53. I can understand the issues better and either hear of or come up with
  54. a good, elegant and simple solution.  I'm still using English after,
  55. what, five years or so.)
  56.  
  57. I don't know whether Japanese and Chinese have "characters" that are
  58. the same in the way German a-umlaut and Swedish a-umlaut (or a through
  59. z), since I know almost nothing of either language.  If the only
  60. difference is that they are usually drawn slightly differently (for
  61. all I know, the Germans might like to draw a-umlaut differently from
  62. Swedes, by using a differntly formed umlaut higher up or whatever; its
  63. still considered to be the same character), I see no reason why they
  64. shouldn't use the same code.  But, since I'm linguistically
  65. challenged, I'll have to take somebody elses word for it, though a
  66. concise explanation would be nice.
  67.  
  68. Disclaimer: all my knowledge of the characters standards come from
  69. netnews, a notorious source of unreliable information mixed with
  70. absolute truth.  I don't even have a real stake in this game (like I
  71. said, English is good enough for me almost all of the time, and
  72. Latin-1 suffices even when it isn't), I just feel like rambling.  Take
  73. it, leave it, or roast me via mail.
  74.  
  75. --
  76. Lars.Wirzenius@helsinki.fi  (finger wirzeniu@klaava.helsinki.fi)
  77.    MS-DOS, you can't live with it, you can live without it.
  78.