home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 957 < prev    next >
Encoding:
Internet Message Format  |  1992-12-31  |  3.0 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 31 Dec 1992 18:03:05 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 48
  8. Message-ID: <1hvu79INN4qf@rodan.UU.NET>
  9. References: <1992Dec30.061759.8690@fcom.cc.utah.edu> <1hu9v5INNbp1@rodan.UU.NET> <8490@charon.cwi.nl>
  10. NNTP-Posting-Host: rodan.uu.net
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. In article <8490@charon.cwi.nl> dik@cwi.nl (Dik T. Winter) writes:
  14. >Wrong Vadim.  You cannot even do it in the European languages.  You cannot
  15. >even do it in German.  How would you assign codes...
  16.  
  17. Dik, i never insisted that all European languages belong to
  18. the single group -- how many are the ISO Latin-X sets?
  19. My point was that there obviously are identifyable meta-alpahbets
  20. covering several languages.
  21.  
  22. >A-umlaut sorts as if it is the letter combination AE, and at the same
  23. >time the umpteenth letter of Swedish (after Z).  How would you encode
  24. >spanish where the letter combinations CH and LL are regarded as single
  25. >letters? 
  26. >Or Maltese where the GH-crossbar combination is a single letter
  27. >that does not sort in the neighbourhood of G or H-crossbar but between
  28. >P and Q?  Or dutch, where the letter combination ij is sorted either
  29. >amongst i as a double letter, or amongst y as a single letter, or
  30. >between y and z as a single letter, depending on who does the sorting?
  31.  
  32. If a combination of letters is treated as a letter IT IS A LETTER.
  33. Then add it to the alphabet and let the keyboard driver (which surely
  34. knows the language -- simply because there are different keyboard
  35. layouts) to handle the matter. FYI, English has some compound letters
  36. too (though they're used only in typesetting) -- ff, fff, fi, ffi, fl, ffl..
  37.  
  38. The idea of visual encoding (and one letter-onr glyph is nothing more
  39. than a compressed image of the text) is simply wrong because it
  40. drops valuable information readily available at the point of the CREATION
  41. of the text but not later. Sure, the information can (*must* if you're
  42. going to do trivial things like sorting or case-insensitive comparisons)
  43. be preserved off-text (in mail headers or in file attributes, for
  44. example) but it effectively defeats the very purpose of ISO10646 --
  45. why on the Earth do i need to spare bits for encoding glyphs if
  46. i already know the language and 8 (or 16 for oriental languages) bits
  47. is quite enough to map the alphabet. Don't you see this gap in
  48. the logic nullifying all benefits of 10646?
  49.  
  50. 10646 was meant as an encoding eliminating the necessity to carry off-text
  51. information (which is not a piece of cake, especially in multi-lingual
  52. texts). However, the "single glyph" approach ruined the very intent
  53. because you need the off-text information to do trivial tasks anyway!
  54. What's the gain? More wasted bits, yeah?
  55.  
  56. Take a life, guys. We in Russia did that mistake (DKOI and "GOST" encodings)
  57. many years ago and came to realize that this solution is too simple to
  58. be correct.
  59.  
  60. --vadim
  61.