home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 980 < prev    next >
Encoding:
Internet Message Format  |  1993-01-01  |  3.4 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 1 Jan 1993 18:57:07 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 78
  8. Message-ID: <1i2lojINN4se@rodan.UU.NET>
  9. References: <8494@charon.cwi.nl> <1i2durINN2pj@rodan.UU.NET> <8496@charon.cwi.nl>
  10. NNTP-Posting-Host: rodan.uu.net
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. On good spellchakers:
  14.  
  15. the good spellchecker will say:
  16.  
  17. "this word contains letter "a from an incorrect alpabet, replace?"
  18.  
  19. Besides, there are such things as indication of letters in the
  20. preferred register with color, shape or briteness.
  21.  
  22. The multiple codes are easy to handle with a proper interface.
  23. I do it every day and cannot say it ever bothered me.
  24. I have a fully-functional Unix supporting Russian as a reward
  25. for that nearly non-existent inconvinience.
  26.  
  27. In article <8496@charon.cwi.nl> dik@cwi.nl (Dik T. Winter) writes:
  28. >I do not think you understand.  From the AVON (Amtliches Verzeichnis der
  29. >Ortnetzkennzahlen) edition 1985, which gives area codes for the places in
  30. >Germany.  The next is a selection of places mentioned ("o is o-umlaut):
  31. >    Modautal
  32. >    M"ockm"uhl
  33. >    ...
  34. >    M"ornsheim
  35. >    Moers
  36. >    M"ossingen
  37. >    ...
  38. >    M"otzingen
  39. >    Mogendorf
  40. >now come up with a coding that allows this (standard German) sorting.
  41. >Note that it is not allowed to spell Moers as M"ors, that is a severe
  42. >spelling error!  On the other hand in the absense of umlauts it is
  43. >allowable to spell "o as oe (because it is in fact a shorthand for it),
  44. >but to do so when there are umlauts available does not look very good.
  45.  
  46. Then it's necessary to add exceptions to the sorting algorithm.
  47. In any case if you know that THIS PARTICULAR "o is German one
  48. (not Finnish) you still can use ONE sorting algorithm without
  49. asking which language it is.
  50.  
  51. I do not think that there are many exceptions and the universal
  52. string comparison algorithm (which can be included in the standard!)
  53. will be pretty simple.
  54.  
  55. BTW, how do they deal with things like ["o-z] in regualar expressions?
  56.  
  57. Another solution is to create a generic rule for EQUIVALENT letters
  58. which have identical position in the sorting order and to add a
  59. "letter" oe.
  60.  
  61. So, even if sorting is not regular there always is a way around --
  62. with Unicode you can't do even that.
  63.  
  64. The argument about redundance of Unicode encoding given the external
  65. constraints (aka explicitly specified language) still holds.
  66. So far, it is the most serious challenge and i do not think anyone can
  67. beat it.
  68.  
  69. (I repeat it: to do trivial operations like case-insensitive comparisons,
  70. sorting, regular expression matching Unicode requires explicit
  71. specification of the language -- it can be obtained from user or
  72. recorded somewhere outside the text itself. The "paradox" is that
  73. if we have this information we DO NOT NEED extended Unicode codes
  74. because we already know the alpahbet and it is small!)
  75.  
  76. Practically it means that Unicode is useless (i.e. simply wastes
  77. bits duplicating information stored somewhere outside the text).
  78.  
  79. > > Forget about "traditions" -- users do not care which code is inside if
  80. > > it looks like their usual stuff.
  81. >
  82. >So users are completely uninterested in the coding and the sorting algorithm
  83. >used!
  84.  
  85. Users are interested if they're able to do the work without grep
  86. asking them which language they mean everytime they run it.
  87.  
  88. Beat it!
  89.  
  90. --vadim
  91.