home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 985 < prev    next >
Encoding:
Internet Message Format  |  1993-01-01  |  3.6 KB

  1. Path: sparky!uunet!mcsun!sun4nl!cwi.nl!dik
  2. From: dik@cwi.nl (Dik T. Winter)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  6. Message-ID: <8498@charon.cwi.nl>
  7. Date: 2 Jan 93 01:27:24 GMT
  8. References: <1i2durINN2pj@rodan.UU.NET> <8496@charon.cwi.nl> <1i2lojINN4se@rodan.UU.NET>
  9. Sender: news@cwi.nl
  10. Organization: CWI, Amsterdam
  11. Lines: 57
  12.  
  13. I move the discussion a bit: would we like sorting according to the texts
  14. language or the users language?
  15.  
  16. In article <1i2lojINN4se@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  17.  > BTW, how do they deal with things like ["o-z] in regualar expressions?
  18. I do not know, but I do know that in many cases a Finn would like to handle
  19. it differently from a German, regardless of the language of the text involved!
  20. For sorting it is much less important what is the language of the underlying
  21. text, it is more important to know what the native language is of the
  22. intended public.  Moreover, if the intended public is multilingual it makes
  23. sense to make multiple entries for single items, sorted according to
  24. different criteria.  I have an atlas published by a number of West European
  25. publishers.  It has an index where place names are sorted by local customs
  26. and by non-local customs.  I.e. the Spanish Llano occurs two times, once
  27. between the letter L and once under a separate heading.  So look-up is easy
  28. both for the native Spanish speaker and for the non-speaker.  Putting it in
  29. only one place makes it difficult either for the Spanish speaker (who would
  30. look under Ll) or for the person who does not know Spanish (and does not
  31. know that Spanish Ll is a separate letter).
  32.  > 
  33.  > Another solution is to create a generic rule for EQUIVALENT letters
  34.  > which have identical position in the sorting order and to add a
  35.  > "letter" oe.
  36. Will not work, because this letter has to sort between the combinations
  37. od and of, which again mixes multiple letters and single letters.
  38.  > 
  39.  > So, even if sorting is not regular there always is a way around --
  40.  > with Unicode you can't do even that.
  41. Eh?  I would think the same way around!
  42.  > 
  43.  > (I repeat it: to do trivial operations like case-insensitive comparisons,
  44.  > sorting, regular expression matching Unicode requires explicit
  45.  > specification of the language -- it can be obtained from user or
  46.  > recorded somewhere outside the text itself. The "paradox" is that
  47.  > if we have this information we DO NOT NEED extended Unicode codes
  48.  > because we already know the alpahbet and it is small!)
  49. As I said above, you do in general *not* need the language of the text
  50. involved, but the language of the user, which can not be recorded in the
  51. text.  I, as a non-German, non-Swedish, non-Finnish native would be
  52. extremely surprised if my searches sometimes would give German a-umlaut
  53. and sometimes the non-German ones, especially in a multi-lingual text.
  54. How would you deal with mixed languages?  (And I do not mean mixed
  55. different scripts, which Latin, Cyrillic and Greek are in fact, which
  56. is the reason they get different code-points.)
  57.  > 
  58.  > Users are interested if they're able to do the work without grep
  59.  > asking them which language they mean everytime they run it.
  60. Right.  That is why, when I do sorts on texts I want the Dutch sorting
  61. order, regardless the original language of the text, which means
  62. ignoring diacritics.  And I would like to be able to set an environment
  63. variable in my profile that my preferred language is Dutch.
  64.  > 
  65.  > Beat it!
  66. Beat that!
  67. -- 
  68. dik t. winter, cwi, kruislaan 413, 1098 sj  amsterdam, nederland
  69. home: bovenover 215, 1025 jn  amsterdam, nederland; e-mail: dik@cwi.nl
  70.