home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 973 < prev    next >
Encoding:
Internet Message Format  |  1993-01-01  |  2.5 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 1 Jan 1993 16:43:55 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 48
  8. Message-ID: <1i2durINN2pj@rodan.UU.NET>
  9. References: <8492@charon.cwi.nl> <1i0vnmINN352@rodan.UU.NET> <8494@charon.cwi.nl>
  10. NNTP-Posting-Host: rodan.uu.net
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. In article <8494@charon.cwi.nl> dik@cwi.nl (Dik T. Winter) writes:
  14. >As somebody else mentioned already: should a spelling-checker allow a
  15. >German A-umlaut in a Swedish word?
  16.  
  17. No, it should not. As well as it should not allow similarly-looking
  18. hierogliphs of mumbo-jumbo tribe. Think of that as of different letters
  19. which happened to look remarkably alike -- like I and l. Moreover indroducing
  20. foreighn letgter in a middle of a word requires deliberate action and in practice
  21. is real seldom occurence (i have a keyboard with Cyrillic with a lot
  22. of similar-looking letters - o, e, k, x, c, m, E, T, O, p, P, A, D, H, K,
  23. X, C, B, M with TWO codes in KOI-8) -- ever saw it in my postings here?
  24. And i do not use spell-checkers.
  25.  
  26. >If so, what are the consequences,
  27.  
  28. The good spell-checker will suggest to replace the letter with the
  29. correct one.
  30.  
  31. >Moreover, one question: how would you encode the German A-umlaut such that
  32. >it sorts properly (i.e. as if it is the letter combination AE)?
  33.  
  34. The sorting order should be strict -- if you have two identical words
  35. with a-umlaut and ae in the middle is it the same word? If it is then
  36. ae IS a variation of a-umlaut and should always be treated as a signle
  37. letter.
  38.  
  39. >Even in
  40. >a single language (German) you can not come up with a coding that gives
  41. >proper sorting. 
  42.  
  43. You can come with a reasonable approximation anyway.
  44.  
  45. >And also how to code the German eszet such that when
  46. >uppercased it becomes the *two* letters 'SS' (and how do you lowercase
  47. >that again?  Things are not as simple as you appear to think.
  48.  
  49. Then there is an uppercase eszet which looks like SS. An input program
  50. will map the keyboard accordingly.
  51.  
  52. Forget about "traditions" -- users do not care which code is inside if
  53. it looks like their usual stuff.
  54.  
  55. Basically it is a purely mathematical problem -- you've got a number
  56. of orderings and map it into single (partial) ordering by merging
  57. as much as possible elements. The number of meta-alphabets is generally
  58. determined by the criteria of minimality of duplication.
  59.  
  60. --vadim
  61.