home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 964 < prev    next >
Encoding:
Internet Message Format  |  1993-01-01  |  5.8 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 1 Jan 1993 03:35:02 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 116
  8. Message-ID: <1i0vnmINN352@rodan.UU.NET>
  9. References: <8490@charon.cwi.nl> <1hvu79INN4qf@rodan.UU.NET> <8492@charon.cwi.nl>
  10. NNTP-Posting-Host: rodan.uu.net
  11. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  12.  
  13. In article <8492@charon.cwi.nl> dik@cwi.nl (Dik T. Winter) writes:
  14. > > My point was that there obviously are identifyable meta-alpahbets
  15. > > covering several languages.
  16. >I do think that the number in several is very small.
  17.  
  18. With a trivial trick of including several codes for identical glyphs
  19. for letters from different languages you can put all of them in ONE
  20. meta-alphabet.
  21.  
  22. It's a matter of compromise, as you understand.
  23.  
  24. As for "several" my estimate is that all we need is about 15-20
  25. meta-alpabets. You simply underestimate the number of languages
  26. based on the same grapho-phonetical sets.
  27. In my native Nothern Caucasus people speak (and write) in more than
  28. 300 languages -- but most of them have cyrillic-based written form
  29. designed after the region was appended to the Russian Empire.
  30.  
  31. >Still wrong.  Take the dutch ij... 
  32. >So how would the keyboard driver deal
  33. >with the 'ij' combination?  When I enter the combination it can either be
  34. >the single letter ij (some dutch people say there is no such single letter),
  35. >or two letters, depending on context.  So must the keyboard driver look
  36. >at the context (e.g. it is a french loadnword like bijoux so that ij is
  37. >really two letters), or what?
  38.  
  39. There are different solutions -- the radical one is to tell the driver
  40. which language you're writing in (somehow i'm used to type on four
  41. different keyboards and find that the "native" layout for the language
  42. is simply the best). Another is to use the _compose_ key.
  43.  
  44. Specifying the language is a good tone -- and you do it anyway if your
  45. editor supports interactive spell-checking. Most people will never
  46. bother to use more than two languages anyway, so it can simply be
  47. a couple of assignable registers toggled by, say, right Alt.
  48.  
  49. The problem should be localized at the one place (input) -- instead of
  50. having *every* application to keep (or even worse - to ask!) the
  51. language.
  52.  
  53. >Sorting is extremely context sensitive, even in a single language.
  54.  
  55. Yes, sure. Then, why exaggregate the problem even more?
  56.  
  57. >As
  58. >another person already mentioned in english you sort McNeill as if it
  59. >is MacNeill.  Similar the abbreviation St. which can be either Street or
  60. >Saint.  (Moreover, when sorting names I would prefer to sort C. van der Bilt
  61. >under V if it is an American and under B if it is a Dutchman ;-).)
  62.  
  63. Sorting names and addresses is a big problem everywhere -- and (as always)
  64. the simpliest solution is the best -- to sort everything LITERALLY.
  65. The real-world applications work this way; after breaking several times
  66. on names like MCAAN XIOY banks revert to placing MARX between MCNEILL
  67. and MACNEILL. Dunno about UK but in US with its diverse population
  68. the problem is not new. There is a lot of arguments for abolishing
  69. separating names on first, middle and last because there are cultures
  70. where names cannot be separated or should be modified or simply have
  71. the different order of names.
  72.  
  73. After airplanes crossed the ocean you can relay on your local
  74. knowledge no more. British Telecom already dropped titles in
  75. phone books, didn't they?
  76.  
  77. >To me it appears very silly to put more than superficial sorting
  78. >information in the encoding. 
  79.  
  80. It is NOT silly if it covers 99.9% of all practical applications.
  81.  
  82. >The remainder must be handled by the
  83. >applications (through library programs).  And indeed, that may require
  84. >table look-up.
  85.  
  86. It is not just table lookup if you didn't understand it yet. The problem
  87. with Unicode is that in order to sort (or even capitalise) strings your
  88. program should KNOW the language the strings are in -- therefore
  89. you can use already existent 8-bit encodings just as well. Extended
  90. Unicode sequences carry NO useful information IF the particular
  91. alphabet is already known. Now, if we're going this way why do we need
  92. Unicode at all? We're back to the original problem but this time with more
  93. complexities. It is THAT simple.
  94.  
  95. I'm often amazed how people fail to see obvious things.
  96.  
  97. > > The idea of visual encoding (and one letter-onr glyph is nothing more
  98. > > than a compressed image of the text) is simply wrong because it
  99. > > drops valuable information readily available at the point of the CREATION
  100. > > of the text but not later.
  101. >But as I said, such information is not readily available at the point of
  102. >creation, only if the system asks everytime. 
  103.  
  104. It should ask at some time anyway -- and it is much better when
  105. "this name is Dutch" is entered by a teller in Europe who typed the name
  106. in than by an operator in Honkong who may be well ignorant about
  107. the difference between Dutch and Spanish.
  108.  
  109. Telling the language is NOT annoying -- most of the time it's one
  110. or the two languages and nobody switches between them often anyway.
  111.  
  112. Finally, in the most places the language was told once by the
  113. person who set up the system and the system surely won't forget it.
  114.  
  115. >That would be silly as most text is not sorted anyway.
  116.  
  117. Really? I guess you're seriously wrong. Even USENET postings get
  118. clipped by words and sorted by thesaurus-collecting algorithms of
  119. things like grapeVINE. And ALL words people enter into *real-life*
  120. applications (banking, mailing, legal, publishing) got eventually sorted.
  121. It's easy to miss -- but statistics is that 30% of computing power
  122. gets spent on *sorting* (i can't recall source -- apparently some
  123. known book by Myers (sp?) or Brooks).
  124.  
  125. It is safe to assume that practically any published (or shared) text
  126. (or parts of it like title) will be sorted somewhere.
  127.  
  128. --vadim
  129.