home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 975 < prev    next >
Encoding:
Internet Message Format  |  1993-01-01  |  5.2 KB

  1. Path: sparky!uunet!not-for-mail
  2. From: avg@rodan.UU.NET (Vadim Antonov)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Date: 1 Jan 1993 17:32:31 -0500
  6. Organization: UUNET Technologies Inc, Falls Church, VA
  7. Lines: 113
  8. Message-ID: <1i2gpvINN3lm@rodan.UU.NET>
  9. References: <8490@charon.cwi.nl> <1hvu79INN4qf@rodan.UU.NET> <1993Jan1.115424.27258@enea.se>
  10. NNTP-Posting-Host: rodan.uu.net
  11.  
  12. In article <1993Jan1.115424.27258@enea.se> sommar@enea.se (Erland Sommarskog) writes:
  13. >So if I type a C then a million key presses later changes puts in
  14. >an H after the C how can the keyboard driver handle that? It might
  15. >not even be the same driver who are seeing the two!
  16.  
  17. Aw, don't be silly. It's trivial. 
  18.  
  19. >>FYI, English has some compound letters too (though they're used only 
  20. >>in typesetting) -- ff, fff, fi, ffi, fl, ffl..
  21. >
  22. >Which is the not the same as Spanish CH or LL. Saying that ff is one
  23. >letter is like saying Russian "bI" is two...
  24.  
  25. Sure not, they're not "letters" for sorting and case-conversion purposes.
  26.  
  27. >>why on the Earth do i need to spare bits for encoding glyphs if
  28. >>i already know the language and 8 (or 16 for oriental languages) bits
  29. >>is quite enough to map the alphabet. Don't you see this gap in
  30. >>the logic nullifying all benefits of 10646?
  31. >
  32. >What the hell has the number of bits to do with anything? Do computers
  33. >exist for the programmers of the users?
  34.  
  35. Look, you've missed the logic completely. Read it please again. I also
  36. explained it several times in other postings.
  37.  
  38. >>With a trivial trick of including several codes for identical glyphs
  39. >>for letters from different languages you can put all of them in ONE
  40. >>meta-alphabet.
  41. >
  42. >Well that's is already done in 10646 for letters which are the same in
  43. >Latin, Cyrillic and Greek scripts. Hopefully, that will not cause to
  44. >much of a mess.
  45.  
  46. It was the only solution -- the problem is the same but it's a worse
  47. case.
  48.  
  49.  
  50. >But what Vadim Antonov was discussing was including identical glyphs
  51. >for languages like Swedish, German etc. I guess people are in for real
  52. >surprises because things don't end up where they expect them because 
  53. >they happen to use the wrong type of dotted A. Not talking about the 
  54. >confusion they get when they are searching the text. Possibly this
  55. >arrangement is friendly for the the lazy programmer Vadim Antonov, 
  56. >but not for the poor user.
  57.  
  58. What do you tell the poor user when he has a database with English
  59. and Russian company names (a case from my practice, to be real) --
  60. in both upper and lower case and the smart guys (apparently Erlands
  61. pupils) made a terminal which converts cyrillic codes for the letters
  62. of the same shape as latin to the latin codes? Go get a rope?
  63.  
  64. As for lazy i bet i wrote ten times more than you. Send you my resume?
  65.  
  66. >>ASCII is for English, period.
  67.  
  68. >In what way is ASCII, which is - as state yourself - for English,
  69. >useful for data processing in German or French?
  70.  
  71. Because:
  72.     1) the programs working with German ASCII and French ASCII
  73.        aren't the same programs as those working with English ASCII
  74.        -- they have language-specific translation tables in comparison
  75.        routines which effictively reorder ASCII making it a somehow
  76.        different code.
  77.     2) since relatively few programs were designed this way there
  78.        is a lot of programs with erroneous behaviour, for example:
  79.  
  80.         tr ? SS
  81.            ^-ezsat here
  82.     3) it is not ASCII anyway (where's my {?)
  83.  
  84. >Or even its
  85. >semantics useful for these languages?
  86.  
  87. The basic ASCII principles (after reordering and replacing several
  88. characters) remained the same -- there is a way to convert upper<->lower
  89. case and there is a way to sort without asking which language every word
  90. came from (it's known apriori).
  91.  
  92. That does not work with Unicode.
  93.  
  94. >In the poor variety of
  95. >English you can render with ASCII, sorting can be based simply
  96. >on the letter ordering, because accents, digraphs and diaeresis
  97. >which only occurs occassionaly were left out. But German and
  98. >French cannot be simplified in this ways because umlauts and
  99. >accents appear much more often. For these languages the sorting
  100. >algorithm must be more complex that simple sorting on collation
  101. >order, so what's the use of a hard-coded semantics a la ASCII?
  102.  
  103. There always is a reasonable approximation people use daily --
  104. technically speaking ANY sorting can be made arithmetic by
  105. trivial character convertion rules. Since invention of lexicographic
  106. sorting those rules came to be pretty simple.
  107.  
  108. >You are seeing the solution, simple bit-order comparisons. But
  109. >unfortunately there are not many problems which have this solution.
  110.  
  111. I do not claim to provide a panacea. I simply warn about the known
  112. problem which can easily outweigh all benefits of the unified code.
  113. The solution may seem weird -- until you bump on those holes yourself.
  114. As i already said there is no easy way around -- you have to deal
  115. with those issues somewhere and it's better to have it solved on
  116. the elementary level -- otherwise EVERY program will be forced to
  117. keep track of the language which is not easy and sometimes ruins
  118. the whole logic of the program (see shell globbing example in my previous
  119. posting os tr example before).
  120.  
  121. I'm pretty sure Unicode is dead-born exactly because it requires non-trivial
  122. changes in existing programs for no reason.
  123.  
  124. --vadim
  125.