home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 993 < prev    next >
Encoding:
Internet Message Format  |  1993-01-02  |  5.8 KB

  1. Path: sparky!uunet!pipex!bnr.co.uk!uknet!mcsun!sunic!seunet!enea!sommar
  2. From: sommar@enea.se (Erland Sommarskog)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Message-ID: <1993Jan2.230101.20871@enea.se>
  6. Date: 2 Jan 93 23:01:01 GMT
  7. References: <1hvu79INN4qf@rodan.UU.NET> <1993Jan1.115424.27258@enea.se> <1i2gpvINN3lm@rodan.UU.NET>
  8. Organization: Enea Data AB
  9. Lines: 110
  10.  
  11. Vadim Antonov (avg@rodan.UU.NET) writes:
  12. >In article <1993Jan1.115424.27258@enea.se> sommar@enea.se (Erland Sommarskog) writes:
  13. >>So if I type a C then a million key presses later changes puts in
  14. >>an H after the C how can the keyboard driver handle that? It might
  15. >>not even be the same driver who are seeing the two!
  16. >
  17. >Aw, don't be silly. It's trivial.
  18.  
  19. When you can't explain write off the problem as trivial.
  20.  
  21. OK, I confess I'm silly. I am even plain fucking stupid, because I
  22. understand anything. Could you divine guru explain how the keyboard
  23. could correct what is going in my editor? Clearly you don't mean
  24. that the editor is to be fixed - you want to save the applications
  25. from keeping track of which language I'm using, don't you?
  26.  
  27. >>>why on the Earth do i need to spare bits for encoding glyphs if
  28. >>>i already know the language and 8 (or 16 for oriental languages) bits
  29. >>>is quite enough to map the alphabet. Don't you see this gap in
  30. >>>the logic nullifying all benefits of 10646?
  31. >>
  32. >>What the hell has the number of bits to do with anything? Do computers
  33. >>exist for the programmers of the users?
  34. >
  35. >Look, you've missed the logic completely. Read it please again. I also
  36. >explained it several times in other postings.
  37.  
  38. What logic? I want to be able to write and read text in European 
  39. languages. Period. Then how many bits you use is not my issue, as 
  40. long as you give me something which I consider user-friendly. (Being
  41. forced to keep track whether a certain dotted "a" is German or
  42. Swedish is not.) How many bits you use is completely irrelevant. 
  43. (But since I want more than 256 symbols, you will have a pain if 
  44. you stay with eight bits.)
  45.  
  46. >What do you tell the poor user when he has a database with English
  47. >and Russian company names (a case from my practice, to be real) --
  48. >in both upper and lower case and the smart guys (apparently Erlands
  49. >pupils) made a terminal which converts cyrillic codes for the letters
  50. >of the same shape as latin to the latin codes? Go get a rope?
  51.  
  52. Yes, that is precisely the confusion which is likely to happen when
  53. you assign the same character different codes depending on language, 
  54. and when the application program is not smart enough to equate them.
  55.  
  56. We had this discussion on the 10646 list, since this problem is present
  57. in 10646 due to thanks to floating diacritics you can represent many 
  58. characters in more than one way. The general agreement was that a
  59. good program would equate the two without notice. In that discussion
  60. I stated that if the spell-checker complains because I'm using the
  61. wrong sort of dotted A, I would scream "you fascist!" and throw the
  62. machine out of the window. Of course this applies to Vadim Antonov's
  63. wretched system as well.
  64.  
  65. >The basic ASCII principles (after reordering and replacing several
  66. >characters) remained the same -- there is a way to convert upper<->lower
  67. >case and there is a way to sort without asking which language every word
  68. >came from (it's known apriori).
  69.  
  70. Nope. Not with German. Look in a German dictionary. Then look in a
  71. German phonebook. Then you will find that the dotted suckers are
  72. sorted differently in the two places. If you want to support both,
  73. you have to know what the user wants. Or do you suggest that the
  74. user should specify that on input with choosing the correct set of
  75. dotted characters? What if another user wants the other order?
  76. Sure, if he has write access to the text he could filter it first, 
  77. but then what's the difference with informing the program with an 
  78. environment variable or a clicking on the appropriate window item?
  79.  
  80. The problem with your idea is that you believe that everything is
  81. known at input time. It isn't. If you have a list of names which 
  82. is to be used in Sweden, Norway, Denmark and Finland, the list will
  83. sort differently depending on the reader, not on who is entering the 
  84. text. The Swedish and Finnish alphabets ends with A-ring, A-dots,
  85. O-dots. The Danish and Norwegian ends with AE-ligature, O-slash,
  86. A-ring. Looks trivial for a simple bit-order sort? Nope. Because
  87. the dotted A is equivlent to the AE ligature and so is dotted O and
  88. O-slash. Thus Danish and Norwegian names with slashed O should
  89. appear together with Swedish and Finnish names with dotted O. So
  90. the sort algorithm must make no distinction between the two, except
  91. when everything else in the same. And the sort algorithm must know
  92. in which order the user wants the text to be presented.
  93.  
  94. This is a simple end-user requirement which your proposal is not
  95. incapabale to handle. But it requires the same solutions as 10646
  96. (or Latin-1) requires. But your proposals give me alot more mess
  97. with other things which does conflict with end-user requirements
  98. which 10646 does not.
  99.  
  100.  
  101. >As i already said there is no easy way around -- you have to deal
  102. >with those issues somewhere and it's better to have it solved on
  103. >the elementary level -- otherwise EVERY program will be forced to
  104. >keep track of the language
  105.  
  106. Yes, on elementary level. Just like any device-independent program
  107. must be able all sorts of terminals. Can you say "routine library"?    
  108. I know you could.
  109.  
  110. >which is not easy and sometimes ruins the whole logic of the
  111. >program (see shell globbing example in my previous posting os
  112. >tr example before).
  113.  
  114. You've talked a lot about regular expressions etc. Frankly I
  115. don't give a damn about those. The main bulk of computer users
  116. are not programmers and don't know what a regular expression
  117. is, so why focus such specific issues?
  118. -- 
  119. Erland Sommarskog - ENEA Data, Stockholm - sommar@enea.se
  120. Jag gav en k{ck tjeck en check.
  121.