home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 992 < prev    next >
Encoding:
Internet Message Format  |  1993-01-02  |  3.1 KB

  1. Path: sparky!uunet!europa.asd.contel.com!howland.reston.ans.net!zaphod.mps.ohio-state.edu!cis.ohio-state.edu!news.sei.cmu.edu!drycas.club.cc.cmu.edu!pitt.edu!djbpitt
  2. Newsgroups: comp.std.internat
  3. Subject: Language tagging
  4. Message-ID: <1321@blue.cis.pitt.edu>
  5. From: djbpitt+@pitt.edu (David J Birnbaum)
  6. Date: 2 Jan 93 17:29:57 GMT
  7. Sender: news+@pitt.edu
  8. References: <id.68CW.A16@ferranti.com> <1i2m57INN4vr@rodan.UU.NET> <1993Jan2.020512.3287@klaava.Helsinki.FI>
  9. Organization: University of Pittsburgh
  10. Keywords: ISO10646 Unicode
  11. Lines: 47
  12.  
  13. >Just the input problem is enough to kill this idea, I think: The user
  14. >would have to get the language of every character he types correct,
  15. >and as somebody who routinely (as in usually large amounts every day)
  16. >enters text in several languages (English, Swedish, and Finnish, with
  17. >a few quoted words every now and then from a number of other
  18. >languages, including German, Latin, and French) and often enough mixes
  19. >several languages in one sentence, let me tell you that it is _not_
  20. >going to succeed.  Having to switch language mode every few words, or
  21. >for every different document, is not going a workable solution.
  22.  
  23. As is readily acknowledged by the UTC, Unicode encodes scripts, not
  24. languages, which means that language-dependent information must be added
  25. separately if language-dependent operations are to be performed. As has
  26. been noted in this forum, language tagging does not solve all locale
  27. problems, since (for example) sorting may follow different rules in
  28. different locales within a single language.
  29.  
  30. I think the objections to the input-related problems of Vadim's proposal
  31. are misdirected, since both Vadim's proposal and Unicode require the
  32. user to input language identifying information during data entry if this
  33. information will be needed for later processing. Under Vadim's
  34. proposal, what would be input would be an instruction (not part of the
  35. stored text stream) to shift to the appropriate subset of characters.
  36. Under a system built on a Unicode character set, what would be input
  37. would be some sort of language or locale tagging that would be entered
  38. into the text at a higher level than character set.
  39.  
  40. In both cases, if you want language-specific data in your text stream,
  41. you have to say so during input. If I need to insert Bulgarian words
  42. into a Russian text stream I can do so without indicating a change,
  43. as long as I understand that the consequence will be that the Bulgarian
  44. data will be treated like Russian.
  45.  
  46. The difference between Vadim's proposal and Unicode, then, is not one of
  47. input, but one of encoding levels; Vadim wants the language information
  48. to be part of the character set, while Unicode puts it at a different
  49. level. Regardless of which side one takes in this disagreement, the
  50. user at the keyboard has to input "Finnish" or "German" or whatever if
  51. he wants Finnish data to be treated differently from German data.
  52.  
  53. --David
  54. --
  55. -- 
  56. Professor David J. Birnbaum         djbpitt+@pitt.edu [Internet]
  57. The Royal York Apartments, #802     djbpitt@pittvms   [Bitnet]
  58. 3955 Bigelow Boulevard              voice: 1-412-687-4653
  59. Pittsburgh, PA  15213  USA          fax:   1-412-624-9714
  60.