home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 950 < prev    next >
Encoding:
Internet Message Format  |  1992-12-31  |  4.0 KB

  1. Path: sparky!uunet!usc!cs.utexas.edu!qt.cs.utexas.edu!yale.edu!yale!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: An alternative I18N paradigm
  5. Date: 31 Dec 1992 08:11:21 GMT
  6. Organization: MIT Artificial Intelligence Laboratory
  7. Lines: 63
  8. Message-ID: <1hu9v9INN923@life.ai.mit.edu>
  9. References: <1hkff3EINN5uv@uni-erlangen.de> <1hncs1INN1qq@corax.udac.uu.se> <DAN.92Dec29102634@dan.watson.ibm.com>
  10. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  11.  
  12. The real problem, at least as I see it, is that the locale model
  13. doesn't distinguish between the consumer of information and the
  14. producer of information.  It naively assumes that an individual
  15. end user must choose the manner in which (linguistically and
  16. culturally sensitive) information is to be presented, and that
  17. this choice can be determined by one fixed value parameter (i.e.,
  18. the locale setting).
  19.  
  20. The first assumption quite poorly models the real world of text;
  21. for here the author or editor is usually responsible for the
  22. presentation of the information, including the written form
  23. of that information.  [We are not quite at the state yet when a
  24. system can automatically translate random text to the written form
  25. preferred by the consumer of text.]  The second assumption fails
  26. miserably in the real world of text where many languages are intermixed
  27. sometimes in a single writing system, sometimes in a single document
  28. employing multiple writing systems.
  29.  
  30. What should first be done is an analysis of the producer and potential
  31. consumers of information.  If the producer is the OS or a local utility,
  32. e.g., /bin/date, and the consumer is a single individual who prefers
  33. reading dates and time in a particular way, and this way can be
  34. characterized by a single (possibly complex) parameter, then the locale
  35. model will work.  However, if the producer is another individual, then
  36. the locale probably should be ignored, and information contained in the
  37. text itself should be consulted about matters such as character set encoding,
  38. font(s), language tag(s), or other presentation information.  In this case,
  39. the locale may be of help only in the case that such explicit information
  40. (encoding, font, etc.) is absent, and here, it may produce complete garbage
  41. if it makes the wrong assumptions.
  42.  
  43. One may ask where 10646/Unicode fits into all of this?  It provides only
  44. a small part of the solution; namely, a single universal character set
  45. encoding rather than many non-universal encodings.  Of course, one might
  46. propose to solve a small part of the problem by using 10646:  use 10646
  47. for all encoded text.  However, as has been pointed out by Ohta-san and
  48. others, this doesn't solve many other problems, e.g., whether to use a
  49. Chinese or a Japanese font to display a given Han character.  So more
  50. is needed still.
  51.  
  52. I, for one, do not believe that 10646 will become universally used 
  53. in a fortnight.  Local and other standard encodings will continue to
  54. exist, probably forever.  So we need to start doing one thing very
  55. quickly: tagging character data as to its encoding.  Another thing we
  56. need to do, is add language (or writing system) tags to texts which
  57. mix multiple languages.  Alternatively, this could be done by tagging
  58. font runs and then associating languages with those runs [I do not
  59. advocate this method - I prefer explicit language or writing system
  60. tags].  Other kinds of tags might be necessary for certain types
  61. of processing, e.g., yomi (phonetic reading) tags for allowing the
  62. display of furugana, sort keys for allowing producer specified sorting
  63. behavior, and so forth.
  64.  
  65. 10646 will not even address any of these matters.  However, Unicode may
  66. do so in the form of implementation guidelines or further work on I18N.
  67. Nonetheless, I think that it is quite important for many parties to begin
  68. implementing such systems so that development of standard tags and tagging
  69. systems can proceed.  We need prior art and experience in these areas
  70. before effective standards can be developed with a reasonable hope of
  71. success.
  72.  
  73. Glenn Adams
  74. Cambridge, Massachusetts
  75.