home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 990 < prev    next >
Encoding:
Internet Message Format  |  1993-01-02  |  3.9 KB

  1. Path: sparky!uunet!spool.mu.edu!uwm.edu!ogicse!mintaka.lcs.mit.edu!ai-lab!muesli!glenn
  2. From: glenn@muesli.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Dumb Americans (was INTERNATIONALIZATION: JAPAN, FAR EAST)
  5. Keywords: Han Kanji Katakana Hirugana ISO10646 Unicode Codepages
  6. Message-ID: <1i3pf7INNcri@life.ai.mit.edu>
  7. Date: 2 Jan 93 10:06:31 GMT
  8. Article-I.D.: life.1i3pf7INNcri
  9. References: <1992Dec30.010216.2550@nobeltech.se> <1992Dec30.061759.8690@fcom.cc.utah.edu> <1hu9v5INNbp1@rodan.UU.NET>
  10. Organization: MIT Artificial Intelligence Laboratory
  11. Lines: 67
  12. NNTP-Posting-Host: muesli.ai.mit.edu
  13.  
  14. In article <1hu9v5INNbp1@rodan.UU.NET> avg@rodan.UU.NET (Vadim Antonov) writes:
  15. >In article <1992Dec30.061759.8690@fcom.cc.utah.edu> terry@cs.weber.edu (A Wizard of Earth C) writes:
  16. >>The "ugly thing Unicode does with asiatic languages" is exactly what it
  17. >>does with all other languages:  There is a single lexical assignment for
  18. >>for each possible glyph.
  19. >It means that:
  20. >
  21. >1) "mechanistic" conversion between upper and lower case
  22. >   is impossible (as well as case-insensitive comparisons)
  23. >
  24. >   Example:     Latin  T -> t
  25. >        Cyrillic T -> m
  26. >        Greek T -> ?
  27. >
  28. >   This property alone renders Unicode useless for any business
  29. >   applications.
  30. >
  31.  
  32.  
  33. After reading this yet again, I now believe that this entire conversation
  34. may be based on a misunderstanding.  Unicode does not unify Latin T,
  35. Cyrillic T, and Greek T!  They are separate characters, as are Latin A,
  36. Cyrillic A, and Greek A.  Nor does Unicode unify LATIN A WITH RING and
  37. ANGSTROM SYMBOL.
  38.  
  39. Unicode only unifies according to abstract form within the context 
  40. of a particular script, i.e., Unicode encodes the elements of scripts.
  41. Furthermore, where there is a clear difference in functional use,
  42. e.g., MINUS vs. HYPHEN vs. HYPHEN vs. FIGURE DASH, Unicode maintains
  43. separate encodings, even though the shapes may be depicted by a
  44. single form (glyph).  More examples include EXCLAMATION POINT vs.
  45. LATIN LETTER EXCLAMATION POINT (used as a letter in African alphabets
  46. based on Latin script) and LATIN LETTER EPSILON (used with a variety
  47. of Latin script based alphabets).
  48.  
  49. I apologize for not recognizing earlier where this argument went
  50. astray.  I assumed that you had at least seen a copy of Unicode,
  51. thus I didn't expect this particular misunderstanding could arise.
  52.  
  53. As for Asian writing systems based on the Han script, the historical
  54. relation these uses is much stronger than that between Greek, Latin,
  55. and Cyrillic.  The differences that have developed are more along
  56. aesthetic dimensions, although differences in functional value have
  57. developed; but then again, the Latin script is nowhere near exact in
  58. its form to function mapping, at least in some important writing systems,
  59. e.g., English & French.  It would be as ridiculous to encode two <c>s
  60. for /k/ and /s/ in English as it would be to encode two Han characters
  61. with the same form which have developed specialized or slightly
  62. different meanings in the writing system in which they were used.
  63.  
  64. Unlike a glyphic encoding, in which forms may be willy-nilly unified
  65. regardless of function, Unicode takes both form and function into
  66. account in the determination of what constitutes a separate character
  67. code element.  In some instances, form is given priority; in others,
  68. function is given priority; in most cases, both have an input.
  69.  
  70. [N.B. In addition to form and function, Unicode maintains distinctions
  71. which existed in character sets whose characters were incorporated into
  72. Unicode.  This insures that one can have round-trip conversion between
  73. existing data.  This "compatibility rule" resulted in the inclusion
  74. of many which would not have been included otherwise, e.g., FULLWIDTH
  75. LATIN LETTER A-Z, a-z, etc (needed for compatibility with most Asian
  76. character sets).  Many Han characters which are stroke variants were
  77. encoded for this reason, and would have been otherwise unified.]
  78.  
  79. Regards,
  80. Glenn Adams
  81.