home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1292 < prev    next >
Encoding:
Internet Message Format  |  1993-01-24  |  3.8 KB

  1. Path: sparky!uunet!gatech!destroyer!gumby!yale!mintaka.lcs.mit.edu!ai-lab!wheat-chex!glenn
  2. From: glenn@wheat-chex.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Script Unification [was: Re: Cleanicode]
  5. Date: 23 Jan 1993 17:37:01 GMT
  6. Organization: MIT Artificial Intelligence Laboratory
  7. Lines: 58
  8. Message-ID: <1jrvntINN3a0@life.ai.mit.edu>
  9. References: <2179@blue.cis.pitt.edu> <1jlojhINNqv3@life.ai.mit.edu> <ISHIKAWA.93Jan22203618@ds5200.personal-media.co.jp>
  10. NNTP-Posting-Host: wheat-chex.ai.mit.edu
  11.  
  12. In article <ISHIKAWA.93Jan22203618@ds5200.personal-media.co.jp> ishikawa@personal-media.co.jp writes:
  13.  
  14. >>Of course it is true that CJK unification does have certain costs,
  15. >>e.g., different implicit sort orders cannot be maintained without
  16. >>language tags, minor distinctions in the glyphic representation of
  17. >>CJK character data cannot be made without language tags, and so
  18. >>forth.  However, and this is important to consider, such distinctions
  19. >>are not maintained by character set standards practices for other
  20. >>scripts either:  the English, German, French, and Spanish alphabets,
  21. >>all distinct in their ordering rules, all potentially requiring slightly
  22. >>different glyphic displays, 
  23.  
  24. >But, here is the dumb question. Are 'a', 'b', 'c' in English and, say,
  25. >the similar looking characters in French given slightly different
  26. >glyphic display under similar circumstances?!
  27.  
  28. My point in this paragraph is that existing character sets like ISO8859-1
  29. (IsoLatin1), or the Windows ANSI set, or the standard Apple set, do
  30. not distinguish among the symbols which are shared by different alphabets
  31. which are derived from the Latin script.  Unifying these alphabets as
  32. a single alphabet-independent script makes a lot of sense for many kinds
  33. of text processes, e.g., searching, yet makes other processes difficult,
  34. e.g., culturally correct sorting.  As for display, simple display systems
  35. will probably never distinguish among the forms used to display these
  36. alphabets; however, high quality typography may very well abide to
  37. different standards as to which font to use to display these different
  38. alphabets usage of a single script.  This is similar to the situation
  39. in CJK:  different alphabets' use of the Han script (here I am thinking
  40. of Traditional Chinese, Simplified Chinese, Japanese, and Korean as
  41. four distinct alphabets) requires different fonts for quality display;
  42. yet for simple, legible display, one font will suffice.
  43.  
  44. One argument that has been made against Han unification is that these
  45. different uses require different display forms.  But the differences
  46. in form are minor and do not affect the meaning of the text.  This
  47. is identical to what holds in unifying different alphabets which use
  48. the Latin script.  Admittedly, there are many more forms in the Han
  49. script, and, given the complexity of these forms, there is much more
  50. opportunity for variation.  However, these variations do not in general
  51. cause a change in the meaning (basic content) of the text.  The goal
  52. of Unicode was to define a "plain text format" which captured only
  53. the basic content and no more; any further distinctions, such as font
  54. attributes or language attributes, are expected to be subsumed in
  55. some rich text form which is layered on top of (or interleaved with)
  56. the basic Unicode plain text string.
  57.  
  58. Your basic Unix terminal emulator or text editor can deal with 
  59. Unicode plain text just like ASCII or JIS plain text (with the
  60. appropriate modifications for 16-bit characters).  Legibility is
  61. insured by the criteria of Unicode plain text.  On the other hand,
  62. a desk top publishing system or a more advanced word processor will
  63. most certainly support font attribution, and, in a multilingual
  64. environment, language attribution.  If you look at programs like
  65. Interleaf and Slate (a multimedia editor from BB&N), they have
  66. supported language attributes in their rich text format for a
  67. long time now.
  68.  
  69. Glenn Adams
  70.