home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1257 < prev    next >
Encoding:
Internet Message Format  |  1993-01-21  |  12.6 KB

  1. Path: sparky!uunet!spool.mu.edu!yale.edu!yale!mintaka.lcs.mit.edu!ai-lab!muesli!glenn
  2. From: glenn@muesli.ai.mit.edu (Glenn A. Adams)
  3. Newsgroups: comp.std.internat
  4. Subject: Script Unification [was: Re: Cleanicode]
  5. Date: 21 Jan 1993 08:58:25 GMT
  6. Organization: MIT Artificial Intelligence Laboratory
  7. Lines: 223
  8. Message-ID: <1jlojhINNqv3@life.ai.mit.edu>
  9. References: <C138zr.r3@poel.juice.or.jp> <1jiotjINNj5q@life.ai.mit.edu> <2179@blue.cis.pitt.edu>
  10. NNTP-Posting-Host: muesli.ai.mit.edu
  11. Keywords: CJK Han Unification L/C/G
  12.  
  13. In article <2179@blue.cis.pitt.edu> djbpitt+@pitt.edu (David J Birnbaum) writes:
  14. >In summation, it is clear to me that LGC should not be unified, but I
  15. >would feel more comfortable if I could articulate what it means to be
  16. >an autonomous script. Suggestions welcome, as always.
  17.  
  18. I will try to take a stab at this (and at some of the other related messages
  19. on this subject).  First I would like to define some terms to be used in the
  20. context of this message:
  21.  
  22.   script
  23.  
  24.     A collection of symbols used by one or more writing systems
  25.     to represent linguistic information; e.g., sound, meaning,
  26.     structure, and so on.
  27.  
  28.   unification
  29.  
  30.     The process of taking the union of two or more collections of symbols
  31.     and unifying similar symbols according to a set of unification criteria
  32.     and/or principles.
  33.  
  34.   unified script
  35.  
  36.     The result produced by performing unification on two or more
  37.     collections of symbols.
  38.  
  39.   unification utility
  40.  
  41.     The degree to which unification increases the efficiency of (1) the
  42.     representation of the written language(s) which employ a unified
  43.     script; and (2) the processing of such representations; e.g., display,
  44.     searching, sorting, indexing, parsing, and all other types of tasks.
  45.  
  46. Now the problem statement, in two parts:
  47.  
  48. (1) In the creation of a universal encoding for the representation
  49.     of all written languages, when is it more useful than not to
  50.     unify two or more collections of symbols?
  51.  
  52. (2) When it is useful to unify two or more collections of symbols,
  53.     which unification criteria or principles result in the highest
  54.     degree of unification utility?
  55.  
  56. An important point to note at this point is that I have couched the
  57. problem not in linguistic or cultural terms, but entirely in engineering
  58. (and information theoretic) terms.  This is a point which seems to get
  59. passed by quite often:  the business at hand is to create a computer
  60. encoding of textual information; therefore, the task of the encoding
  61. designer is (1) to do this in a way that maximizes the economics of the
  62. situation; namely, the economics of memory, speed, and complexity; and
  63. (2) to do this in a way which maintains certain degrees of compatibility
  64. with past practices.  Since these goals are not independent, but highly
  65. interdependent, it is necessary to prioritize their importance.
  66.  
  67. In the case of Unicode, compatibility is given the highest priority:
  68. this occasionally degrades the various economies mentioned above, e.g.,
  69. complexity increases.  Just to be clear by what I mean by compatibility,
  70. two types of compatibility are possible:  (1) data compatibility; and (2)
  71. software compatibility.  Past encoding techniques such as ISO2022 have
  72. given equal priority to these two types of compatibility.  In particular,
  73. ISO2022 supports interoperability with software components designed to
  74. employ 7-bit and/or 8-bit character coding methodology.  At the same time,
  75. ISO2022 supports interoperability with existing data by directly incorporating
  76. that data into ISO2022 character strings.  In contrast, Unicode was
  77. designed in such a way as to sacrifice software interoperability in order
  78. to decrease system complexity.  On the other hand, data interoperability
  79. is given greater priority than the economy of complexity.
  80.  
  81. [I should mention that ISO2022 8-bit compatibility can be achieved with
  82. Unicode or arbitrary UCS[24] 10646 data by using one of the transformation
  83. formats, e.g., UTF-1 or UTF-FSS (UTF-2).]
  84.  
  85. Data interoperability is understood in the design of Unicode as the
  86. support for one-to-one round trip correspondence between data encoded
  87. with coded character elements of (important) existing character set
  88. standards and coded character elements of Unicode.  This insures that
  89. vast amounts of existing textual data can be translated into Unicode
  90. and then back to its original representation form without loss of
  91. information.
  92.  
  93. This by itself precludes unification of certain collections of symbols
  94. (e.g., Latin, Cyrillic, and Greek); and, in other cases, introduces
  95. inefficiencies in processing (e.g., by having to specially process
  96. distinct encodings which would have otherwise been unified -- examples
  97. here include fullwidth variants, arabic presentation forms, vertical
  98. variants, small variants, latin ligatures, han z-variants (stroke
  99. variants), and so on).
  100.  
  101. So, in the case of Latin/Cyrillic/Greek, unification is already not
  102. possible because of the data compatibility requirement in the design
  103. of Unicode.  However, for the sake of argument, it may interesting
  104. to ignore this requirement, and ask whether in the absence of this
  105. compatibility requirement if such a unification should occur.  This
  106. is where we get to the notion of utility:
  107.  
  108.   (1) what does unification buy?  
  109.   (2) is the cost of unification greater than its potential benefits?
  110.  
  111. In the case of L/C/G, unification doesn't buy much at all.  One might
  112. save perhaps a dozen or so code positions out of 2^16 code positions;
  113. on the other hand, it makes certain things more complicated:  one couldn't
  114. perform upper/lower case conversion without knowing which written
  115. langauge was being represented (an issue discussed at length in this
  116. newsgroup -- and, by the way, an issue raised on the incorrect assumption
  117. that Unicode *did* unify L/C/G); one couldn't determine a known, default
  118. ordering for such a unified script; and so on.  Clearly, unifying L/C/G
  119. doesn't give much, but costs dearly.  Furthermore, there is very little
  120. overlap among the collections of symbols in L/C/G; any unification
  121. criteria used here would have to radically abstract either formal
  122. information, functional information, or both form and function.  Finally,
  123. there has been an extremely large number of communities in modern
  124. times which have developed their written languages around extended
  125. forms of the Latin and Cyrillic scripts.
  126.  
  127. Now, contrast the situation with L/C/G with that of Chinese, Japanese,
  128. and Korean (Vietnamese Chu+" No>m, Xixia, Tangut, and other writing
  129. systems must be included here also).  In the case of Chinese, Japanese,
  130. and Korean writing systems alone, there is a vast overlap in the
  131. symbol collections used.  Indeed, in considering the 5,000 most common
  132. symbols used in these writing systems, a significant majority (perhaps
  133. > 90%) of the elements overlap.  In performing the CJK unification
  134. represented by the Unicode Han elements, over 100,000 characters of
  135. different character sets were unified into 20,902 elements; this was
  136. accomplished using a simple set of verifiable unification criteria
  137. and principles which were jointly proposed and adopted by delegations
  138. from China, Japan, Korea, Taiwan, and the USA.  Obviously, the savings
  139. in terms of code point allocations was enormous.  Other very imporant
  140. benefits can also be derived from this unification; e.g., symbols which
  141. have the same or highly similar forms (shape) and which, at the same time,
  142. have the same or quite similar functions (meaning) are consistently
  143. unified so as to further the needs of text processing tasks such as
  144. searching, simple display, simple sorting, and so forth.  While the
  145. benefits of CJK unification are clearly high, the associated cost is
  146. very low:  no important (simple) text processing task is affected.
  147. Of course it is true that CJK unification does have certain costs,
  148. e.g., different implicit sort orders cannot be maintained without
  149. language tags, minor distinctions in the glyphic representation of
  150. CJK character data cannot be made without language tags, and so
  151. forth.  However, and this is important to consider, such distinctions
  152. are not maintained by character set standards practices for other
  153. scripts either:  the English, German, French, and Spanish alphabets,
  154. all distinct in their ordering rules, all potentially requiring slightly
  155. different glyphic displays, are not encoded as distinct elements
  156. of a standard like ISO8859-1, but instead are unified into a single
  157. collection of symbols irrespective of those symbols' usage in these
  158. different alphabets.  Even though such a unification is universally
  159. employed by all character sets which incorporate the symbols of these
  160. alphabets, the important text processes can still be quite adequately
  161. performed:  searching, sorting, case-folding, script-based default
  162. sorting, simple display, etc.
  163.  
  164. It is clear to me at least, and to most people familiar with the
  165. details of many writing systems, that certain unifications tend to
  166. make more sense than others.  L/C/G does not make sense in any
  167. useful way; on the other hand, CJK unification makes considerable
  168. amount of sense.  It not only greatly reduces the demands on encoding
  169. space, but it also greatly simplifies certain types of multilingual
  170. processing in texts which intermix CJK or some combination thereof.
  171. In the case of CJK unification, the principles and criteria for
  172. unification were developed primarily by the CJK countries themselves;
  173. an extraordinary amount of consensus was exhibited in determining
  174. these criteria.  This was possible because there is a great deal
  175. of appeal in the idea of a CJK unification; were such a unification
  176. perceived to cover only a small minority of elements, or should
  177. the unification have produced great adversity to constructing simple
  178. text processes, surely no such agreement would have been reached.
  179.  
  180. Objections to the CJK unification employed in Unicode tend to be
  181. based on some combination of (1) a misunderstanding of what principles
  182. were employed; (2) a misunderstanding of who performed the unification
  183. and/or who developed the principles for unification; (3) national or
  184. cultural sentiments which desire to maintain national and/or cultural
  185. distinctions.  The CJK Unification was undertaken and led by delegations
  186. of the countries most intimately concerned with this task, i.e., China,
  187. Japan, and Korea; the principles developed for the unification are
  188. objectively verifiable and repeatable; and, last but not least, Unicode
  189. and ISO10646 are in the business of defining an adequate and efficient
  190. representation of the symbols employed by the writing systems of the
  191. world in a linguistically, culturally, and nationally neutral fashion.
  192. In producing the Unified Repertoire and Ordering of Han characters,
  193. the CJK-JRG, Unicode (UTC & Han SC), and ISO10646 (JTC1/SC2/WG2) has
  194. performed exceptionally well and produced an excellent foundation on
  195. which to construct multilingual CJK systems.
  196.  
  197. To summarize this discussion of script unification, the first determinative
  198. is a measure of utility: if utility is low, and cost is high, why do it?
  199. If it buys a lot, or if the cost is low, or if it makes sense for reasons
  200. not explicitly stated above (e.g., historical relatedness), then unification
  201. probably should be considered.  If unification is to be performed, then
  202. criteria for unification need to be specified for the process to proceed.
  203. The precedent of CJK unification and the principles and criteria developed
  204. there together inform any future unification efforts.  The primary principles
  205. employed for CJK character unification were:
  206.  
  207. (1) if separate in source character set, don't unify
  208. (2) if no historical relationship (not cognates), then don't unify
  209. (3) if distinct abstract forms, then don't unify
  210.  
  211. Another unification exclusion rule that may be considered, which wasn't
  212. explicitly part of the CJK rules (because it didn't apply):
  213.  
  214. (4) if simple text processes (e.g., case conversion, default per-script
  215.     sorting, simple display, etc.) become impossible without language
  216.     tags (or writing system tags), then don't unify
  217.  
  218. If none of these exclusion rules apply, then unify.  If, after performing
  219. this procedure on a set of candidate symbol collections, a minority of
  220. elements were unified, then consider encoding the symbol collections
  221. separately (i.e., don't unify).
  222.  
  223. I believe the above description of unification fairly captures the way
  224. that script unification is viewed by the designers of Unicode, and by
  225. the authors of the unification methodology employed in the CJK unification
  226. in Unicode and ISO10646.  I would anticipate using something very close
  227. to this procedure in the future for candidate symbol collections.  A
  228. couple of examples of where unifications might be considered:  the
  229. different collections of Runes, Burmese and Shan, etc.
  230.  
  231. The emphasis of unification in the context of character encoding should
  232. be on utility and economy -- engineering considerations -- and not on
  233. theoretical purity or cultural demands.
  234.  
  235. Glenn Adams
  236.