home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / std / internat / 1297 < prev    next >
Encoding:
Internet Message Format  |  1993-01-24  |  2.4 KB

  1. Path: sparky!uunet!cs.utexas.edu!sun-barr!sh.wide!wnoc-tyo-news!cs.titech!titccy.cc.titech!necom830!mohta
  2. From: mohta@necom830.cc.titech.ac.jp (Masataka Ohta)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Radicals Instead of Characters
  5. Message-ID: <2808@titccy.cc.titech.ac.jp>
  6. Date: 24 Jan 93 12:19:05 GMT
  7. References: <1j9sfpINN46t@life.ai.mit.edu> <1jfgq1INNqmn@flop.ENGR.ORST.EDU> <2791@titccy.cc.titech.ac.jp> <1jpj9sINNlie@flop.ENGR.ORST.EDU>
  8. Sender: news@titccy.cc.titech.ac.jp
  9. Organization: Tokyo Institute of Technology
  10. Lines: 63
  11.  
  12. In article <1jpj9sINNlie@flop.ENGR.ORST.EDU>
  13.     crowl@jade.CS.ORST.EDU (Lawrence Crowl) writes:
  14.  
  15. >>>The question I was asking was "can you _identify_ a han/kanji character
  16. >>>based on a sequence of radicals"
  17. >>
  18. >>No, you can't. Radicals are for indexing only. The rest of the character
  19. >>has its own complex shape.
  20. >
  21. >If you can use radicals for indexing, then you can use them to identify
  22. >characters.
  23.  
  24. No you can't. The correspondence is not one to one. It is many to many.
  25.  
  26. >>Such encoding is too lengthy.
  27.  
  28. >An encoding every variant of every character ever written is not?
  29.  
  30. Of course, not.
  31.  
  32. >Your non-unified
  33. >approach would require roughly eighteen bits per character.
  34.  
  35. What's the problem? 18 bit character set is just fine.
  36.  
  37. >>Moreover, you will have to have sixteen 4000 entry tables which is as
  38. >>large as a single 64000 entry table.
  39. >
  40. >No, I don't have to have sixteen 4000 entry tables.  I only need one.
  41.  
  42. Could you please elaborate?  Your argument leaves me unconvinced.
  43.  
  44. >>If you use radical based encoding, it makes everything complex.
  45.  
  46. >Could you please elaborate?  Your argument leaves me unconvinced.
  47.  
  48. Perhaps because you don't understand that you need sixteen 4000 entry
  49. tables.
  50.  
  51. >>>But, can sixteen bits represent _all_ historical Han characters _and_
  52. >>>the historical texts of all other languages?  My guess is 16 bits can
  53. >>>_if_ Han characters are coded as radicals,
  54. >>
  55. >>Maybe nor may not be. Many complex Han characters are just unique.
  56. >
  57. >Unique in what sense?  Examples?
  58.  
  59. As those characters are really complex I don't write figures of them.
  60. See DIS 10646-1.2.
  61.  
  62. >>BTW, from the view point of programmers, combining characters are
  63. >>just unusable.
  64. >
  65. >I am a programmer.
  66.  
  67. Then, how can your program detect the character boudaries?
  68.  
  69. That you can't find character boudaries without lookaheading makes
  70. all programs complex and interractive programming impossible.
  71.  
  72. Are you really a programmer?
  73.  
  74.                         Masataka Ohta
  75.