home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #31 / NN_1992_31.iso / spool / comp / std / internat / 1005 < prev    next >
Encoding:
Internet Message Format  |  1993-01-03  |  2.0 KB

  1. Path: sparky!uunet!zaphod.mps.ohio-state.edu!wupost!spool.mu.edu!enterpoop.mit.edu!eru.mt.luth.se!lunic!sunic!seunet!enea!sommar
  2. From: sommar@enea.se (Erland Sommarskog)
  3. Newsgroups: comp.std.internat
  4. Subject: Re: Language tagging
  5. Message-ID: <1993Jan3.203017.232@enea.se>
  6. Date: 3 Jan 93 20:30:17 GMT
  7. References: <1321@blue.cis.pitt.edu> <1993Jan2.231703.21201@enea.se> <1336@blue.cis.pitt.edu>
  8. Organization: Enea Data AB
  9. Lines: 32
  10.  
  11. David J Birnbaum (djbpitt+@pitt.edu) writes:
  12. >Concerning the former, I would normally require that my texts include
  13. >language identification, so that the same "this is Bulgarian" or "this
  14. >is Russian" information would be present in both a Unicode-based system
  15. >and Vadim's system, although it would not be an inalienable part of the
  16. >character set in the former. Thus, I would be "stuck with" language
  17. >information under both systems. While Unicode is capable of
  18. >representing text without language information (by eschewing the use of
  19. >tags), I can't think of a situation where I would want to do so.
  20.  
  21. This I don't understand. If you throw away a short e-mail message
  22. to a friend, why would it be necessary to tag the text with the 
  23. language?
  24.  
  25. And why would "this is Bulgarian" be different from "this is a text
  26. about motorcycles"?
  27.  
  28. I don't doubt that there are many situations you want to keep track
  29. of which language a text is written in, but what I question is that
  30. the language should is the only such important property. Peter Da
  31. Silva discussed SGML tags in another article, and intuitively it seems
  32. to me that SGML tags is precisely what you are looking for.
  33.  
  34. It is also worth noting that while plain Unicode you can send away
  35. an untagged e-mail without problems, you cannot doing so with Vadim
  36. Antonov suggests as far as I understand. If all you have is a number
  37. of small 8-bit sets, then you must tag the text with the set being
  38. used if you expect the receptor's default set being another than
  39. the one you use, else the text may come up as garbage.
  40. -- 
  41. Erland Sommarskog - ENEA Data, Stockholm - sommar@enea.se
  42. Jag gav en k{ck tjeck en check.
  43.