home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / sci / lang / 8959 < prev    next >
Encoding:
Text File  |  1993-01-23  |  3.4 KB  |  84 lines

  1. Newsgroups: sci.lang
  2. Path: sparky!uunet!grebyn!daily!lojbab
  3. From: lojbab@grebyn.com (Logical Language Group)
  4. Subject: Lexical Texts Analysis
  5. Message-ID: <1993Jan23.070340.28270@grebyn.com>
  6. Organization: The Logical Language Group, Inc./Institute for Russian Language
  7. Date: Sat, 23 Jan 1993 07:03:40 GMT
  8. Lines: 74
  9.  
  10. The following is being posted upon the request of Mikhael Maron, a
  11. linguist associated with the Institute for Russian Language in Moscow.
  12. He is interested in contacting others interested in his work, or doing
  13. similar work.  He has some limits on email access, and shares his
  14. account with many others.  Please address any queries on this research
  15. to him at:
  16.  
  17. irl@glas.apc.org
  18.  
  19. with attention to his name in the subject line:  "ATTN: M. Maron - IRL"
  20.                            *******************
  21.  
  22. Forwarded message:
  23. --------------------------
  24. Subject: Lexical Texts Analysis
  25.  
  26. Large text (ASCII) files such as whole books (fiction,
  27. humanities,science) in electronic form are considered.
  28.  
  29. - *Total list* of all word occurences in the text is generated.
  30.  
  31. - Having some general idea of what key words we are intersted in, we
  32. select them from this list, making *partial word lists* (PWL):  names,
  33. words from specific problem areas etc; from several up to about 200-250
  34. words can be included in one PWL.
  35.  
  36. - For given PWL we are to build:  (1) a set of all contexts
  37. (paragraphs/lines) where the PWL member words occured;
  38.  
  39. * words index, telling on which book pages these occurences took place.
  40.  
  41. The problem is to perform these activities effectively:  concordance
  42. word crunchers I know need up to analysed_text_volume *10..30 for some
  43. service indexes, which makes the search process not practical for real
  44. books.
  45.  
  46. - The solution is to introduce markup into the text searched:  the words
  47. of interest are supplied with special markers, which is done OK with the
  48. help of some context-replacement routines I have developed.
  49.  
  50. - Having markupped files, we may extract only markers- containg lines
  51. which form the needed set of contexts.  This extraction may be done with
  52. the help of GREP routine, for instance - and with turbo efficiency also.
  53.  
  54. - Index is generated from the markupped files/set of contexts with the
  55. help of the routine I produced.
  56.  
  57. This technique was used to analyse the text of "The Possessed" novel by
  58. Dostoyevsky with respect to possession lexicology:  to have, to possess,
  59. to acquire etc.  (imet', vladet', priobretat'...)
  60.  
  61. The idea was inspired by Fromm's "To Have or To Be?" concept of
  62. possession.  According to Fromm's semantics, to posssess means (a bit
  63. roughly) to possess property/goods, NOT abstract properties as in
  64. logic/computer science for instance.
  65.  
  66. The "possession" PWL for the novel was built, as well as a set of
  67. contexts and an index for about 200 occurences of the words in this
  68. list.
  69.  
  70. For each word occurence its usage model was built.  For example, "to
  71. have" in the context "I had a terrible headache after discussion with
  72. Ivanov" is modelled as "to have headache".
  73.  
  74. The complete set of such usage models for the words in the given PWL in
  75. the given text provides us the understanding of the semantics of these
  76. words with respect to the text.
  77.  
  78. As for the novel, the semantics of "possession" in it appeared to be
  79. very interesting and seems to give considerable insight into
  80. Dostoyevsky's trail of thought.  It seems to be compatible with
  81. logic/computer approach - and quite incompatible with Fromm's!
  82. _____
  83. EOF
  84.