home *** CD-ROM | disk | FTP | other *** search
/ ProfitPress Mega CDROM2 …eeware (MSDOS)(1992)(Eng) / ProfitPress-MegaCDROM2.B6I / TEXT / UTILITY / ENGLEX10.ZIP / ENGLEX10.DOC < prev    next >
Encoding:
Text File  |  1992-01-20  |  40.0 KB  |  848 lines

  1.  
  2. ENGLEX: an English lexicon for PC-KIMMO
  3.  
  4. version 1.0
  5. November 26, 1991
  6. Documentation updated: 20-Jan-92
  7.  
  8. Evan L. Antworth
  9. Summer Institute of Linguistics, Dallas, TX
  10. evan@sil.org
  11.  
  12. Copyright (C) 1991, Summer Institute of Linguistics, Inc.
  13.  
  14. Contents
  15. 1 What is Englex?
  16. 2 Copyright and fair use policy
  17. 3 Required software
  18. 4 About PC-KIMMO and KTEXT
  19. 5 System requirements and performance
  20. 6 Coverage and disclaimers
  21. 7 Test corpora
  22. 8 Comparison with appendix A of the PC-KIMMO book
  23. 9 Design philosophy
  24. 10 Extending, modifying, and fine-tuning the lexicon
  25. 11 File structure
  26. 12 Running Englex
  27. 13 Alphabet
  28. 14 British spelling
  29. 15 Archaic forms
  30. 16 Stress marks
  31. 17 Accented characters
  32. 18 Inflection and derivation
  33. 19 Multiple senses and homonyms
  34. 20 Word class conversion
  35. 21 Output data structures
  36. 22 Gloss tags
  37. 23 Compounds
  38. 24 Clitics
  39. 25 Participles
  40. 26 Special cases
  41. 27 Names and abbreviations
  42. 28 Digits and Roman numerals
  43. 29 Preprocessing text
  44. 30 Reporting defects and submitting enhancements
  45. 31 References
  46.  
  47. 1 What is Englex?
  48.  
  49. Englex is a morphological parsing lexicon of English. It uses the standard 
  50. orthography for English. It is intended for use with PC-KIMMO (or programs 
  51. that use the PC-KIMMO parser, such as KTEXT). With such software and Englex, 
  52. you can morphologically parse English words and text. Practical applications 
  53. include morphologically preprocessing text for a syntactic parser and 
  54. producing morphologically tagged text. Englex can also be used to explore 
  55. English morphological structure.
  56.  
  57. 2 Copyright and fair use policy
  58.  
  59. All of the files in this release of Englex are copyrighted by the Summer 
  60. Institute of Linguistics (Academic Computing Department, 7500 W. Camp Wisdom 
  61. Road, Dallas, TX 75236, U.S.A.). Permission is hereby granted to the user to 
  62. copy, use, modify, and distribute the Englex files under the following 
  63. conditions: 
  64.     (1) if you distribute this original release of Englex, you must 
  65. include all files in unmodified form; 
  66.     (2) if you distribute Englex files that you have modified, you must 
  67. clearly state who modified them and how they differ from the originals; 
  68.     (3) you may not charge money for distributing Englex, in original or 
  69. modified form, beyond minimal media cost without permission of the Summer 
  70. Institute of Linguistics; and 
  71.     (4) Englex may not be used in any commercial product without 
  72. permission of the Summer Institute of Linguistics.
  73.  
  74. 3 Required software
  75.  
  76. Englex is of little use by itself (though you could use a word processor to 
  77. search and retrieve words in the lexicon files). Englex is intended to be 
  78. used with PC-KIMMO or KTEXT. If you use Englex with PC-KIMMO, you can 
  79. interactively enter words to analyze or process lists of words using the 
  80. file functions. However, any word you process this way must use only the 
  81. alphabetic characters declared in the rules file. For example, if you enter 
  82. a capitalized word, you will get an error. Also, the basic alphabet does not 
  83. include any eight-bit accented characters. Using Englex interactively with 
  84. PC-KIMMO is helpful when you are editing the lexicon files. There is one 
  85. oddity to be aware of: due to the way PC-KIMMO handles NULLs, some words 
  86. will return several identical parses (for example, "bigger"). You should 
  87. also note that  Englex is optimized for recognition; you can use PC-KIMMO's 
  88. generator function with Englex, but it will produce many spurious output 
  89. forms.
  90.  
  91. To process text with Englex, you can use KTEXT. KTEXT handles all the 
  92. problems noted above: capitals, accented characters, and identical parses. 
  93. If you want to make adjustments to the way KTEXT works, simply modify the 
  94. files ENGLISH.CTL and TEXTIN.CTL. See the KTEXT user's guide for details.
  95.  
  96. A third way to use Englex is to create your own application program using 
  97. the PC-KIMMO parser. See appendix C of the PC-KIMMO book (Antworth 1990).
  98.  
  99. 4 About PC-KIMMO and KTEXT
  100.  
  101. PC-KIMMO is a program for doing computational phonology and morphology. It 
  102. is typically used to build morphological parsers for natural language 
  103. processing systems. PC-KIMMO is described in the book "PC-KIMMO: a two-level 
  104. processor for morphological analysis" by Evan L. Antworth, published by the 
  105. Summer Institute of Linguistics (1990). The PC-KIMMO software is available 
  106. for MS-DOS (IBM PCs and compatibles), Macintosh, and UNIX. The book 
  107. (including software) is available for $23.00 (plus postage) from: 
  108.  
  109.     International Academic Bookstore
  110.     7500 W. Camp Wisdom Road
  111.     Dallas TX, 75236
  112.     U.S.A.
  113.     phone  214/709-2404
  114.     fax    214/709-2433
  115.  
  116. The remainder of this document assumes that you are familiar with PC-KIMMO.
  117.  
  118. PC-KIMMO was deliberately designed to be reusable. The core of PC-KIMMO is a 
  119. library of functions such as load rules, load lexicon, generate, and 
  120. recognize. The PC-KIMMO program supplies on the release diskette is just a 
  121. user shell built around these basic functions. This shell provides an 
  122. environment for developing and testing sets of rules and lexicons. Since the 
  123. shell is a development environment, it has very little built-in data 
  124. processing capability. But because PC-KIMMO is modular and portable, you can 
  125. write your own data processing program that uses PC-KIMMO's function 
  126. library. 
  127.  
  128. KTEXT is an example of how to use PC-KIMMO to create a new natural language 
  129. processing program. KTEXT is a text processing program that uses PC-KIMMO to 
  130. do morphological parsing. See the KTEXT user's guide for more information on 
  131. how to use KTEXT to process text.
  132.  
  133. Note: as of December 6, 1991 the latest version of KTEXT is version 1.0.1.
  134.  
  135. The Macintosh version of KTEXT is available from:
  136.  
  137.   archive.umich.edu (141.211.164.153)
  138.   /pub/mac/etc/linguistics/ktext094.sit.hqx
  139.  
  140. The MS-DOS version of KTEXT is available from (but see section 5 below):
  141.  
  142.   wsmr-simtel20.army.mil (192.88.110.20)
  143.   pd1:<msdos.linguistics>ktext093.zip
  144.  
  145. or
  146.  
  147.   archive.umich.edu (141.211.164.153)
  148.   /pub/msdos/linguistics/ktext093.zip
  149.  
  150. The UNIX version of KTEXT is available from:
  151.  
  152.   Consortium for Lexical Research, New Mexico State University
  153.   Direct queries to lexical@nmsu.edu or lexical@nmsu.bitnet.
  154.  
  155. 5 System requirements and performance
  156.  
  157. PC-KIMMO and KTEXT run on three systems:
  158.  
  159. MS-DOS (IBM PC and compatibles)
  160. UNIX System V (SCO UNIX V/386 and A/UX) and 4.2 BSD UNIX
  161. Apple Macintosh (System 7 compatible)
  162.  
  163. Englex takes up only about 500KB of disk space (not including executables), 
  164. but requires a considerable amount of internal memory. On my Macintosh SE/30 
  165. (using Multifinder under system 6) I must set the application size of PC-
  166. KIMMO or KTEXT to a minimum of 2700KB. Thus you will need at least a 4MB 
  167. Macintosh to run Englex (unless you prune out a substantial number of 
  168. lexical entries). 
  169.  
  170. The original MS-DOS versions of PC-KIMMO and KTEXT were limited to 640KB. 
  171. Obviously Englex will not run in 640KB. We have recently compiled new 
  172. versions of PC-KIMMO and KTEXT for PC compatibles using the 386 processor. 
  173. These versions will use all available extended/expanded memory plus virtual 
  174. memory. In order to run Englex under MS-DOS, you will need a 386 machine and 
  175. these new versions of the software. If they are not available from the file 
  176. archives mentioned above, contact me directly.
  177.  
  178. On my Macintosh SE/30, Englex takes about 1 minute 35 seconds to load. KTEXT 
  179. averages about two words per second to process text. On a 33MHz 486 PC 
  180. compatible, Englex takes 10 seconds to load and KTEXT averages about 10 
  181. words per second.
  182.  
  183. 6 Coverage and disclaimers
  184.  
  185. Englex contains approximately 20,000 lexical entries. These entries are 
  186. affixes, roots, indivisible stems and solid compounds. Of these, there are 
  187. approximately 11,000 nouns, 4,000 verbs, and 3,400 adjectives. Since Englex 
  188. analyzes productive morphology, it will recognize several times this number 
  189. of English words. No claim is made for exhaustive coverage of English 
  190. vocabulary. The intent was to establish a critical mass of entries that 
  191. would handle a large percentage of non-technical, non-specialized English 
  192. text. Rather than simply adding lists of new words, I suggest that future 
  193. lexical expansion of Englex should be done by users on the basis of the 
  194. textual materials they are attempting to process.
  195.  
  196. Englex attempts to account for all productive morphological structure 
  197. (affixes, morphotactic constraints, word class conversion, etc.). No claim 
  198. is made that it exhaustively covers everything that might be considered part 
  199. of English morphology.
  200.  
  201. Although my intention was to be as complete and accurate as possible, no 
  202. claim is made that Englex is inerrant. I view Englex as an on-going research 
  203. project to which I now invite the general academic community to contribute. 
  204. The morphological analysis of English embodied in Englex should be viewed as 
  205. a set of hypotheses that are subject to falsification, correction, and 
  206. refinement.
  207.  
  208. 7 Test corpora
  209.  
  210. Englex was tested with several words lists (such as the UNIX spelling list). 
  211. This does not mean that Englex contains all words found in those lists. Many 
  212. words were judged too technical or infrequent to include in Englex.
  213.  
  214. Englex was also tested with samples of running text, including Lewis 
  215. Carroll's "Alice's Adventures in Wonderland" and "Through the Looking 
  216. Glass", Herman Melville's "Moby Dick", the New Testament (Authorized 
  217. version), and excerpts from the UPI newswire. Again, this does not mean that 
  218. all words found in those corpora are included in Englex.
  219.  
  220. 8 Comparison with appendix A of the PC-KIMMO book
  221.  
  222. The PC-KIMMO release disk includes an English example which is described in 
  223. appendix A of the PC-KIMMO book (Antworth 1990). The rules file that Englex 
  224. uses is very similar to the rules file described there, but a few changes 
  225. have been made, such as relaxing the environment for Gemination. 
  226.  
  227. One important difference is the NULL symbol. Because Englex handles digits, 
  228. including 0, the NULL symbol has been changed to * (asterisk). Notice that 
  229. null entries in the lexicon must also use * as the NULL symbol.
  230.  
  231. Another difference is that the s-deletion and i:y-spelling rules described 
  232. in appendix A are not used in Englex. This was done to achieve better 
  233. processing performance. Because deletions are computationally expensive for 
  234. the recognizer function, removing the s-deletion rule resulted in nearly a 
  235. 20% speed increase. Removing the i:y-spelling rule resulted in a 10% speed 
  236. increase. The trade-off is that there is some loss in linguistic felicity. 
  237. The s-deletion rule deletes a possessive suffix "s" when it follows an "s", 
  238. e.g. lexical "boy+s+'s" to surface "boys'"). In order to do away with this 
  239. rule, it is necessary to add the allomorph +' to the GENITIVE sublexicon (in 
  240. the file english.lex). The result is that a word such as "boys'" returns the 
  241. lexical form "boy+s+'" rather than "boy+s+'s"; however, the gloss string is 
  242. unaffected and remains N+PL+GEN. If you prefer to use the s-deletion rule, 
  243. it is located in the file english.rul after the END keyword. Simply move it 
  244. into the main body of rules and comment out the +' lexical entry.
  245.  
  246. The i:y-spelling rule accounts for alternations such as "tie" and "tying". 
  247. However, there is such a small number of words that exhibit this alternation 
  248. that it is more economical to list them in the lexicon. However, if you want 
  249. to use the i:y-spelling rule, it is located in the file english.rul after 
  250. the END keyword.
  251.  
  252. The lexicon described in appendix A is only a small sample lexicon and is 
  253. totally superseded by Englex. Note that the morphotactic structure described 
  254. in appendix A bears little resemblance to Englex.
  255.  
  256. In short, be careful not to confuse the English files from the PC-KIMMO 
  257. release disk with the files supplied with Englex.
  258.  
  259. 9 Design philosophy
  260.  
  261. Englex represents a convergence of two disciplines: natural language 
  262. processing (NLP) and linguistics. Since the presuppositions, interests, and 
  263. goals of linguists and NLP researchers do not necessarily coincide, Englex 
  264. is by necessity a bundle of compromises.
  265.  
  266. Englex is natural language processing (NLP) tool based on generally-accepted 
  267. linguistic principles and analyses of English morphology. The basic strategy 
  268. in building an NLP system like Englex is two-pronged: first, ensure that all 
  269. well-formed input is analyzed correctly, and second, incrementally refine 
  270. the system so that it rejects ill-formed input. Both the linguist and NLP 
  271. researcher would insist that the first goal be met (though even here the NLP 
  272. researcher might be more forgiving). But with regard to the second goal, 
  273. only the linguist would require that it be fully met in order for the 
  274. description to be adequate. For the NLP researcher, as long as well-formed 
  275. input is assured, it does not necessarily matter if the system 
  276. "overrecognizes" (but see below).
  277.  
  278. For example, Englex will correctly recognize the comparative and superlative 
  279. forms of adjectives such as "big, bigger, biggest". But it will also 
  280. recognize the dubious form "aliver" as the comparative form of "alive". In 
  281. other words, Englex underspecifies the morphotactic constraints related to 
  282. adjective inflection; it assumes that all adjectives can have a comparative 
  283. form, which of course is not true. In practice, we assume that forms such as 
  284. "aliver" do not occur in well-formed text; thus overrecognition does little 
  285. harm.
  286.  
  287. However, overrecognition is by no means innocuous; it can result in spurious 
  288. parses that seriously degrade the performance of an NLP system. For 
  289. instance, consider what would happen if we relax the constraint that the 
  290. comparative -er suffix only attaches to adjectives and permit it after any 
  291. word. A word such as "bigger" would still be correctly parsed as a 
  292. comparative adjective; but a word such as "writer" would get two parses: one 
  293. where -er is correctly recognized as an agentive suffix that attaches to a 
  294. verb, and another where -er is incorrectly posited as the comparative 
  295. suffix. By simply encoding the constraint that the comparative suffix can 
  296. only attach to adjectives, we capture the obvious and important linguistic 
  297. fact that only adjective have comparative forms and at the same time reduce 
  298. the number of spurious parses the system produces.
  299.  
  300. The degree to which we refine a system like Englex depends on our purpose in 
  301. using the system: to characterize precisely English morphological structure 
  302. (the linguist's goal) or to process natural language texts to some 
  303. acceptable degree of accuracy (the NLP researcher's goal). In Englex I have 
  304. tried to steer a middle course between these purposes, but ultimately it is 
  305. up to the user to determine the behavior of the system.
  306.  
  307. 10 Extending, modifying, and fine-tuning the lexicon
  308.  
  309. Since Englex is a completely open system, the user can easily add more 
  310. lexical entries as they are needed. The lexicon files are standard ASCII 
  311. text files that can be edited with any conventional text editor (see section 
  312. 11 on file formats). 
  313.  
  314. The user can also change the gloss tags if this is necessary to be 
  315. compatible with other software. If you do this, be sure to search all the 
  316. lexicon files for instances of a particular tag.
  317.  
  318. The user can even modify the morphological analysis used by Englex. Care 
  319. should be observed when doing this, however, since a small change can have 
  320. unforeseen results in some other part of the lexicon system.
  321.  
  322. If you look at the file ENGLISH.LEX which contains entries for affixes, you 
  323. will see that many affix entries are commented out. This is an example of 
  324. the compromise between linguistics and natural language processing. Some 
  325. affix entries are commented out because they are very infrequent or 
  326. unproductive; in such cases it is preferable to simply list all words with 
  327. these affixes in the lexicon. Other affix entries are commented out because 
  328. they result in numerous spurious parses that cannot easily be filtered out 
  329. using PC-KIMMO's rather simple system of encoding morphotactic constraints. 
  330. In these cases it is preferable, from the viewpoint of natural language 
  331. processing, to list words using such affixes in the lexicon rather than deal 
  332. with multiple parses. However, from a linguistic point of view, it might be 
  333. desireable to uncomment these affixes and see what happens. The choice is up 
  334. to the user.
  335.  
  336. There are other instances where the user who is primarily interested in 
  337. natural language processing may want to fine-tune the lexicon by disabling 
  338. certain lexical entries. For instance, the word "saw" will result in several 
  339. parses: the past tense form of "see", the noun "saw", and the verb "saw" 
  340. converted from the noun. Unless your text is about carpentry, it will be 
  341. distracting to have three parses of such a common word as "saw" (as the past 
  342. tense of "see"). Just comment out the lexical entry for the noun "saw".
  343.  
  344. 11 File structure
  345.  
  346. This release of Englex the following files:
  347.  
  348. english.ctl     KTEXT mail control file
  349. engtxtin.ctl    KTEXT textin control file
  350. english.rul     rules file
  351. english.lex     main lexicon file (contains affixes and loads other files)
  352. noun.lex        nouns
  353. verb.lex        verbs
  354. adjectiv.lex    adjectives
  355. adverb.lex      adverbs
  356. minor.lex       prepositions, determiners, conjunctions, quantifiers, 
  357.                 demonstratives, interjections, foreign, ordinals, 
  358.                 cardinals, digits, roman numerals
  359. proper.lex      proper nouns
  360. abbrev.lex      acronyms and abbreviations
  361.  
  362. At the beginning of each file is a table of contents. In the noun, verb, and 
  363. adjective files, irregular forms are listed in the first part of the file 
  364. followed by regular forms.
  365.  
  366. Each lexical entry in a file is composed of three parts: lexical form, 
  367. alternation, and gloss. Each entry is limited to a single line with a single 
  368. tab separating the parts. For example:
  369.  
  370. `cat  <TAB>   N   <TAB>   "N"
  371.  
  372. 12 Running Englex
  373.  
  374. To run Englex interactively with PC-KIMMO, launch PC-KIMMO and issue the 
  375. commands "load rules english" and "load lexicon english". You can also 
  376. create a TAKE file to execute these commands automatically (see section 
  377. 7.5.4 of the PC-KIMMO book). Note that if the Englex files are not in the 
  378. same subdirectory as the PC-KIMMO program, you must either do a CD command 
  379. to move into that directory or use pathnames before the filenames.
  380.  
  381. To run Englex with KTEXT, you must first be sure that the control files 
  382. ENGLISH.CTL and TEXTIN.CTL are present and properly configured. Then launch 
  383. KTEXT with the appropriate command line arguments. For instance:
  384.  
  385.      ktext -w -x english -i alice.txt -o alice.ana -l alice.log
  386.  
  387. See the KTEXT user's guide for details.
  388.  
  389. 13 Alphabet
  390.  
  391. The alphabet of word-forming characters is declared in the file ENGLISH.RUL. 
  392. It consists of these characters:
  393.  
  394.      b c d f g h j k l m n p q r s t v w x y z a e i o u ' - ` + 
  395.      0 1 2 3 4 5 6 7 8 9
  396.  
  397. Only these characters can be used in the lexical form part of a lexical 
  398. entry. The gloss part of a lexical entry is not restricted to these 
  399. characters. Capitalization, accented characters, and punctuation in running 
  400. text can be handled by KTEXT.
  401.  
  402. 14 British spelling
  403.  
  404. Some British spelling variants have been included, such as colour, 
  405. recognise, centre, etc, but this has not been done consistently or 
  406. exhaustively. I apologi[z/s]e for this American bias.
  407.  
  408. 15 Archaic forms
  409.  
  410. Archaic verb ending are found in the sublexicon V_INFL in the file 
  411. ENGLISH.LEX. To enable them, remove the comment character before each line. 
  412. The file VERB.LEX also contains various archaic verb forms and the file 
  413. MINOR.LEX contains archaic pronouns.
  414.  
  415. 16 Stress marks
  416.  
  417. Word stress in full words is indicated with the back quote (grave accent) `. 
  418. Be careful not to confuse it with apostrophe; for instance, the lexical form 
  419. of the word "woman's" is written `woman+'s. The stress marks were placed 
  420. according to my own intuition and the authority of Webster's Ninth New 
  421. Collegiate Dictionary. Notice that even monosyllabic words require a stress 
  422. mark because the Gemination rule crucially refers to it (see the file 
  423. ENGLISH.RUL and appendix A of the PC-KIMMO book [Antworth 1990]).
  424.  
  425. 17 Accented characters (diacritics)
  426.  
  427. Englex's alphabet does not include accented characters (characters with 
  428. diacritics). For instance, the word "naivete" is usually spelled with a 
  429. diaeresis over the "i" and an acute accent over the final "e"; but the 
  430. lexical entry for "naivete" is spelled with no diacritics. If your input 
  431. text contains accented characters, they must be converted to corresponding 
  432. unaccented characters. The control file TEXTIN.CTL for KTEXT can be 
  433. configured by the user to convert single eight-bit accented characters 
  434. (either Macintosh or IBM extended character set) to seven-bit characters. 
  435. Edit this file to make changes or additions. If your input text contains 
  436. digraphs to represent accented characters (for instance, na:ivet'e), you can 
  437. convert these to single characters using consistent change commands in the 
  438. control file TEXTIN.CTL. See the KTEXT user's guide for details.
  439.  
  440. Another way to handle eight-bit accented characters is to add them to the 
  441. alphabet in ENGLISH.RUL and use them in the lexical entries. This is a less 
  442. portable solution.
  443.  
  444. 18 Inflection and derivation
  445.  
  446. Morphological processes are traditionally divided into two types: inflection 
  447. and derivation. Englex handles both types, though it does not formally 
  448. distinguish them. Here are some examples of how Englex glosses inflectional 
  449. morphology:
  450.  
  451. cats        `cat+s
  452.             N+PL
  453.  
  454. singing     `sing+ing
  455.             V+PRG
  456.  
  457. sang        `sang
  458.             V.PST
  459.  
  460. Here is how Englex glosses a derivationally complex word:
  461.  
  462. computerization     com`pute+er+ize+ation
  463.                     V+NR19+VR6+NR23
  464.  
  465. Englex contains an entry for the verb root com`pute and entries for the 
  466. suffixes +er, +ize, and +ed; all words based on that root (such as computer, 
  467. computerize, etc.) are recognized by decomposing them into their constituent 
  468. parts.
  469.  
  470. In addition to listing roots, Englex must also list derived forms that 
  471. cannot be decomposed due to phonological or morphological irregularity. For 
  472. example, the word "reception" is listed in the lexicon with the gloss string 
  473. V(re`ceive)+NR23.
  474.  
  475. Many regularly derived words in English have acquired specialized meanings. 
  476. For example, the word "business" is a regular nominal derivation of the verb 
  477. busy, but no longer retains its transparent meaning. Many such words have 
  478. been given their own lexical entries to reflect this fact. Thus "business" 
  479. will return two parses: `business N and `busy+ness AJ+NR27
  480.  
  481. Englex may reveal relations among words that you were not aware of. For 
  482. example, I was surprised to find that Englex analyzed the word "amplify" as 
  483. the adjective "ample" plus the verbalizing suffix -ify. Even though this 
  484. formation is perfect regular and analogous to "simple, simplify", I had 
  485. never consciously made the connection.
  486.  
  487. It is not easy to draw a sharp line between productive, synchronic 
  488. formations and static, diachronic formations. For example, the adjective 
  489. "resilient" is actually derived from the verb "resile". Even though the 
  490. semantic relation is perfectly transparent, the fact that "resile" is no 
  491. longer in currency puts this analysis more in the arena of etymology. I have 
  492. probably not been entirely consistent in handling such cases.
  493.  
  494. 19 Multiple senses and homonyms
  495.  
  496. Englex is intended as a parsing lexicon, not a full dictionary. In general, 
  497. multiple senses are not distinguished. For example, there is only one entry 
  498. for the adjective "fair", ignoring the fact that it has several senses 
  499. (including 'not stormy' and 'impartial'). However the noun "fair" meaning 'a 
  500. festival' is considered a homonym and because it is a different word class 
  501. it is given its own entry in the noun sublexicon. There are a few instances 
  502. of homonyms of the same word class; for instance, "bat" in the sense 
  503. 'instrument for hitting' and "bat" in the sense 'flying mammal'. Because 
  504. these two words have different derivational possibilities (the first can be 
  505. converted to a verb while the second cannot), they are given separate 
  506. lexical entries. Their glosses are distinguished as "bat1" and "bat2". I 
  507. have no doubt missed other such cases.
  508.  
  509. 20 Word class conversion
  510.  
  511. Many words in English belong to more than one word class; for instance, 
  512. "hit" is either verb or noun and "calm" is either adjective or verb. Since 
  513. in such cases the word appears to have the same sense but just differs in 
  514. word class, we can say that the word has changed from one class to another. 
  515. The direction of conversion is distinctive. Examples of verb to noun 
  516. conversion include "love", "laugh", "answer", "cover", and "walk", while 
  517. examples of noun to verb conversion include "bottle", "grease", "peel", and 
  518. "father". Englex handles conversion by permitting special continuations such 
  519. as V-to-N and N-to-V (see the alternations and sublexicons by these names in 
  520. the file ENGLISH.LEX). Given a word such as "talk" that has the continuation 
  521. V-to-N, Englex will return two parses: V(`talk) and V(`talk).NR0 where the 
  522. tag NR0 stands for nominalizer zero.
  523.  
  524. When adding new lexical entries, you should take the possibility of 
  525. conversion into consideration. For example, say you find that Englex fails 
  526. to recognize the inflected verb "partied". Before adding "party" to the verb 
  527. lexicon, first check to see if "party" already exists in the noun lexicon. 
  528. If it does, then you need only to change its continuation from N to N-to-V.
  529.  
  530. For a discussion of conversion in English, see Quirk et al. 1972:1009ff.
  531.  
  532. 21 Output data structures
  533.  
  534. Given the word "cried" as input, Englex will return as output two pieces of 
  535. data: the lexical (underlying) form `cry+ed and the gloss string V+PTC (a 
  536. plus sign indicates a morpheme boundary; see below for a list of gloss 
  537. tags.) If you use KTEXT, the output file will contain a record for each  
  538. word; for example (see the KTEXT user's guide for details):
  539.  
  540. \a V+PTC
  541. \d `cry+ed
  542. \w cried
  543.  
  544. There will not necessarily be an equal number of morpheme break symbols 
  545. between the lexical form and the gloss string; for example:
  546.  
  547. \a V(re`ceive)+NR23
  548. \d re`ception
  549. \w reception
  550.  
  551. This shows that even though the form "reception" can only be partially 
  552. segmented (-ion is a regular suffix, but there is no stem "recept"), it 
  553. nevertheless corresponds to a morphologically regular formation of stem plus 
  554. suffix (compare "digress" and "digression").
  555.  
  556. Besides the plus sign, a period (dot) is also used to indicate a special 
  557. type of morpheme, namely an irregular or zero alternant of an affix. For 
  558. example, while a regular plural noun such as "cats" is glossed as 
  559. N(`cat)+PL, the irregular plural "mice" is glossed as N(`mouse).PL. Word 
  560. class conversion is also handled this way; thus the nominalized verb 
  561. "arrival" is glossed as V(ar`rive)+NR22 while "return" is glossed 
  562. V(re`turn).NR0.
  563.  
  564. It is important to understand that Englex glosses morphemes, not whole 
  565. words. Of course when a word is composed of only a single morpheme, this 
  566. distinction is moot; thus the word "large" is glossed as AJ, which can be 
  567. interpreted as either a morpheme-level or a word-level gloss. Now consider 
  568. the multimorphemic word "enlargement", which is glossed as 
  569. VR1+AJ(`large)+NR25. This is a string of morpheme glosses which maps 
  570. directly to the parts of the lexical form en+large+ment. But there is 
  571. nothing in the gloss string that tells us overtly whether the class of the 
  572. whole word is adjective, verb, or noun. This level of analysis is beyond the 
  573. feasible scope of PC-KIMMO and Englex. However, it should not be difficult 
  574. to write an algorithm to infer word class from a gloss string such as 
  575. VR1+AJ(`large)+NR25. It is a well-known fact of English morphology that the 
  576. rightmost suffix determines the word class of the entire word. Such an 
  577. algorithm could be applied to the output structures provided by KTEXT.
  578.  
  579. Another point to notice here is that a gloss string has a strictly linear 
  580. structure; that is, it does not have any internal constituent structure. 
  581. Even though it can be argued that a word such as "enlargement" has a 
  582. bracketed structure such as [[en+[large]]+ment], such tree-like structures 
  583. are flattened out in the gloss string Englex produces.
  584.  
  585. A corollary to the fact that Englex glosses morphemes rather than words is 
  586. that it glosses only what is phonologically present in the input word. For 
  587. example, while the word "dogs" will return the gloss N(`dog)+PL, the word 
  588. "dog" will return only the gloss N(`dog); that is, it does *not* return 
  589. something like N(`dog).SG to indicate that it is a singular noun. Since 
  590. singular number is unmarked in English, Englex does not gloss it; plural 
  591. number is marked, so Englex returns a gloss when it finds it. This shows 
  592. that Englex is perhaps better understood as a recognizer than a parser, 
  593. since it does not return an overt set of inflectional categories for each 
  594. word. As was suggested above, such information can be obtained by 
  595. postprocessing Englex's output. (NOTE: I have not been entirely consistent 
  596. with this policy. See the first part of the file NOUN.LEX where I have 
  597. listed zero plural nouns, nouns with equivocal number, unmarked plural 
  598. nouns, and so on. Collecting lists of such words appealed to me as a 
  599. linguist.)
  600.  
  601. 22 Gloss tags
  602.  
  603. Here is a list of all the gloss tags used in Englex.
  604.  
  605. N     noun
  606. PN    proper noun
  607. V     verb
  608. AUX   auxiliary
  609. AJ    adjective
  610. AV    adverb
  611. PP    preposition
  612. DT    determiner
  613. CJ    conjunction
  614. QN    quantifier
  615. DEM   demonstrative
  616. PR    pronoun
  617. IJ    interjection
  618. FN    foreign
  619. CD    cardinal
  620. OD    ordinal
  621.  
  622. 1     first person
  623. 2     second person
  624. 3     third person
  625. SG    singular
  626. PL    plural
  627. GEN   genitive
  628. CMP   comparative
  629. SPR   superlative
  630. PST   past
  631. PTC   participle
  632. PRG   progressive
  633.  
  634. NR    nominalizer
  635. VR    verbalizer
  636. AJR   adjectivizer
  637. AVR   adverbizer
  638.  
  639. NEG   negative
  640. PEJ   pejorative
  641. DEG   degree
  642. ORI   orientation
  643. LOC   location
  644. NUM   number
  645. REV   reversive
  646. ORD   time and order
  647. NEO   neo-classical
  648.  
  649. (The last nine tags listed above were suggested by Quirk et al. 1972:981ff.)
  650.  
  651. Affixes with the same tag are differentiated by numbering; thus the 
  652. nominalizing suffixes are tagged NR1, NR2, etc. Variants of an affix are 
  653. further distinguished with letters; for instance, NR23a, NR23b, etc.
  654.  
  655. Some words are given multiple tags. For instance the word "fast" is tagged 
  656. as AJ/AV because it can function as either an adjective or an adverb. 
  657. Alternatively, the word "fast" could be given two lexical entries, one in 
  658. the adjective sublexicon and another in the adverb sublexicon. The choice 
  659. depends on how you want to handle multiple parses.
  660.  
  661. 23 Compounds
  662.  
  663. There are three types of orthographic compounds in english (see Quirk et al. 
  664. 1972:1019):
  665.  
  666. solid, e.g. bedroom
  667. hyphenated, e.g. tax-free
  668. open, e.g. rose bush
  669.  
  670. Open compounds are not handled by Englex at all. If you want to treat open 
  671. compounds as single lexical items, you must preprocess the text to join them 
  672. as either hyphenated or solid compounds (for instance, replace "rose bush" 
  673. with "rose-bush" or "rosebush" and put these forms in the lexicon).
  674.  
  675. Englex can handle hyphenated compounds. If it recognizes a whole word and 
  676. then encounters a hyphen, it will recurse and attempt to recognize the part 
  677. after the hyphen as another word. It will even handle phrasal compounds this 
  678. way, such as "his come-what-may attitude". If you do not want to decompose 
  679. hyphenated compounds, find the End sublexicon near the bottom of the file 
  680. ENGLISH.LEX and comment out the hyphen entry.
  681.  
  682. Englex treats solid hyphens as if they were indivisible stems; they are 
  683. simply listed in the lexicon. It should be possible to cause Englex to 
  684. decompose solid compounds by using a null lexical entry in the End 
  685. sublexicon. However, I suspect that a large number of spurious parses would 
  686. result.
  687.  
  688. There are three types of compounds that have received special treatment. 
  689. First is the "object-verb-er" type such as "lawnmower" and "sightseer". 
  690. Those which are usually written as solid compounds have been included in the 
  691. lexicon with entries like this:
  692.  
  693. `sightseer     N     "N(`sight)+V(`see)+NR19"
  694.  
  695. Second is the "adjective-noun-ed" type such as "red-haired" and "long-
  696. legged". Some compounds of this type are found in Englex with entries like 
  697. this:
  698.  
  699. clear`headed    AJ    "AJ(`clear)+N(`head)+AJR8"
  700.  
  701. Third are the "man/men" and "woman/women" compounds such as 
  702. "businessman/men/woman/women". Because there are so many of these, I have 
  703. created suffix entries for +man, +men, +woman, and +women. Some must still 
  704. be listed in the lexicon, such as "madman" (built on an adjective rather 
  705. than a noun) and "klansman" (rather than "*klanman"). See the section on 
  706. man/woman compounds in the file NOUN.LEX.
  707.  
  708. 24 Clitics
  709.  
  710. Clitics are distinguished from affixes. Affixes are constrained in what word 
  711. classes they can attach to; for instance, the plural suffix +s can only 
  712. attach to a noun. Clitics, however, are syntactically bound to phrases but 
  713. phonologically bound to the last word of the phrase; thus they are not 
  714. constrained by the words they attach to. For instance, the possessive clitic 
  715. +'s normally attaches to nouns as in "the man's hat", but can attach to 
  716. other word classes such as adjectives in a phrase such as "the president 
  717. elect's hat". In Englex clitics are placed in the sublexicon CLITICS found 
  718. near the end of the file ENGLISH.LEX. These include +'s for "is", +'s for 
  719. "has", +'ll for "will" and so on. There is one exception: because of the 
  720. frequency of the possessive clitic, it is placed in the sublexicon GENITIVE 
  721. which limits its occurrence to nouns. To change this behavior, simply move 
  722. it to the CLITICS sublexicon.
  723.  
  724. 25 Participles
  725.  
  726. The -ed form of a verb is called a past participle (as in "the surprised 
  727. children") and the -ing form is a present participle or gerund (as in "the 
  728. surprising children). Englex does not give any overt indication that forms 
  729. such as these could be either finite verbs or participles, since to do so 
  730. would result in multiple parses for every -ed and -ing verb form in English. 
  731. Inferring the possibility that a verb could be a participle is left to 
  732. postprocessing. However, if an -ed or -ing form occurs followed by a 
  733. derivational suffixes such as -ly or -ness, then Englex will convert a verb 
  734. to an adjective. For instance, "surprising" will be glossed simply as 
  735. V(sur`prise)+PRG, but "surprisingly" will be glossed as 
  736. V(sur`prise)+PRG.AJR0+AVR1. See the sublexicon PTC_SUFFIX in the file 
  737. ENGLISH.LEX.
  738.  
  739. 26 Special cases
  740.  
  741. There are a couple classes of words that receive some special treatment in 
  742. Englex. First are words that end in -ology and other y-final foreign 
  743. suffixes. The problem comes in handling the derived forms of a word such as 
  744. "biology", for instance "biological" and "biologist", where the final y is 
  745. absent. It is not feasible to handle this with a general phonological rule, 
  746. since it is morphologically conditioned. Instead, I have treated the final y 
  747. as a suffix. This means that "biology" is represented in the lexicon as 
  748. "biolog" which must take a suffix in order to be well-formed. These special 
  749. "Final_y" words are found in the first part of the file NOUN.LEX.
  750.  
  751. Second are adjectives that end in -ic. Some of these words also have an 
  752. adjective form ending in -al, for instance "acoustic" and "acoustical". 
  753. Others do not have an -al adjective form ("atomic" but not "*atomical") but 
  754. require -al before adding the adverbial suffix -ly ("atomically"). These -ic 
  755. adjectives are given the special continuation AJR_ic (see the file 
  756. ADJECTIV.LEX).
  757.  
  758. 27 Names and abbreviations
  759.  
  760. The file PROPER.LEX contains proper names and related words. There is a 
  761. fairly long list of geographical place names, but virtually no first and 
  762. last names of people (with the exception of some historical figures). The 
  763. intent was to provide a place where you can add names that occur in the text 
  764. you are processing.
  765.  
  766. The file ABBREV.LEX contains acronyms and abbreviations. The entries mainly 
  767. come from text that I processed. Add your own entries as needed.
  768.  
  769. 28 Digits and Roman numerals
  770.  
  771. Englex will handle numbers such as 2, 125, 1984, etc. See the sublexicon 
  772. DIGITS in the file MINOR.LEX. Unfortunately, neither PC-KIMMO nor KTEXT can 
  773. correctly handle numbers that contain commas or decimal points (such as 
  774. 1,200 or 5.25). This is because comma and decimal point are elsewhere used 
  775. as punctuation and thus cannot also serve as alphabetic characters. It 
  776. should be noted that KTEXT will not drop commas or decimal points, it will 
  777. simply save them in a punctuation field; thus it will treat 1,200 as two 
  778. "words" separated by a comma.
  779.  
  780. Englex will also handle Roman numerals. See the sublexicon ROMAN in the file 
  781. MINOR.LEX. Notice that the entry for the numeral "i" has been commented out 
  782. to prevent ambiguity with the first person singular personal pronoun.
  783.  
  784. 29 Preprocessing text
  785.  
  786. English orthography is notoriously underspecified. For instance, capital 
  787. letters are used both for proper names and to begin sentences; periods are 
  788. used both after abbreviations and to end sentences; a hyphen can be used in 
  789. a compound word or to form a dash; and the character ' is often used both as 
  790. a single quote mark and as an apostrophe. Such ambiguities may require you 
  791. to preprocess your text. For example, say your text uses the character ' 
  792. both as a single quote and as an apostrophe (as does the Project Gutenberg 
  793. version of "Alice's Adventures in Wonderland"). Since you want to treat 
  794. forms such as "girl's" as a single word, apostrophe must be declared as an 
  795. alphabetic (word forming) character. However, KTEXT will now fail on any 
  796. word that is preceded or followed by a single quote mark. The only solution 
  797. is to consistently change all single quote marks to some other nonalphabetic 
  798. character (such as " or < or eight-bit curly quotes).
  799.  
  800. Similarly, "Alice" uses two hyphens to indicate a dash as in "...as she 
  801. spoke--fancy curtseying as...". If hyphen is used as a word forming 
  802. character in compounds, then "spoke--fancy" will be treated as a single 
  803. word, resulting in failure. The solution is to consistently change two 
  804. hyphens to some other nonalphabetic characters (such as two equals signs or 
  805. an eight-bit dash character).
  806.  
  807. Section 23 mentions preprocessing text in order to join open compounds. A 
  808. similar problem occurs with foreign expressions and names, for instance ad 
  809. hoc, faux pas, El Salvador, Los Angeles. Englex already contains these forms 
  810. joined with hyphens: ad-hoc, faux-pas, el-salvador, los-angeles (see the 
  811. sublexicon FOREIGN in the file MINOR.LEX and the section of place names in 
  812. PROPER.LEX). Use a text-processing tool such as SED or AWK to join these 
  813. forms before parsing the text with Englex.
  814.  
  815. 30 Reporting defects and submitting enhancements
  816.  
  817. If you find errors in Englex, please report them to me at the address below. 
  818. If you make enhancements to Englex that you think others would benefit from, 
  819. I encourage you to send these to me also. If enough interest develops, I am 
  820. willing to redistribute such enhancements to other users. If you want to be 
  821. on a standing list to receive information on future development of Englex, 
  822. please send me your e-mail address.
  823.  
  824. You can contact me at the following mailing address, e-mail address, or 
  825. phone number.
  826.  
  827. Evan Antworth                   | Internet: evan@sil.org
  828. Academic Computing Department   | UUCP:     ...!uunet!convex!txsil!evan
  829. Summer Institute of Linguistics | phone:    214/709-2418
  830. 7500 W. Camp Wisdom Road        | fax:      214/709-3387
  831. Dallas, TX  75236               |
  832.  
  833. 31 References
  834.  
  835. Antworth, Evan L. 1990. PC-KIMMO: a two-level processor for morphological 
  836.    analysis. Occasional Publications in Academic Computing No. 16. Summer 
  837.    Institute of Linguistics.
  838.  
  839. Antworth, Evan L. and Stephen R. McConnel. 1991. KTEXT User's Guide. On-line 
  840.    documentation.
  841.  
  842. Bauer, Laurie. 1983. English word-formation. Cambridge University Press.
  843.  
  844. Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech and Jan Svartvik. 1972. A 
  845.   grammar of contemporary English. Longman.
  846.  
  847. Webster's Ninth New Collegiate Dictionary. 1984. Merriam-Webster Inc.
  848.