home *** CD-ROM | disk | FTP | other *** search
/ ProfitPress Mega CDROM2 …eeware (MSDOS)(1992)(Eng) / ProfitPress-MegaCDROM2.B6I / TEXT / UTILITY / PCKIM386.ZIP / PCKIMMO.INF < prev    next >
Encoding:
INI File  |  1992-01-20  |  13.8 KB  |  366 lines

  1. PC-KIMMO: A Two-level Processor for Morphological Analysis
  2.  
  3. WHAT IS PC-KIMMO?
  4.  
  5. PC-KIMMO is a new implementation for microcomputers of a program
  6. dubbed KIMMO after its inventor Kimmo Koskenniemi (see
  7. Koskenniemi 1983). It is of interest to computational linguists,
  8. descriptive linguists, and those developing natural language
  9. processing systems. The program is designed to generate (produce)
  10. and/or recognize (parse) words using a two-level model of word
  11. structure in which a word is represented as a correspondence
  12. between its lexical level form and its surface level form.
  13.  
  14. Work on PC-KIMMO began in 1985, following the specifications of
  15. the LISP implementation of Koskenniemi's model described in
  16. Karttunen 1983. The coding has been done in Microsoft C by David
  17. Smith and Stephen McConnel under the direction of Gary Simons and
  18. under the auspices of the Summer Institute of Linguistics. The
  19. aim was to develop a version of the two-level processor that
  20. would run on an IBM PC compatible computer and that would include
  21. an environment for testing and debugging a linguistic
  22. description. The PC-KIMMO program is actually a shell program
  23. that serves as an interactive user interface to the primitive
  24. PC-KIMMO functions. These functions are available as a C-language
  25. source code library that can be included in a program written by
  26. the user.
  27.  
  28. A PC-KIMMO description of a language consists of two files
  29. provided by the user:
  30.  
  31.     (1) a rules file, which specifies the alphabet and the
  32. phonological (or spelling) rules, and
  33.  
  34.     (2) a lexicon file, which lists lexical items (words and
  35. morphemes) and their glosses, and encodes morphotactic
  36. constraints.
  37.  
  38. The theoretical model of phonology embodied in PC-KIMMO is called
  39. two-level phonology. In the two-level approach, phonological
  40. alternations are treated as direct correspondences between the 
  41. underlying (or lexical) representation of words and their realization 
  42. on the surface level. For example, to account for the rules of English
  43. spelling, the surface form spies must be related to its lexical
  44. form `spy+s as follows (where ` indicates stress, + indicates a
  45. morpheme boundary, and 0 indicates a null element):
  46.  
  47.     Lexical Representation:   ` s p y + 0 s
  48.     Surface Representation:   0 s p i 0 e s
  49.  
  50. Rules must be written to account for the special correspondences
  51. `:0, y:i, +:0, and 0:e.  For example, the two-level rule for the
  52. y:i correspondence looks like this (somewhat simplified):
  53.  
  54.           y:i => @:C___+:0
  55.  
  56. Notice that the environment of the rule is also specified as a
  57. string of two-level correspondences.  Because two-level rules have
  58. access to both underlying and surface environments, interactions
  59. among rules can be handled without using sequential rule ordering.
  60. All of the rules in a two-level description are applied simultaneously,
  61. thus avoiding the creation of intermediate levels of derivation (an 
  62. artifact of sequentially applied rules). 
  63.  
  64. The two functional components of PC-KIMMO are the generator and
  65. the recognizer. The generator accepts as input a lexical form,
  66. applies the phonological rules, and returns the corresponding
  67. surface form. It does not use the lexicon. The recognizer accepts
  68. as input a surface form, applies the phonological rules, consults
  69. the lexicon, and returns the corresponding lexical form with its
  70. gloss. Figure 1 shows the main components of the PC-KIMMO system.
  71.  
  72. Figure 1:  Main components of PC-KIMMO
  73.  
  74.            +-----------+        +-----------+
  75.            |  RULES    |        |  LEXICON  |
  76.            +----+------+        +------+----+
  77.                 |-------+      +-------|
  78.                         |      |
  79.                         v      v
  80.     Surface Form:  +------------------+      Lexical Form:
  81.      spies ------->|    Recognizer    |----> `spy+s
  82.                    +----+-------------+      [N(spy)+PLURAL]
  83.                         |
  84.                         v
  85.                    +------------------+
  86.      spies <-------|    Generator     |<----- `spy+s
  87.                    +------------------+
  88.  
  89.  
  90. The rules and lexicon are implemented computationally using finite 
  91. state machines. For example, the two-level rule shown above
  92. for the y:i correspondence must be translated into the following 
  93. finite state table for PC-KIMMO to use:
  94.  
  95.           |@ y + @
  96.           |C i 0 @
  97.         --+-------
  98.         1:|2 0 1 1
  99.         2:|2 3 2 1
  100.         3.|0 0 1 0
  101.  
  102. (Note: as of May 1991, there is a beta test version of a rule compiler
  103. available, called KGEN.)
  104.  
  105. Around the components of PC-KIMMO shown in figure 1 is an
  106. interactive shell program that serves as a user interface. When
  107. the PC-KIMMO shell is run, a command-line prompt appears on the
  108. screen. The user types in commands which PC-KIMMO executes. The
  109. shell is designed to provide an environment for developing,
  110. testing, and debugging two-level descriptions. Among the features
  111. available in the user shell are:
  112.  
  113.     * on-line help;
  114.  
  115.     * commands for loading the rules and lexicon files;
  116.  
  117.     * ability to generate and recognize forms entered
  118. interactively from the keyboard;
  119.  
  120.     * a mechanism for reading input forms from a test list on a
  121. disk file and comparing the output of the processor to the
  122. correct results supplied in the test list;
  123.  
  124.     * provision for logging user sessions to disk files;
  125.  
  126.     * a facility to trace execution of the processor in order to
  127. debug the rules and lexicon;
  128.  
  129.     * other debugging facilities including the ability to turn
  130. off selected rules, show the internal representation of rules,
  131. and show the contents of selected parts of the lexicon; and
  132.  
  133.     * a batch processing mode that allows the shell to read and
  134. execute commands from a disk file.
  135.  
  136. Because the PC-KIMMO user shell is intended to facilitate
  137. development of a description, its data-processing capabilities
  138. are limited. However, PC-KIMMO can also be put to practical use 
  139. by those engaged in natural language processing. The primitive 
  140. PC-KIMMO functions (including load rules, load lexicon,
  141. generate, recognize) are available as a source code library
  142. that can be included in another program. This means that the users
  143. can develop and debug a two-level description using the PC-KIMMO
  144. shell and then link PC-KIMMO's functions into their own programs.
  145.  
  146.  
  147. WHO IS PC-KIMMO FOR?
  148.  
  149. Up until now, implementations of Koskeniemmi's two-level model have 
  150. been available only on large computers housed at academic or 
  151. industrial research centers. As an implementation of the two-level 
  152. model, PC-KIMMO is important because it makes the two-level processor 
  153. available to individuals using personal computers. Computational 
  154. linguists can use PC-KIMMO to investigate for themselves the properties 
  155. of the two-level processor. Theoretical linguists can explore the
  156. implications of two-level phonology, while descriptive linguists
  157. can use PC-KIMMO as a field tool for developing and testing their
  158. phonological and morphological descriptions. Teachers of courses on
  159. computational linguistics can use PC-KIMMO to demonstrate the two-level
  160. approach to morphological parsing.  Finally, because the source code for 
  161. the PC-KIMMO's generator and recognizer functions is made available, 
  162. those developing natural language processing language processing 
  163. applications (such as a syntactic parser) can use PC-KIMMO as a 
  164. morphological front end to their own programs.
  165.  
  166. (Note: as of May 1991, a program called KTEXT is available. It uses the
  167. PC-KIMMO parser and processes text, producing a morphological parse of
  168. each word in the text.)
  169.  
  170.  
  171. VERSIONS AVAILABLE
  172.  
  173. PC-KIMMO will run on the following systems:
  174.     MS-DOS or PC-DOS (any IBM PC compatible)
  175.     Macintosh
  176.     UNIX System V (SCO UNIX V/386 and A/UX) and 4.2 BSD UNIX
  177.  
  178. There are two versions of the PC-KIMMO release diskette, one for
  179. IBM PC compatibles and one for the Macintosh. Each contains the
  180. executable PC-KIMMO program, examples of language descriptions,
  181. and the source code library for the primitive PC-KIMMO functions.
  182. The PC-KIMMO executable program and the source code library are
  183. copyrighted but are made freely available to the general public
  184. under the condition that they not be resold or used for
  185. commercial purposes.
  186.  
  187. It should be noted that the Macintosh version retains the
  188. DOS/UNIX command-line interface rather than using the graphical
  189. user interface one expects from Macintosh programs.
  190.  
  191. For those who wish to compile PC-KIMMO for their UNIX system, we
  192. will supply the full sources. But you must also obtain either the
  193. IBM PC version or the Macintosh version in order to get all the
  194. sample files.
  195.  
  196. The PC-KIMMO release diskette contains the executable PC-KIMMO
  197. program, the function library, and examples of PC-KIMMO
  198. descriptions for various languages, including English, Finnish,
  199. Japanese, Hebrew, Kasem, Tagalog, and Turkish. These are not
  200. comprehensive linguistic descriptions, rather they cover only a
  201. selected set of data.
  202.  
  203.  
  204. THE PC-KIMMO BOOK
  205.  
  206. The complete PC-KIMMO release software is included with the book
  207. "PC-KIMMO: a two-level processor for morphological analysis" by
  208. Evan L. Antworth, published by the Summer Institute of
  209. Linguistics (1990).  The book is a full-length (273 pages) tutorial 
  210. on writing two-level linguistic descriptions with PC-KIMMO. It also
  211. fully documents the PC-KIMMO user interface and the source code
  212. function library. The book with release diskette(s) is available
  213. for $23.00 (plus postage) from:
  214.  
  215.     International Academic Bookstore
  216.     7500 W. Camp Wisdom Road
  217.     Dallas TX, 75236
  218.     U.S.A.
  219.  
  220.     phone 214/709-2404
  221.     fax   214/709-2433
  222.  
  223. A partial listing of the contents of the book is as follows:
  224.  
  225. 1. Introduction
  226.    1.1 What is PC-KIMMO
  227.    1.2 The history of PC-KIMMO
  228.    1.3 The significance of PC-KIMMO
  229. 2. A sample user session with PC-KIMMO
  230. 3. Developing the rules component
  231.    3.1 Understanding two-level rules
  232.    3.2 Implementing two-level rules as finite state machines
  233.    3.3 Compiling two-level rules into state tables
  234.    3.4 Writing the rules file
  235. 4. Developing the lexical component
  236.    4.1 Structure of the lexical component
  237.    4.2 Encoding morphotactics as a finite state machine
  238.    4.3 Writing the lexicon file
  239. 5. Testing a two-level description
  240.    5.1 Types of errors in two-level descriptions
  241.    5.2 Strategies for debugging a two-level description
  242. 6. A sampler of two-level rules
  243.    6.1 Assimilation
  244.    6.2 Deletion
  245.    6.3 Insertion
  246.    6.4 Nonconcatenative processes
  247.        [gemination, metathesis, infixation, reduplication]
  248. 7. Reference manual
  249.    7.1 Introduction and technical specifications
  250.    7.2 Installing PC-KIMMO
  251.    7.3 Starting PC-KIMMO
  252.    7.4 Entering commands and getting on-line help
  253.    7.5 Command reference by function
  254.    7.6 Alphabetic list of commands
  255.    7.7 File formats
  256.    7.8 Trace formats
  257.    7.9 Algorithms
  258.    7.10 Error messages
  259. Appendix A. Developing a description of English
  260. Appendix B. Other applications of the two-level processor, by G. Simons
  261. Appendix C. Using the PC-KIMMO functions in a C program, by S. McConnel
  262. References
  263. Index
  264.  
  265.  
  266. HOW TO GET PC-KIMMO FOR FREE
  267.  
  268. For those who would like to try out PC-KIMMO for free, it is available on 
  269. various ftp archives or bulletin boards.  
  270.  
  271. The IBM (MS-DOS) version is available from these sites:
  272.  
  273.      wsmr-simtel20.army.mil [192.88.110.20] pd1:<msdos.linguistics>pckimmo.zip
  274.  
  275. The Macintosh version is available from:
  276.  
  277.      nic.funet.fi [128.214.6.100]
  278.  
  279.  
  280. HOW TO CONTACT US
  281.  
  282. PC-KIMMO is a research project in progress, not a finished
  283. commercial product. In this spirit, we invite your response to
  284. the software and the book. Please direct your comments to:
  285.  
  286.     Academic Computing Department
  287.     PC-KIMMO project
  288.     7500 W. Camp Wisdom Road
  289.     Dallas, TX 75236
  290.     U.S.A.
  291.  
  292.     phone: 214/709-2418
  293.  
  294.     email: evan@sil.org (Evan Antworth)
  295.  
  296.  
  297. REFERENCES
  298.  
  299. Antworth, Evan L. 1990. PC-KIMMO: a two-level processor for
  300.     morphological analysis. Occasional Publications in Academic
  301.     Computing No. 16. Dallas, TX: Summer Institute of Linguistics.
  302.     ISBN 0-88312-639-7, 273 pages, paperbound.
  303.  
  304. Karttunen, Lauri. 1983. KIMMO: a general morphological processor.
  305.     Texas Linguistic Forum 22:163-186.
  306.  
  307. Koskenniemi, Kimmo. 1983. Two-level morphology: a general
  308.     computational model for word-form recognition and production.
  309.     Publication No. 11. University of Helsinki: Department of
  310.     General Linguistics.
  311.  
  312.  
  313. ------------------------------------------------------------------------
  314.  
  315. PC-KIMMO Order Form
  316.  
  317.   Qty |                       |  Price   | Total
  318. --------------------------------------------------
  319.       | PC-KIMMO book+disk    |  $23.00  |
  320.       |                       |          |
  321.       | Texas residents add   |          |
  322.       |  8% sales tax         |          |
  323.       |                       |          |
  324.       | Shipping and Handling |          |
  325.       |     USA               |  $2.50   |
  326.       |     Foreign (surface) |  $3.00   |
  327.       |     Foreign (airmail) |  $8.00   |
  328. --------------------------------------------------
  329.                           Total amount:
  330.  
  331.  
  332. Important: Checks must be drawn on a U.S. bank. Sorry, no credit cards.
  333.  
  334.  
  335. Specify version and disk format desired:
  336.   ___ 5.25" 360K MS-DOS (IBM PC)
  337.   ___ 3.5"  720K MS-DOS (IBM PC)
  338.   ___ 3.5"  800K Macintosh
  339.   ___ UNIX (You *must* also specify one of the above three versions.
  340.             UNIX source files will be sent on 5.25" 360K MS-DOS
  341.             diskettes unless you request otherwise.)
  342.  
  343.  
  344. Name
  345.  
  346. Institution
  347.  
  348. Address
  349.  
  350.  
  351.  
  352.  
  353.  
  354. Send this order form to the address below. Either enclose payment or ask
  355. to be billed by invoice. Phone and Fax orders also accepted.
  356.  
  357.         International Academic Bookstore
  358.         7500 W. Camp Wisdom Road
  359.         Dallas, TX  75236
  360.         U.S.A.
  361.  
  362.         phone: 214/709-2404
  363.         fax:   214/709-2433
  364.  
  365. ------------------------------------------------------------------------
  366.