home *** CD-ROM | disk | FTP | other *** search
/ Chip 2005 June / CHIP_CD_2005-06.iso / bonus / ds / files / dtSearchEval650.exe / dtSearchDesktop.msi / Data1.cab / F1351_Stemming.dat < prev    next >
Encoding:
Text File  |  1999-11-22  |  2.5 KB  |  81 lines

  1. 3+ies  -> y
  2. 3+ing  ->
  3. 4+ness ->
  4. ss     -> ss
  5. 3+s    ->
  6. 4+ion  ->
  7. 4+ism  ->
  8. 4+ly   ->
  9. 3+eed  -> ee
  10. 4+ied  -> y
  11. 4+ed   ->
  12. 4+er   ->
  13. 4+ful  ->
  14. 4+able ->
  15. 4+ible ->
  16. 3+v    -> f
  17. 4+e    ->
  18. 3+dd   -> d
  19. 3+gg   -> g
  20. 3+ll   -> l
  21. 3+mm   -> m
  22. 3+nn   -> n
  23. 3+pp   -> p
  24. 3+rr   -> r
  25. 3+ss   -> s
  26. 3+tt   -> t
  27. ------------------------------------------------------------------
  28. Customized Stemming
  29. ===================
  30.  
  31.     Stemming rules vary from one language to another.  dtSearch
  32. includes a set of stemming rules designed to work with English. 
  33. These rules are in the file STEMMING.DAT.  If you need to
  34. implement stemming for a different language, or you want to
  35. modify the English stemming rules, you can create a new set of
  36. stemming rules to be used in place of STEMMING.DAT.
  37.  
  38.     Stemming rules consist of a series of lines like this:
  39.  
  40.      3+ies -> Y
  41.      4+ing ->
  42.      
  43.     The first rule would convert any word with three or more letters
  44. followed by ies to the same initial letters followed by y.
  45. "Applies" would turn into "apply".
  46.  
  47.     The second rule would remove the "ing" from any word with four or
  48. more letters followed by "ing".  "Fishing" would turn into "fish", but
  49. "sing" would not change.
  50.  
  51.     In general, a rule consists of: a minimum number of letters (not
  52. including the suffix), a + sign, a suffix to be removed, an arrow
  53. (->) and the replacement for the suffix, if any.  Stemming rules
  54. must use lower-case letters only.  Up to 100 stemming rules can be
  55. included in a stemming.dat file.
  56.  
  57.     When stemming a word, dtSearch will look at each rule in order
  58. until it finds one that applies.  If it finds a rule, dtSearch
  59. will apply the rule and then start over, repeating the process
  60. until the word does not change. The result is the "stem" of the
  61. original word.
  62.  
  63.     Sometimes you may want to create a rule with an exception.  For
  64. example, suppose you want to remove a trailing "s" in a word,
  65. unless the word ends in "ss".  To do this, you would use these two
  66. rules:
  67.  
  68.      3+ss -> ss
  69.      3+s  ->
  70.      
  71.     If a word ends in "ss", dtSearch will never get past the first rule
  72. and will give up stemming the word because the rule "3+ss -> ss"
  73. does not change the word.  Only words not ending in "ss" will get
  74. to the next rule, which removes the trailing "s".
  75.  
  76.     Setting up stemming rules can be somewhat tricky.  To help,
  77. dtSearch includes the STEMTEST utility.  STEMTEST will allow you
  78. to try out your stemming rules, entering words and seeing what
  79. the resulting stem words are.
  80.  
  81.