home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / comp / lang / perl / 7973 < prev    next >
Encoding:
Internet Message Format  |  1993-01-24  |  2.7 KB

  1. Path: sparky!uunet!uunet.ca!ecicrl!clewis
  2. From: clewis@ferret.ocunix.on.ca (Chris Lewis)
  3. Newsgroups: comp.lang.perl
  4. Subject: Re: SOUNDEX pattern matching
  5. Keywords: soundex, perl
  6. Message-ID: <4173@ecicrl.ocunix.on.ca>
  7. Date: 24 Jan 93 09:10:37 GMT
  8. References: <1993Jan23.184532.4933@netcom.com> <1jsco2INN4dd@slab.mtholyoke.edu> <1993Jan24.010737.5908@netcom.com>
  9. Organization: Elegant Communications Inc., Ottawa, Canada
  10. Lines: 53
  11.  
  12. In article <1993Jan24.010737.5908@netcom.com> jfh@netcom.com (Jack Hamilton) writes:
  13. >In article <1jsco2INN4dd@slab.mtholyoke.edu> jbotz@mtholyoke.edu (Jurgen Botz) writes:
  14. >>In article <1993Jan23.184532.4933@netcom.com> jfh@netcom.com (Jack Hamilton) writes:
  15. >>>Soundex is very useful.  It's used almost exclusively for English proper
  16. >>>names, I believe.
  17.  
  18. >>Uh, that makes it pretty useless in the USA and elsewhere in the world
  19. >>except England.  
  20.  
  21. I know that US English isn't the same as English English, but it's not that
  22. far off ;-)
  23.  
  24. As one particular example of a name that I don't think is english:
  25.  
  26. butz -> B3200000
  27. botz -> B3200000
  28. buts -> B3200000
  29. bots -> B3200000
  30. boods -> B3200000
  31. booze -> B2000000
  32.  
  33. Not bad.
  34.  
  35. >It's not designed to do all things for all people, but a lot of personal
  36. >names in the USA and England *are* English proper names as well as english
  37. >proper names (you left out English-speaking Canada, Australia, and New 
  38. >Zealand, along with a host of other places where English is a primary
  39. >language).
  40.  
  41. >The algorithm would handle some non-English names correctly (spanish/
  42. >portuguese Jose, for example), but not all of them (french Louis, for
  43. >example). 
  44.  
  45. Does "louis" fine - matches "lewis" as it should.  Especially the way
  46. most Americans pronounce "louis" ;-)
  47.  
  48. You're being unduly harsh on soundex.  Soundex isn't supposed to provide
  49. EXACT sound-alike, it produces "probably sounds reasonably similar".
  50. Producing exact sound-alike is not something that can be done in a couple
  51. of lines of code - good "text-to-phoneme" translators (an equivalent
  52. task) have hundreds or thousands of rules, and will fail almost immediately
  53. when presented with foreign words with different pronunciation rules.
  54.  
  55. In contrast, soundex is a simple mechanism that works reasonably well with
  56. any language that uses something approaching english pronunciation.  Ie:
  57. names transliterated by sound into roman alphabet spellings.  Especially
  58. if you get the first letter right.  Though, it's not that hard to add
  59. some special overrides, like leading "kn" -> "n" - it's bad when you
  60. handle "knuth" wrong ;-)
  61. -- 
  62. Chris Lewis; clewis@ferret.ocunix.on.ca; Phone: Canada 613 832-0541
  63. Psroff 3.0 info: psroff-request@ferret.ocunix.on.ca
  64. Ferret list: ferret-request@ferret.ocunix.on.ca
  65.