home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1992 #27 / NN_1992_27.iso / spool / swnet / general / 137 < prev    next >
Encoding:
Text File  |  1992-11-19  |  9.6 KB  |  241 lines

  1. Newsgroups: swnet.general
  2. Path: sparky!uunet!mcsun!sunic!nobeltech!admin.kth.se!ojarnef
  3. From: ojarnef@admin.kth.se (Olle Jarnefors)
  4. Subject: Re: soundex for svenska
  5. Message-ID: <1992Nov19.192626.3536@admin.kth.se>
  6. Summary: Varf|r den engelska Soundex-metoden {r omodern. F|rslag
  7.  till uppslagsform f|r svenska personnamn som bas f|r s|kning och
  8.  sortering.
  9. Keywords: s|kning, sortering, personnamn, svenska, engelska, soundex
  10. Organization: Royal Institute of Technology, Sweden
  11. References: <1992Oct21.011121.17560@kth.se> <KEISU.92Oct21082529@lludd.sics.se> <1992Oct21.123229.16866@dynas.se> <1992Oct21.091607.16413@linkoping.trab.se> 
  12. Distribution: swnet
  13. Date: Thu, 19 Nov 1992 19:26:26 GMT
  14. Lines: 225
  15.  
  16. F|r ungef{r en m}nad sedan diskuterades Soundex-algoritmen och
  17. behovet av n}got liknande f|r svenska h{r i swnet.general. Jag
  18. har funderat lite mer p} detta. Eftersom de ursprungliga
  19. artiklarna s{kert {r o}tkomliga f|r de flesta citerar jag valda
  20. delar av den tidigare diskussionen.
  21.  
  22. > Newsgroups: swnet.general
  23. > From: keisu@sics.se (Torbj|rn Keisu)
  24. > Subject: Re: soundex for svenska
  25. > Message-ID: <KEISU.92Oct21082529@lludd.sics.se>
  26. > Date: Wed, 21 Oct 1992 07:25:28 GMT
  27. > In article <1992Oct21.011121.17560@kth.se> psv@cyklop.nada.kth.se (Peter Svanberg) writes:
  28. >    >[r det n}gon som har en "soundex"-algorithm f|r svenska?
  29. > >   Detta begrepp har jag h|r flera g}nger men {nnu har jag inte
  30. > >   f}tt reda p} vad det *{r* f|r n}got. Kan du eller n}gon annan
  31. > >   ber{tta kort och/eller h{nvisa till dokument som beskriver det?
  32. > Soundex-algoritmen {r t{nkt att l|sa problemet med ord som uttalas ungef{r
  33. > lika men stavas olika. Detta {r d} speciellt anv{ndbart vid s|kning i namn-
  34. > register. 
  35. > Ex Andersson, Anderson, Andersohn uttalas ju lika men {r syntaktiskt olika.
  36. > Algoritmen bygger p} att ett numeriskt v{rde ber{knas f|r ett ord och ord som
  37. > l}ter lika f}r d{rmed lika v{rde. V{rdet f|r ordet {r en summa av v{rdena f|r
  38. > de ing}ende bokst{verna med lite variation f|r speciella kombinationer, ex
  39. > inledande H r{knas men ej H efter konsonanter eller ngt liknande. 
  40. > Grundv{rdena i soundex blir av naturen beroende p} m}lspr}ket.
  41. > Jag tror att det var Knuth som f|rst beskrev algoritmen i en av sina "Art"
  42. > volymer.
  43.  
  44. Amerikanskt patent (!) togs p} metoden 1918 (!!) enligt Knuth.
  45. Anv{ndingsomr}det {r s|kning av engelska efternamn.
  46.  
  47. > -- Tyv{rr ingen p} svenska, skrev en en g}ng i tiden men den har f|rsvunnit i
  48. >    ett forntidst|cken och det hj{lper ju ingen....
  49.  
  50. Om en svensk soundex {r en bra ide' s} b|r den standardiseras.
  51. Bara dumt om olika programmerare implementerar var sin
  52. sj{lvp}hittad transformation.
  53.  
  54. > Newsgroups: swnet.general
  55. > From: russin@dynas.se (Peter Rostin)
  56. > Subject: Re: soundex for svenska
  57. > Message-ID: <1992Oct21.123229.16866@dynas.se>
  58. > Date: Wed, 21 Oct 1992 12:32:29 GMT
  59. > Algoritmen finns beskriven i Knuths "Sorting and Searching" sidan 391-392.
  60. > Naturligtvis endast i engelsk version. Kanske man kan behandla }{| som de
  61. > andra vokalerna?
  62.  
  63. Nej, s} enkelt {r det inte. Transformationen {r gjord f|r
  64. engelska efternamn och fungerar d}ligt p} svenska namn. I
  65. engelska finns det till exempel inga par av begynnelsevokaler
  66. som {r n{stan ekvivalenta. I svenska {r "e" och "{" n{stan
  67. ekvivalenta.
  68.  
  69. > From: ath@linkoping.trab.se (Anders Thulin)
  70. > Newsgroups: swnet.followup
  71. > Subject: Re: soundex for svenska
  72. > Message-ID: <1992Oct21.091607.16413@linkoping.trab.se>
  73. > Date: 21 Oct 92 09:16:07 GMT
  74. > Soundex {r en sort hash-algoritm som funkar p} engelska ord. Den
  75. > jobbar p} ett s}dant s{tt att ord som `l}ter lika' men stavas olika
  76. > skall hashas till samma v{rde. Den funkar r{tt v{l, men b|rjar bli
  77. > litet gammal.
  78.  
  79. I och f|r sig {r det inget fel hos en metod att den {r gammal om
  80. den bara {r bra. Aristoteles syllogismer {r fortfarande giltiga
  81. slutledningsm|nster till exempel.
  82.  
  83. > En bra svensk 'soundex' b|r innefatta n}gon sorts |vers{ttning
  84. > fr}n skrivet ord till fonetisk form. Riktig Soundex {r ganska
  85. > primitiv, s} det borde v{l inte vara om|jligt att snickra till.
  86.  
  87. Ett argument mot Soundex (Knuth skriver med stor
  88. begynnelsebokstav, s} det m}ste vara r{tt) kan d{remot vara att
  89. den {r ineffektiv. Knuth p}pekar bland annat att Soundex
  90. -- } ena sidan ger _samma_ kod f|r Ellery, Ghosh, Heilbronn,
  91.    Kant, Ladd och Lissajous (av vilka i alla fall tre {r typiskt
  92.    engelska efternamn)
  93. -- } andra sidan ger _olika_ kod f|r Rogers och Rodgers.
  94.  
  95. Orsaken till Soundex ineffektivitet ocks} f|r engelska namn {r
  96. givetvis att algoritmen {r s} enkel och anledningen till det {r
  97. att den konstruerades p} 1910-talet f|r att snabbt kunna utf|ras
  98. i huvudet av de _m{nniskor_ som registrerade
  99. personnamnsuppgifter. Med en _dator_ kan f|rst}s en mycket
  100. sofistikerad algoritm exekveras mycket snabbare.
  101.  
  102. Svensk stavning {r mycket mer regelbunden {n engelsk, {ven f|r
  103. folks efternamn. Den speciella frihet som folk tar sig i
  104. stavningen av sitt eget efternamn har ganska sn{va ramar. Jag
  105. t{nker allts} p} s}dana variantstavningar som Eriksson, Erikson,
  106. Ericsson, Ericson, Erickson, Erichson, Erixon, Erickzohn,
  107. Erikssson (det finns faktiskt tre personer med _den_ stavningen
  108. i telefonkatalogens Stockholmsdel, under den n}got missvisande
  109. rubriken "Erikssons etc").
  110.  
  111. Jag tror d{rf|r att en svensk metod f|r att ber{kna en fonetisk
  112. namnform inte beh|ver bli s{rskilt komplicerad och {nd} kan bli
  113. mycket effektivare {n Soundex {r f|r engelska namn.
  114.  
  115. Denna metod b|r inte reducera till exempel Eriksson-varianterna
  116. till n}got s} simpelt som Soundex g|r, "E625", utan b|r ge den
  117. fonetiska formen "Erikson". (Soundex g}r antagligen s} l}ngt i
  118. namnf|renkling f|r att den utformades med tanke p} helt manuell
  119. generering, sortering och s|kning av Soundex-formen.)
  120.  
  121. En svensk metod som genererar en fullst{ndig namnform med helt
  122. enhetlig, fonetiskt riktig stavning skulle passa utm{rkt f|r
  123. _helt automatiserad_ sortering av st|rre namnregister, ja {ven
  124. s} stora som telefonkatalogens Stockholmsdel. (Ett detaljstudium
  125. av telefonkatalogen visar m}nga inkonsekventa samsorteringar och
  126. s{rsorteringar av samma namn stavade p} olika s{tt, s} det
  127. manuella inslaget i "telefonkatalogssortering" {r nog
  128. fortfarande avsev{rt.)
  129.  
  130. H{r {r ett utkast till en s}dan algoritm f|r ber{kning av
  131. "UPPSLAGSFORM F\R SVENSKA PERSONNAMN", avsedd b}de f|r s|kning
  132. och sortering:
  133.  
  134. Steg 1: Versaler ers{tts med motsvarande gemena bokstav.
  135.  
  136. Steg 2: Dessa teckentransformationer kan appliceras i valfri
  137. ordning. (De uttrycker i de flesta fall s}dana f|renklingar som
  138. alltid utf|rs vid svensk sortering enligt sedan l{nge vedertagna
  139. regler.)
  140. 2a)  w    -> v
  141. 2b)  <u"> -> y
  142. 2c)  <o/> -> |
  143. 2d)  <ss> -> ss
  144. 2e)  <ae> -> ae
  145. 2f)  <oe> -> oe
  146. 2g)  <eth> -> d
  147. 2h)  <thorn> -> th
  148. 2i)  Borttagning av accenter och liknande utom p} }, {, | och <u">.
  149. 2j)  <bindestreck> -> <SP>
  150.  
  151. Steg 3: Dessa transformationer av delstr{ngar utf|rs fr}n
  152. v{nster till h|ger i namnet. De olika transformations-
  153. alternativen b|r pr|vas i den ordning de anges h{r.
  154. 3a)  chr -> kr
  155.             (t ex Christiansson, Enochsson)
  156. 3b)  ch  -> ch (annars)
  157.             (t ex Chen, Chapman)
  158. 3c)  ck  -> k
  159. 3d)  c   -> k (i |vrigt om f|re a, o, u, } eller konsonant eller sist)
  160. 3e)  c   -> s (annars)
  161. 3f)  f   -> f (f|re vokal)
  162.             (t ex Fors)
  163. 3g)  f   -> v (annars)
  164.             (t ex Staf, L|fquist)
  165. 3h)  th  -> t
  166.             (t ex Thorsson)
  167. 3i)  hj  -> hj
  168.             (t ex Hjalmarsson)
  169. 3j)  h   -> h (f|re vokal)
  170. 3k)  h   -> <nil> (annars)
  171.             (t ex Hveen, Ahlstr|m)
  172. 3l)  ph  -> f
  173.             (det g}r }t pipan med Schiphorst, men s}dana namn som
  174.             Philipsson {r vanligare)
  175. 3m)  q   -> k
  176. 3n)  x   -> ks
  177.             (t ex Erixon)
  178. 3o)  {r  -> {r
  179.             (t ex K{rnstr|m)
  180. 3p)  {y  -> {y
  181.             (typiskt f|r finska namn som H{yrinen)
  182. 3q)  {{  -> {{
  183.             (typiskt f|r finska och estniska namn, t ex H{{tyla, K{{rik)
  184. 3r)  {   -> e (annars)
  185.             (t ex S{llberg)
  186.  
  187. Steg 4:
  188. 4a)  F|ljder av samma konsonant ers{tts med ett exemplar av den.
  189. 4b)  F|ljder av samma vokal beh}lls.
  190.      (Beh|vs f|r finska namn som Kuusinen, tyv{rr blir det d}
  191.      olika sorteringsv{rde f|r t ex Wik och Wiik, Sten och
  192.      Steen etc.)
  193.  
  194. Ytterligare kommentarer:
  195.  
  196. Ett stort problem {r att man till exempel nog letar efter m}nga
  197. utl{ndskt klingande efternamn som b|rjar med c p} bokstaven c,
  198. till exempel Cabrera, Cernik, Charmak, liksom {ven vissa
  199. svensk-klingande, som Cederholm.
  200.  
  201. Det verkar i stort s{tt hoppl|st att sortera samman namn med
  202. tj-ljud. Ta till exempel Kiell, Kjell, Kj{ll, K{ll eller
  203. K{rnstr|m, Tjernstr|m, Tj{rnstr|m. Den r|ra som }terfinns i
  204. telefonkatalogen, 08-delen, n{r det g{ller den h{r typen av namn
  205. {r magnifik!
  206.  
  207. Problemen med j-ljudet {r att stavningen i vissa fall {r mycket
  208. obest{md:
  209.    Gerling, Gjerling, G{rling, Gj{rling, Hjerling, Jerling,
  210.    J{rling
  211. i andra fall mycket fast:
  212.    Djup, Hjort
  213.  
  214. De vanligaste efternamnen som b|rjar med z stavas bara s{llan
  215. med s och man letar d{rf|r troligen f|rst under z: Zachrisson,
  216. Zetterberg, Zettergren, Zetterlund etcetera. Dessutom finns ett
  217. stort antal utl{ndskt klingande namn som b|rjar p} z.
  218.  
  219. Betr{ffande b{sta sortering av ae-lgaturen lutar jag }t att den
  220. b|r uppl|sas p} samma s{tt som oe-ligaturen, inte ers{ttas med
  221. { (eller e). Dels {r det ju vad bokstavens grafiska form pekar
  222. p}, dels verkar det vara s} man g|r med <ae> i efternamn i
  223. telefonkatalogen, dels anv{nds den i latiniserade efternamn av
  224. typ Nybl<ae>us, d{r de andra alternativen {r onaturliga. Om man
  225. i 08-delen av telefonkatalogen tittar p} Jaeger, st}r d{r
  226. blandat Jaeger och J<ae>ger, med en h{nvisning till J{ger.
  227.  
  228. --
  229. Olle J{rnefors                         SUNET & EUNET: ojarnef@admin.kth.se
  230. KTH, TS-Data                           EARN: ojarnef@sekth
  231. (Drottning Kristinas v{g 37 B, 1 tr)   Fax:  08-10 25 10
  232. 100 44  STOCKHOLM                      Tel:  08-790 71 26  Telex: 11421 KTH S
  233.