home *** CD-ROM | disk | FTP | other *** search
/ NetNews Usenet Archive 1993 #3 / NN_1993_3.iso / spool / sci / crypt / 7116 < prev    next >
Encoding:
Internet Message Format  |  1993-01-24  |  1.5 KB

  1. Path: sparky!uunet!spool.mu.edu!agate!usenet.ins.cwru.edu!po.CWRU.Edu!mag6
  2. From: mag6@po.CWRU.Edu (Martin A. Gulaian)
  3. Newsgroups: sci.crypt
  4. Subject: Re: Automatic lang. determination of titles/subj. lines?
  5. Date: 24 Jan 1993 03:17:33 GMT
  6. Organization: Case Western Reserve University, Cleveland, OH (USA)
  7. Lines: 23
  8. Message-ID: <1jt1odINNhqe@usenet.INS.CWRU.Edu>
  9. References: <1993Jan20.163448.17017@daimi.aau.dk>
  10. Reply-To: mag6@po.CWRU.Edu (Martin A. Gulaian)
  11. NNTP-Posting-Host: slc5.ins.cwru.edu
  12.  
  13.  
  14. In a previous article, lhp@daimi.aau.dk (Lasse Hiller|e Petersen) says:
  15. >> Rather than reinventing the wheel, I'd like to know whether someone knows
  16. >> of a program for the automatic determination of the language of short
  17. >> sentences, titles or subject lines.
  18. >> 
  19. >> Given a short piece of text, the program should output a (list of)
  20. >> language(s) which the text is most likely to be in.
  21. >> 
  22. >> I think such a program could be based on the frequencies of syllables
  23. >> or letter-pairs/triplets. Are there any good data collections of such
  24. >> frequencies, at least for the European languages?
  25.  
  26. I can vouch for the approach - I wrote just such a program for a class
  27. six or seven years ago. I fed it text in English/French/Spanish/German
  28. and let it calculate the pair/triplet/whatever (it was selectable, I
  29. think triplets and pairs both worked well) frequencies. It worked
  30. very well - pretty much 100% accuracy on sentence-length samples of
  31. unknown language, unless I deliberately tried to fool it.
  32.  
  33. I don't know where the source code ended up; it was in Prolog anyway.
  34.  
  35. -Marty
  36.