home *** CD-ROM | disk | FTP | other *** search
/ Chip 2003 November / Chip_2003-11_cd1.bin / redakce / chip_txt / txt / 101.txt < prev    next >
Text File  |  2003-09-28  |  5KB  |  18 lines

  1. Mßte n∞co proti spamu? 
  2. Jß ano - bayesißnsk² filtr. Vy jej m∙₧ete mφt takΘ, Mac OS X jej nabφzφ v rßmci standardnφho systΘmovΘho poÜtovnφho klienta. Krom∞ toho je k dispozici °ada °eÜenφ pro jinΘ systΘmy: SpamAssassin, CRM114, SpamSieve a mnoho dalÜφch. 
  3.  
  4. BayesißnskΘ filtry jsou daleko ·sp∞Ün∞jÜφ p°i rozpoznßvßnφ spamu ne₧ tradiΦnφ metody zalo₧enΘ na fixnφch pravidlech. Co je jeÜt∞ d∙le₧it∞jÜφ, tΘm∞° nikdy neoznaΦφ "poctivouÄ zprßvu za spam. Jejich dalÜφ v²hodou je to, ₧e tak°ka neexistuje zp∙sob, jak spam bayesißnsk²m filtrem "protlaΦitÄ (podrobn² rozbor je nap°. na www.paulgraham.com/better.html). Na trhu je dnes °ada voln∞ dostupn²ch i komerΦnφch bayesißnsk²ch filtr∙. Firma Apple mß svou vlastnφ implementaci - bohu₧el nemßm k dispozici statistiku, je₧ by filtr Apple srovnßvala s ostatnφmi. Mohu jen z vlastnφ zkuÜenosti uvΘst, ₧e je velmi kvalitnφ. V novΘ verzi 10.3 systΘmu OS X je °ada novinek a vylepÜenφ; tato vylepÜenφ se nevyhnula ani spamovΘmu filtru. V Pantheru je nynφ mo₧nΘ vyu₧φt a dßle rozÜi°ovat tabulky, je₧ anal²zou spamu vytvo°ily jinΘ filtrovacφ systΘmy. Aplikace Mail takΘ nynφ umo₧≥uje zakßzat automatickΘ naΦφtßnφ obrßzk∙ v HTML. To je v²znamn² prvek obrany proti spamer∙m, proto₧e n∞kte°φ z nich podle p°φstupu k odkaz∙m automaticky vyhodnocujφ ·sp∞Ünost spam∙ a podle nφ automaticky generujφ novΘ.  
  5.  
  6. O co v∙bec jde 
  7. BayesißnskΘ filtry jsou zalo₧eny na statistice - filtr prost∞ rozd∞lφ zprßvu na jednotlivß slova. Na zßklad∞ existujφcφ knihovny "sluÜn²ch zprßvÄ a spamu pro ka₧dΘ slovo zjistφ pravd∞podobnost jeho v²skytu v b∞₧nΘ zprßv∞ i pravd∞podobnost jeho v²skytu ve spamu. Zbytek je jednoduch²: u nov∞ p°ijatΘ zprßvy se zjistφ pravd∞podobnosti slov, je₧ zprßva obsahuje. Vyberou se z nich ta "nejspamov∞jÜφÄ a "nejnespamov∞jÜφÄ a vyhodnotφ se celkovß pravd∞podobnost toho, ₧e jde o spam. Neutrßlnφ slova, je₧ se stejn∞ Φasto vyskytujφ ve spamu i ve sluÜn²ch zprßvßch, se ignorujφ. 
  8. Bayesißnsk² filtr pracuje ve dvou fßzφch: v tΘ prvnφ se "uΦφÄ, vyhodnocuje statistiky slov ve zprßvßch, o nich₧ je znßmo, zda jde o spam, nebo ne. Ve druhΘ fßzi pak tuto statistiku vyu₧φvß pro odliÜenφ sluÜn²ch zprßv a spam∙. Z u₧ivatelskΘho hlediska nemusejφ b²t fßze jasn∞ odd∞leny - filtr m∙₧e b²t nainstalovßn ji₧ se zßkladnφ databßzφ slov, podle nφ₧ m∙₧e rozeznßvat spam od ostatnφch zprßv hned od samΘho zaΦßtku. UΦit se pak bude podle toho, jak bude u₧ivatel jeho Φinnost pr∙b∞₧n∞ korigovat.  
  9.  
  10. Srovnßnφ s klasick²mi filtry 
  11. KlasickΘ antispamovΘ filtry vyu₧φvajφ °adu p°eddefinovan²ch pravidel nap°φklad: obsahuje-li zprßva slovo "viagra", jde o spam, nebo pokud zprßva p°iÜla ze systΘmu s IP adresou 1.2.3.4, budeme ji pova₧ovat za spam (proto₧e dotyΦn² systΘm je Φasto zneu₧φvßn spamery). Nev²hodou filtr∙ zalo₧en²ch na takovΘto sad∞ pravidel je to, ₧e je nesmφrn∞ snadnΘ je obejφt - spame°i budou psßt "viagra " (prolo₧en∞) nebo t°eba "ta v∞c na zlepÜenφ potence od v"; v e-mailech vyu₧φvajφcφch formßt HTML budou do slov vklßdat "neviditelnΘÄ tagy. Zßrove≥ existuje pom∞rn∞ vysokΘ riziko, ₧e zcela poctivß zprßva bude omylem rozeznßna jako spam - staΦφ, aby t°eba zßkaznφk pou₧il p°i popisu cesty "Viagra klubÄ jako orientaΦnφ bod, a zprßva nedojde. V tomto sm∞ru je samoz°ejm∞ v∙bec nejhorÜφ tzv. blacklisting, tj. prßv∞ udr₧ovßnφ seznam∙ "Üpatn²chÄ systΘm∙ a oznaΦovßnφ vÜech zprßv, je₧ z nich p°ijdou, za spam. 
  12. BayesißnskΘ filtry zalo₧enΘ na statistice t∞mito problΘmy netrpφ. Pokud se ve spamech zaΦne objevovat jakßkoli transkripce nebo opis "nebezpeΦnΘhoÄ slova, bayesißnsk² filtr to poznß na sv²ch statistikßch a bude i nadßle rozliÜovat spam sprßvn∞. Vklßdßnφ neviditeln²ch tag∙ a odd∞lovaΦ∙ takΘ nepom∙₧e - mφsto cel²ch slov se do statistik dostanou jejich Φßsti a takΘ samotnΘ neviditelnΘ tagy a odd∞lovaΦe! A naopak, bayesißnsk² filtr automaticky rozpoznß slova, je₧ se Φasto vyskytujφ ve sluÜn²ch zprßvßch, a pou₧ije je pro identifikaci dalÜφch zprßv, je₧ tato slova obsahujφ, jako "nespamu". 
  13. Pokud se statistiky aplikujφ nejen na vlastnφ text zprßvy, ale i na jejφ hlaviΦku, funguje filtr navφc automaticky i jako blacklist - jestli₧e statistika ukß₧e, ₧e se urΦit² konkrΘtnφ odesilatel vyskytuje ve spoust∞ spam∙, zdvihne v²skyt tohoto odesilatele pravd∞podobnost, ₧e jde o dalÜφ spam. Na druhou stranu vÜak zde (tΘm∞°) nehrozφ "odst°elenφÄ sluÜnΘ zprßvy jen proto, ₧e p°iÜla ze ÜpatnΘho serveru: "nespamovß" slova v jejφm obsahu toti₧ pravd∞podobnost zase snφ₧φ, tak₧e se zprßva jako celek dostane pod prßh urΦujφcφ spam. 
  14. Velmi podstatnß v²hoda bayesißnsk²ch filtr∙ spoΦφvß v tom, ₧e jejich statistiky jsou individußlnφ pro ka₧dΘho u₧ivatele. Spame°i mohou snadno zjistit, ₧e Üiroce u₧φvanΘ filtry vy°adφ "viagru", "penis" a podobn∞, a t∞mto slov∙m se vyhnout. Pro oklamßnφ bayesißnskΘho filtru vÜak spamer musφ sestavit zprßvu, je₧ vyu₧φvß stejnou slovnφ zßsobu a stejnΘ v²razovΘ prost°edky jako sluÜnΘ texty, je₧ ten kter² u₧ivatel b∞₧n∞ dostßvß. To je - p°i rozesφlßnφ spamu milion∙m u₧ivatel∙ - na hranici nemo₧nosti. 
  15. DalÜφ v²hodou bayesißnsk²ch filtr∙ je to, ₧e sni₧ujφ ·Φinnost spam∙ - jestli₧e se spame°i musejφ vzdßt v²razn²ch slov, ost°e Φerven²ch a blikajφcφch titulk∙ a podobn∞, aby svΘ zprßvy "skrz" statistickΘ filtry dostali k u₧ivatel∙m, bude na n∞ reagovat mΘn∞ lidφ. Tφm se samoz°ejm∞ snφ₧φ v²nosnost spamovßnφ - tak₧e spamu celkov∞ bude mΘn∞. 
  16. Ond°ej ╚ada, ocs@ocs.cz 
  17.  
  18.