home *** CD-ROM | disk | FTP | other *** search
/ Chip 2011 November / CHIP_2011_11.iso / Programy / Narzedzia / Calibre / calibre-0.8.18.msi / file_280 / gazeta_pomorska.recipe < prev    next >
Text File  |  2011-09-09  |  6KB  |  105 lines

  1. #!/usr/bin/env  python
  2.  
  3. # # Przed uzyciem przeczytaj komentarz w sekcji "feeds"
  4.  
  5. __license__   = 'GPL v3'
  6. __copyright__ = u'2010, Richard z forum.eksiazki.org'
  7. '''pomorska.pl'''
  8.  
  9. import re
  10. from calibre.web.feeds.news import BasicNewsRecipe
  11.  
  12. class GazetaPomorska(BasicNewsRecipe):
  13.     title          = u'Gazeta Pomorska'
  14.     publisher      = u'Gazeta Pomorska'
  15.     description    = u'Kujawy i Pomorze - wiadomo\u015bci'
  16.     language       = 'pl'
  17.     __author__     = u'Richard z forum.eksiazki.org'
  18.                       # # (dziekuje t3d z forum.eksiazki.org za testy)
  19.     oldest_article = 2
  20.     max_articles_per_feed = 20
  21.     no_stylesheets = True
  22.     remove_javascript = True
  23.     preprocess_regexps     = [
  24.          (re.compile(r'<a href="http://maps.google[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''),
  25.          (re.compile(r'[<Bb >]*Poznaj opinie[^<]*[</Bb >]*[^<]*<a href[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''),
  26.          (re.compile(r'[<Bb >]*Przeczytaj[^<]*[</Bb >]*[^<]*<a href[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''),
  27.          (re.compile(r'[<Bb >]*Wi.cej informacji[^<]*[</Bb >]*[^<]*<a href[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''),
  28.          (re.compile(r'<a href[^>]*>[<Bb >]*Wideo[^<]*[</Bb >]*[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''),
  29.          (re.compile(r'<a href[^>]*>[<Bb >]*KLIKNIJ TUTAJ[^<]*[</Bb >]*[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: '')
  30.       ]
  31.  
  32.     feeds = [
  33. # # Tutaj jest wymieniona lista kategorii jakie mozemy otrzymywac z Gazety
  34. # # Pomorskiej, po jednej kategorii w wierszu. Jesli na poczatku danego wiersza
  35. # # znajduje sie jeden znak "#", oznacza to ze kategoria jest zakomentowana
  36. # # i nie bedziemy jej otrzymywac. Jesli chcemy ja otrzymywac nalezy usunac
  37. # # znak # z jej wiersza.
  38. # # Jesli subskrybujemy wiecej niz jedna kategorie, na koncu wiersza z kazda
  39. # # kategoria musi sie znajdowac niezakomentowany przecinek, z wyjatkiem
  40. # # ostatniego wiersza - ma byc bez przecinka na koncu.
  41. # # Rekomendowane opcje wyboru kategorii:
  42. # # 1. PomorskaRSS - wiadomosci kazdego typu, lub
  43. # # 2. Region + wybrane miasta, lub
  44. # # 3. Wiadomosci tematyczne.
  45. # # Lista kategorii:
  46.  
  47.              # # PomorskaRSS - wiadomosci kazdego typu, zakomentuj znakiem "#"
  48.              # # przed odkomentowaniem wiadomosci wybranego typu:
  49.              (u'PomorskaRSS', u'http://www.pomorska.pl/rss.xml')
  50.              
  51.              # # wiadomosci z regionu nie przypisane do okreslonego miasta:
  52.              # (u'Region', u'http://www.pomorska.pl/region.xml'),
  53.              
  54.              # # wiadomosci przypisane do miast:
  55.              # (u'Bydgoszcz', u'http://www.pomorska.pl/bydgoszcz.xml'), 
  56.              # (u'Nak\u0142o', u'http://www.pomorska.pl/naklo.xml'),
  57.              # (u'Koronowo', u'http://www.pomorska.pl/koronowo.xml'),
  58.              # (u'Solec Kujawski', u'http://www.pomorska.pl/soleckujawski.xml'),
  59.              # (u'Grudzi\u0105dz', u'http://www.pomorska.pl/grudziadz.xml'),
  60.              # (u'Inowroc\u0142aw', u'http://www.pomorska.pl/inowroclaw.xml'),
  61.              # (u'Toru\u0144', u'http://www.pomorska.pl/torun.xml'),
  62.              # (u'W\u0142oc\u0142awek', u'http://www.pomorska.pl/wloclawek.xml'),
  63.              # (u'Aleksandr\u00f3w Kujawski', u'http://www.pomorska.pl/aleksandrow.xml'),
  64.              # (u'Brodnica', u'http://www.pomorska.pl/brodnica.xml'),
  65.              # (u'Che\u0142mno', u'http://www.pomorska.pl/chelmno.xml'),
  66.              # (u'Chojnice', u'http://www.pomorska.pl/chojnice.xml'),
  67.              # (u'Ciechocinek', u'http://www.pomorska.pl/ciechocinek.xml'),
  68.              # (u'Golub Dobrzy\u0144', u'http://www.pomorska.pl/golubdobrzyn.xml'),
  69.              # (u'Mogilno', u'http://www.pomorska.pl/mogilno.xml'),
  70.              # (u'Radziej\u00f3w', u'http://www.pomorska.pl/radziejow.xml'),
  71.              # (u'Rypin', u'http://www.pomorska.pl/rypin.xml'),
  72.              # (u'S\u0119p\u00f3lno', u'http://www.pomorska.pl/sepolno.xml'),
  73.              # (u'\u015awiecie', u'http://www.pomorska.pl/swiecie.xml'),
  74.              # (u'Tuchola', u'http://www.pomorska.pl/tuchola.xml'),
  75.              # (u'\u017bnin', u'http://www.pomorska.pl/znin.xml')
  76.              
  77.              # # wiadomosci tematyczne (redundancja z region/miasta):
  78.              # (u'Sport', u'http://www.pomorska.pl/sport.xml'), 
  79.              # (u'Zdrowie', u'http://www.pomorska.pl/zdrowie.xml'),
  80.              # (u'Auto', u'http://www.pomorska.pl/moto.xml'),
  81.              # (u'Dom', u'http://www.pomorska.pl/dom.xml'),
  82.              # (u'Reporta\u017c', u'http://www.pomorska.pl/reportaz.xml'),
  83.              # (u'Gospodarka', u'http://www.pomorska.pl/gospodarka.xml')
  84.            ]
  85.  
  86.     keep_only_tags = [dict(name='div', attrs={'id':'article'})]
  87.  
  88.     remove_tags = [
  89.         dict(name='p', attrs={'id':'articleTags'}),
  90.         dict(name='div', attrs={'id':'articleEpaper'}),
  91.         dict(name='div', attrs={'id':'articleConnections'}),
  92.         dict(name='div', attrs={'class':'articleFacts'}),
  93.         dict(name='div', attrs={'id':'articleExternalLink'}),
  94.         dict(name='div', attrs={'id':'articleMultimedia'}),
  95.         dict(name='div', attrs={'id':'articleGalleries'}),
  96.         dict(name='div', attrs={'id':'articleAlarm'}),
  97.         dict(name='div', attrs={'id':'adholder_srodek1'}),
  98.         dict(name='div', attrs={'id':'articleVideo'}),
  99.         dict(name='a', attrs={'name':'fb_share'})]
  100.  
  101.     extra_css = '''h1 { font-size: 1.4em; }
  102.                         h2 { font-size: 1.0em; }'''
  103.  
  104.  
  105.