Chip 2011 November

home *** CD-ROM | disk | FTP | other *** search

/ Chip 2011 November / CHIP_2011_11.iso / Programy / Narzedzia / Calibre / calibre-0.8.18.msi / file_280 / gazeta_pomorska.recipe < prev next >

Wrap

Text File | 2011-09-09 | 6KB | 105 lines

#!/usr/bin/env python # # Przed uzyciem przeczytaj komentarz w sekcji "feeds" __license__ = 'GPL v3' __copyright__ = u'2010, Richard z forum.eksiazki.org' '''pomorska.pl''' import re from calibre.web.feeds.news import BasicNewsRecipe class GazetaPomorska(BasicNewsRecipe): title = u'Gazeta Pomorska' publisher = u'Gazeta Pomorska' description = u'Kujawy i Pomorze - wiadomo\u015bci' language = 'pl' __author__ = u'Richard z forum.eksiazki.org' # # (dziekuje t3d z forum.eksiazki.org za testy) oldest_article = 2 max_articles_per_feed = 20 no_stylesheets = True remove_javascript = True preprocess_regexps = [ (re.compile(r'<a href="http://maps.google[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''), (re.compile(r'[<Bb >]*Poznaj opinie[^<]*[</Bb >]*[^<]*<a href[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''), (re.compile(r'[<Bb >]*Przeczytaj[^<]*[</Bb >]*[^<]*<a href[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''), (re.compile(r'[<Bb >]*Wi.cej informacji[^<]*[</Bb >]*[^<]*<a href[^>]*>[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''), (re.compile(r'<a href[^>]*>[<Bb >]*Wideo[^<]*[</Bb >]*[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: ''), (re.compile(r'<a href[^>]*>[<Bb >]*KLIKNIJ TUTAJ[^<]*[</Bb >]*[^<]*</a>\.*', re.DOTALL|re.IGNORECASE), lambda m: '') ] feeds = [ # # Tutaj jest wymieniona lista kategorii jakie mozemy otrzymywac z Gazety # # Pomorskiej, po jednej kategorii w wierszu. Jesli na poczatku danego wiersza # # znajduje sie jeden znak "#", oznacza to ze kategoria jest zakomentowana # # i nie bedziemy jej otrzymywac. Jesli chcemy ja otrzymywac nalezy usunac # # znak # z jej wiersza. # # Jesli subskrybujemy wiecej niz jedna kategorie, na koncu wiersza z kazda # # kategoria musi sie znajdowac niezakomentowany przecinek, z wyjatkiem # # ostatniego wiersza - ma byc bez przecinka na koncu. # # Rekomendowane opcje wyboru kategorii: # # 1. PomorskaRSS - wiadomosci kazdego typu, lub # # 2. Region + wybrane miasta, lub # # 3. Wiadomosci tematyczne. # # Lista kategorii: # # PomorskaRSS - wiadomosci kazdego typu, zakomentuj znakiem "#" # # przed odkomentowaniem wiadomosci wybranego typu: (u'PomorskaRSS', u'http://www.pomorska.pl/rss.xml') # # wiadomosci z regionu nie przypisane do okreslonego miasta: # (u'Region', u'http://www.pomorska.pl/region.xml'), # # wiadomosci przypisane do miast: # (u'Bydgoszcz', u'http://www.pomorska.pl/bydgoszcz.xml'), # (u'Nak\u0142o', u'http://www.pomorska.pl/naklo.xml'), # (u'Koronowo', u'http://www.pomorska.pl/koronowo.xml'), # (u'Solec Kujawski', u'http://www.pomorska.pl/soleckujawski.xml'), # (u'Grudzi\u0105dz', u'http://www.pomorska.pl/grudziadz.xml'), # (u'Inowroc\u0142aw', u'http://www.pomorska.pl/inowroclaw.xml'), # (u'Toru\u0144', u'http://www.pomorska.pl/torun.xml'), # (u'W\u0142oc\u0142awek', u'http://www.pomorska.pl/wloclawek.xml'), # (u'Aleksandr\u00f3w Kujawski', u'http://www.pomorska.pl/aleksandrow.xml'), # (u'Brodnica', u'http://www.pomorska.pl/brodnica.xml'), # (u'Che\u0142mno', u'http://www.pomorska.pl/chelmno.xml'), # (u'Chojnice', u'http://www.pomorska.pl/chojnice.xml'), # (u'Ciechocinek', u'http://www.pomorska.pl/ciechocinek.xml'), # (u'Golub Dobrzy\u0144', u'http://www.pomorska.pl/golubdobrzyn.xml'), # (u'Mogilno', u'http://www.pomorska.pl/mogilno.xml'), # (u'Radziej\u00f3w', u'http://www.pomorska.pl/radziejow.xml'), # (u'Rypin', u'http://www.pomorska.pl/rypin.xml'), # (u'S\u0119p\u00f3lno', u'http://www.pomorska.pl/sepolno.xml'), # (u'\u015awiecie', u'http://www.pomorska.pl/swiecie.xml'), # (u'Tuchola', u'http://www.pomorska.pl/tuchola.xml'), # (u'\u017bnin', u'http://www.pomorska.pl/znin.xml') # # wiadomosci tematyczne (redundancja z region/miasta): # (u'Sport', u'http://www.pomorska.pl/sport.xml'), # (u'Zdrowie', u'http://www.pomorska.pl/zdrowie.xml'), # (u'Auto', u'http://www.pomorska.pl/moto.xml'), # (u'Dom', u'http://www.pomorska.pl/dom.xml'), # (u'Reporta\u017c', u'http://www.pomorska.pl/reportaz.xml'), # (u'Gospodarka', u'http://www.pomorska.pl/gospodarka.xml') ] keep_only_tags = [dict(name='div', attrs={'id':'article'})] remove_tags = [ dict(name='p', attrs={'id':'articleTags'}), dict(name='div', attrs={'id':'articleEpaper'}), dict(name='div', attrs={'id':'articleConnections'}), dict(name='div', attrs={'class':'articleFacts'}), dict(name='div', attrs={'id':'articleExternalLink'}), dict(name='div', attrs={'id':'articleMultimedia'}), dict(name='div', attrs={'id':'articleGalleries'}), dict(name='div', attrs={'id':'articleAlarm'}), dict(name='div', attrs={'id':'adholder_srodek1'}), dict(name='div', attrs={'id':'articleVideo'}), dict(name='a', attrs={'name':'fb_share'})] extra_css = '''h1 { font-size: 1.4em; } h2 { font-size: 1.0em; }'''