home *** CD-ROM | disk | FTP | other *** search
/ Chip 2011 November / CHIP_2011_11.iso / Programy / Narzedzia / Calibre / calibre-0.8.18.msi / file_280 / la_stampa.recipe < prev    next >
Encoding:
Text File  |  2011-09-09  |  3.3 KB  |  68 lines

  1. #!/usr/bin/env  python
  2. __license__   = 'GPL v3'
  3. __author__    = 'Gabriele Marini, based on Darko Miletic'
  4. __copyright__ = '2009, Darko Miletic <darko.miletic at gmail.com>'
  5. __description__ = 'La Stampa 05/05/2010'
  6.  
  7. '''
  8. http://www.lastampa.it/
  9. '''
  10. from calibre.web.feeds.news import BasicNewsRecipe
  11.  
  12. class LaStampa(BasicNewsRecipe):
  13.  
  14.  title                 = u'La Stampa'
  15.  language = 'it'
  16.  __author__ = 'Gabriele Marini'
  17.  oldest_article        = 15
  18.  max_articles_per_feed = 50
  19.  recursion             = 100
  20.  cover_url             = 'http://www.lastampa.it/edicola/PDF/1.pdf'
  21.  use_embedded_content  = False
  22.  remove_javascript     = True
  23.  no_stylesheets        = True
  24.  
  25.  conversion_options = {'linearize_tables':True}
  26.  remove_attributes = ['colspan']
  27.  
  28.  extra_css = ' .boxocchiello2{font-size: small} .catenaccio{font-style: italic} .titoloRub{font-size: xx-large; font-weight: bold } .titologir{font-size: xx-large; font-weight: bold } .sezione{font-weight: bold} '
  29.  
  30.  
  31.  def get_article_url(self, article):
  32.     link = article.get('links')
  33.     if link:
  34.        return link[0]['href']
  35.  
  36.  keep_only_tags = [dict(attrs={'class':['boxocchiello2','titoloRub','titologir','catenaccio','sezione','articologirata']}),
  37.                    dict(name='div', attrs={'id':'corpoarticolo'})
  38.                   ]
  39.  
  40.  remove_tags = [dict(name='div', attrs={'id':'menutop'}),
  41.                 dict(name='div', attrs={'id':'fwnetblocco'}),
  42.                 dict(name='table', attrs={'id':'strumenti'}),
  43.                 dict(name='table', attrs={'id':'imgesterna'}),
  44.                 dict(name='a', attrs={'class':'linkblu'}),
  45.                 dict(name='a', attrs={'class':'link'}),
  46.                 dict(name='span', attrs={'class':['boxocchiello','boxocchiello2','sezione']})
  47.                ]
  48.  
  49.  feeds    = [
  50.              (u'Home', u'http://www.lastampa.it/redazione/rss_home.xml'),
  51.              (u'Editoriali', u'http://www.lastampa.it/cmstp/rubriche/oggetti/rss.asp?ID_blog=25'),
  52.              (u'Politica', u'http://www.lastampa.it/redazione/cmssezioni/politica/rss_politica.xml'),
  53.              (u'ArciItaliana', u'http://www.lastampa.it/cmstp/rubriche/oggetti/rss.asp?ID_blog=14'),
  54.              (u'Cronache', u'http://www.lastampa.it/redazione/cmssezioni/cronache/rss_cronache.xml'),
  55.              (u'Esteri', u'http://www.lastampa.it/redazione/cmssezioni/esteri/rss_esteri.xml'),
  56.              (u'Danni Collaterali', u'http://www.lastampa.it/cmstp/rubriche/oggetti/rss.asp?ID_blog=90'),
  57.              (u'Economia', u'http://www.lastampa.it/redazione/cmssezioni/economia/rss_economia.xml'),
  58.              (u'Tecnologia ', u'http://www.lastampa.it/cmstp/rubriche/oggetti/rss.asp?ID_blog=30'),
  59.              (u'Spettacoli', u'http://www.lastampa.it/redazione/cmssezioni/spettacoli/rss_spettacoli.xml'),
  60.              (u'Sport', u'http://www.lastampa.it/sport/rss_home.xml'),
  61.              (u'Torino', u'http://rss.feedsportal.com/c/32418/f/466938/index.rss'),
  62.              (u'Motori', u'http://www.lastampa.it/cmstp/rubriche/oggetti/rss.asp?ID_blog=57'),
  63.              (u'Scienza', u'http://www.lastampa.it/cmstp/rubriche/oggetti/rss.asp?ID_blog=38'),
  64.              (u'Fotografia', u'http://rss.feedsportal.com/c/32418/f/478449/index.rss'),
  65.              (u'Scuola', u'http://www.lastampa.it/cmstp/rubriche/oggetti/rss.asp?ID_blog=60'),
  66.              (u'Tempo Libero', u'http://www.lastampa.it/tempolibero/rss_home.xml')
  67.             ]
  68.