home *** CD-ROM | disk | FTP | other *** search
/ Chip 2011 November / CHIP_2011_11.iso / Programy / Narzedzia / Calibre / calibre-0.8.18.msi / file_280 / la_republica.recipe < prev    next >
Encoding:
Text File  |  2011-09-09  |  3.9 KB  |  79 lines

  1. #!/usr/bin/env  python
  2. __license__   = 'GPL v3'
  3. __author__    = 'Lorenzo Vigentini, based on Darko Miletic, Gabriele Marini'
  4. __copyright__ = '2009, Darko Miletic <darko.miletic at gmail.com>, Lorenzo Vigentini <l.vigentini at gmail.com>'
  5. description   = 'Italian daily newspaper - v1.01 (04, January 2010); 16.05.2010 new version'
  6.  
  7. '''
  8. http://www.repubblica.it/
  9. '''
  10.  
  11. from calibre.web.feeds.news import BasicNewsRecipe
  12.  
  13. class LaRepubblica(BasicNewsRecipe):
  14.     __author__        = 'Lorenzo Vigentini, Gabriele Marini'
  15.     description   = 'Italian daily newspaper'
  16.  
  17.     cover_url      = 'http://www.repubblica.it/images/homepage/la_repubblica_logo.gif'
  18.     title          = u'La Repubblica'
  19.     publisher      = 'Gruppo editoriale L\'Espresso'
  20.     category       = 'News, politics, culture, economy, general interest'
  21.  
  22.     language       = 'it'
  23.     timefmt        = '[%a, %d %b, %Y]'
  24.  
  25.     oldest_article = 5
  26.     max_articles_per_feed = 100
  27.     use_embedded_content  = False
  28.     recursion             = 10
  29.  
  30.     remove_javascript = True
  31.     no_stylesheets    = True
  32.  
  33.     def get_article_url(self, article):
  34.         link = article.get('id', article.get('guid', None))
  35.         if link is None:
  36.             return article
  37.         return link
  38.  
  39.     keep_only_tags     = [dict(name='div', attrs={'class':'articolo'}),
  40.                           dict(name='div', attrs={'class':'body-text'}),
  41. #                          dict(name='div', attrs={'class':'page-content'}),
  42.                           dict(name='p', attrs={'class':'disclaimer clearfix'}),
  43.                           dict(name='div', attrs={'id':'contA'})
  44.                          ]
  45.  
  46.  
  47.     remove_tags        = [
  48.                             dict(name=['object','link']),
  49.                             dict(name='span',attrs={'class':'linkindice'}),
  50.                             dict(name='div', attrs={'class':'bottom-mobile'}),
  51.                             dict(name='div', attrs={'id':['rssdiv','blocco']}),
  52.                             dict(name='div', attrs={'class':'utility'}),
  53.                             dict(name='div', attrs={'class':'generalbox'}),
  54.                             dict(name='ul', attrs={'id':'hystory'})
  55.                          ]
  56.  
  57.     feeds          = [
  58.                        (u'Rilievo', u'http://www.repubblica.it/rss/homepage/rss2.0.xml'),
  59.                        (u'Cronaca', u'http://www.repubblica.it/rss/cronaca/rss2.0.xml'),
  60.                        (u'Esteri', u'http://www.repubblica.it/rss/esteri/rss2.0.xml'),
  61.                        (u'Economia', u'http://www.repubblica.it/rss/economia/rss2.0.xml'),
  62.                        (u'Politica', u'http://www.repubblica.it/rss/politica/rss2.0.xml'),
  63.                        (u'Scienze', u'http://www.repubblica.it/rss/scienze/rss2.0.xml'),
  64.                        (u'Tecnologia', u'http://www.repubblica.it/rss/tecnologia/rss2.0.xml'),
  65.                        (u'Scuola e Universita', u'http://www.repubblica.it/rss/scuola_e_universita/rss2.0.xml'),
  66.                        (u'Ambiente', u'http://www.repubblica.it/rss/ambiente/rss2.0.xml'),
  67.                        (u'Cultura', u'http://www.repubblica.it/rss/spettacoli_e_cultura/rss2.0.xml'),
  68.                        (u'Persone', u'http://www.repubblica.it/rss/persone/rss2.0.xml'),
  69.                        (u'Sport', u'http://www.repubblica.it/rss/sport/rss2.0.xml'),
  70.                        (u'Calcio', u'http://www.repubblica.it/rss/sport/calcio/rss2.0.xml'),
  71.                        (u'Motori', u'http://www.repubblica.it/rss/motori/rss2.0.xml'),
  72.                        (u'Edizione Roma', u'http://roma.repubblica.it/rss/rss2.0.xml'),
  73.                        (u'Edizione Torino', u'http://torino.repubblica.it/rss/rss2.0.xml'),
  74.                        (u'Edizione Milano', u'feed://milano.repubblica.it/rss/rss2.0.xml'),
  75.                        (u'Edizione Napoli', u'feed://napoli.repubblica.it/rss/rss2.0.xml'),
  76.                        (u'Edizione Palermo', u'feed://palermo.repubblica.it/rss/rss2.0.xml')
  77.                       ]
  78.  
  79.