home *** CD-ROM | disk | FTP | other *** search
/ Chip 2011 November / CHIP_2011_11.iso / Programy / Narzedzia / Calibre / calibre-0.8.18.msi / file_280 / elperiodico_spanish.recipe < prev    next >
Text File  |  2011-09-09  |  3KB  |  67 lines

  1. #!/usr/bin/env  python
  2. # -*- coding: utf-8 -*-
  3.  
  4. __license__   = 'GPL v3'
  5. __copyright__ = '30 October 2010, Jordi Balcells based on an earlier recipe by Darko Miletic <darko.miletic at gmail.com>'
  6. '''
  7. elperiodico.cat
  8. '''
  9.  
  10. from calibre.web.feeds.news import BasicNewsRecipe
  11. from calibre.ebooks.BeautifulSoup import Tag
  12.  
  13. class ElPeriodico_cat(BasicNewsRecipe):
  14.     title                 = 'El Periodico de Catalunya'
  15.     __author__            = 'Jordi Balcells/Darko Miletic'
  16.     description           = 'Noticias desde Catalunya'
  17.     publisher             = 'elperiodico.com'
  18.     category              = 'news, politics, Spain, Catalunya'
  19.     oldest_article        = 2
  20.     max_articles_per_feed = 100
  21.     no_stylesheets        = True
  22.     use_embedded_content  = False
  23.     delay                 = 1
  24.     encoding              = 'cp1252'
  25.     language = 'es'
  26.  
  27.  
  28.     html2lrf_options = [
  29.                           '--comment'  , description
  30.                         , '--category' , category
  31.                         , '--publisher', publisher
  32.                         ]
  33.  
  34.     html2epub_options  = 'publisher="' + publisher + '"\ncomments="' + description + '"\ntags="' + category + '"'
  35.  
  36.     feeds              = [(u'Portada', u'http://www.elperiodico.com/es/rss/rss_portada.xml'),
  37.                         (u'Internacional', u'http://elperiodico.com/es/rss/internacional/rss.xml'),
  38.                         (u'Sociedad', u'http://elperiodico.com/es/rss/sociedad/rss.xml'),
  39.                         (u'Ciencia y Tecnolog\xeda', u'http://elperiodico.com/es/rss/ciencia-y-tecnologia/rss.xml'),
  40.                         (u'Deportes', u'http://elperiodico.com/es/rss/deportes/rss.xml'),
  41.                         (u'Gente', u'http://elperiodico.com/es/rss/gente/rss.xml'),
  42.                         (u'Opini\xf3n', u'http://elperiodico.com/es/rss/opinion/rss.xml'),
  43.                         (u'Pol\xedtica', u'http://elperiodico.com/es/rss/politica/rss.xml'),
  44.                         (u'Barcelona', u'http://elperiodico.com/es/rss/barcelona/rss.xml'),
  45.                         (u'Econom\xeda', u'http://elperiodico.com/es/rss/economia/rss.xml'),
  46.                         (u'Cultura y espect\xe1culos', u'http://elperiodico.com/es/rss/cultura-y-espectaculos/rss.xml'),
  47.                         (u'Tele', u'http://elperiodico.com/es/rss/cultura-y-espectaculos/rss.xml')]
  48.  
  49.  
  50.     keep_only_tags = [dict(name='div', attrs={'class':'titularnoticia'}),
  51.                       dict(name='div', attrs={'class':'noticia_completa'})]
  52.  
  53.     remove_tags        = [dict(name='div', attrs={'class':['opcionb','opcionb last','columna_noticia']}),
  54.                           dict(name='span', attrs={'class':'opcionesnoticia'})
  55.                          ]
  56.  
  57.     def print_version(self, url):
  58.         return url.replace('/default.asp?','/print.asp?')
  59.  
  60.     def preprocess_html(self, soup):
  61.         mcharset = Tag(soup,'meta',[("http-equiv","Content-Type"),("content","text/html; charset=utf-8")])
  62.         soup.head.insert(0,mcharset)
  63.         for item in soup.findAll(style=True):
  64.             del item['style']
  65.         return soup
  66.  
  67.