home *** CD-ROM | disk | FTP | other *** search
/ Chip 2011 November / CHIP_2011_11.iso / Programy / Narzedzia / Calibre / calibre-0.8.18.msi / file_280 / ilsole24ore.recipe < prev    next >
Text File  |  2011-09-09  |  3KB  |  66 lines

  1. __author__    = 'Marco Saraceno'
  2. __copyright__ = '2010, Marco Saraceno <marcosaraceno at gmail.com>'
  3. description   = 'Italian daily newspaper - v 1.1 (Mar14,2011)'
  4.  
  5. '''
  6. http://www.ilsole24ore.com
  7. '''
  8.  
  9. from calibre.web.feeds.news import BasicNewsRecipe
  10.  
  11. class IlSole24Ore(BasicNewsRecipe):
  12.     __author__        = 'Marco Saraceno'
  13.     description   = 'Italian financial daily newspaper'
  14.  
  15.     cover_url      = 'http://www.shopping24.ilsole24ore.com/ProductRelated/rds/img/logo_sole.gif'
  16.     title          = u'Il Sole 24 Ore'
  17.     publisher      = 'Gruppo editoriale GRUPPO 24ORE'
  18.     category       = 'News, politics, culture, economy, financial, Italian'
  19.  
  20.     language       = 'it'
  21.     timefmt        = '[%a, %d %b, %Y]'
  22.  
  23.     oldest_article = 2
  24.     max_articles_per_feed = 100
  25.     use_embedded_content  = False
  26.     extra_css      = '.headline {font-size: x-large;} \n .fact { padding-top: 10pt  }'
  27.  
  28.  
  29.     remove_tags = [
  30.                             dict(name='div', attrs={'class':['header','titolo']}),
  31.                             dict(name='table', attrs={'class':['footer1024','footerdown']}),
  32.                             ]
  33.  
  34.  
  35.     def get_article_url(self, article):
  36.        link = article.get('link', None)
  37.        if link is None:
  38.            return article
  39.        if link.split('/')[-1]=="story01.htm":
  40.            link=link.split('/')[-2]
  41.            a=['0B','0C','0D','0E','0F','0G','0N'  ,'0L0S','0A']
  42.            b=['.' ,'/' ,'?' ,'-' ,'=' ,'&' ,'.com','www.','0']
  43.            for i in range(0,len(a)):
  44.               link=link.replace(a[i],b[i])
  45.            link="http://"+link
  46.        return link
  47.  
  48.     feeds = [
  49.                   (u'Notizie Italia', u'http://www.ilsole24ore.com/rss/notizie/italia.xml'),
  50.                   (u'Notizie Europa', u'http://www.ilsole24ore.com/rss/notizie/europa.xml'),
  51.                   (u'Notizie USA', u'http://www.ilsole24ore.com/rss/notizie/usa.xml'),
  52.                   (u'Notizie Americhe', u'http://www.ilsole24ore.com/rss/notizie/americhe.xml'),
  53.                   (u'Notizie Medio Oriente e Africa', u'http://www.ilsole24ore.com/rss/notizie/medio-oriente-e-africa.xml'),
  54.                   (u'Notizie Asia e Oceania', u'http://www.ilsole24ore.com/rss/notizie/asia-e-oceania.xml'),
  55.                   (u'Commenti', u'http://www.ilsole24ore.com/rss/commenti-e-idee.xml'),
  56.                   (u'Norme e tributi', u'http://www.ilsole24ore.com/rss/norme-e-tributi.xml'),
  57.                   (u'Finanza', u'http://www.ilsole24ore.com/rss/finanza-e-mercati.xml'),
  58.                   (u'Economia', u'http://www.ilsole24ore.com/rss/economia.xml'),
  59.                   (u'Tecnologia', u'http://www.ilsole24ore.com/rss/tecnologie.xml'),
  60.                   (u'Cultura', u'http://www.ilsole24ore.com/rss/cultura.xml'),
  61.                   ]
  62.  
  63.     def print_version(self, url):
  64.           return url.replace('.shtml', '_PRN.shtml')
  65.  
  66.