4 vaches sur TuCows!
4 étoiles sur ZDNet! 4 étoiles sur ZDNet!
Scout Report Selection

HTTrack
The Web Mirror Utility

* 1.20 bientôt... *

English version

 

Overview Version 1.20beta19 disponible! (Février 1999) -Version finale 1.20: Mars 1999 (on espère!!!!..)- Quoi de neuf?

WinHTTrack

HTTrack est un aspirateur de sites web. Il vous permet de transférer un site web d'Internet vers votre disque dur, en construisant récursivement toute la structure, récupérant html, images et fichiers du serveur vers votre ordinateur. Les liens sont reconstruits de manière relative, de façon à pouvoir browser librement le site local via votre butineur habituel. Vous pouvez transférer (miroir) plusieurs sites ensembles de façon à pouvoir passer de l'un à l'autre librement. Vous pouvez également mettre à jour
(update) un site existant, ou continuer un transfert interrompu. Le robot est entièrement configurable, avec une aide intégrée.
WinHTTrack est la version Windows9x de HTTrack. Elle est disponible dans l'archive ZIP de HTTrack.


VERSIONS SUN SOLARIS ET IBM AIX SEULEMENT:
Sur Sun Solaris et AIX, HTTrack est composé de deux programmes: le shell graphique, et le robot.
Le Shell vous permet de controller facilement le robot, via une interface graphique ; il est disponible à la page Shell HTTrack.
Vous trouverez ici seulement le robot, qui peut être utilisé comme un programme en ligne de commande.


 

Features de HTTrack

 

Download version 1.20beta (26/10/98) -BETA VERSION SANS FICHIER .hlp-

Plateforme

Cliquez sur le fichier correspondant pour télécharger

Version actuelle

Windows95/98

httrack.zip

1.20BETA-19 (!!)

SUN Solaris (5.6)

httrack.tar.gz

1.20BETA-19'

IBM AIX (4.0)

httrack.tar.gz

1.20BETA-19'

Linux PC

httrack.tar.gz

1.20BETA-10

Sites alternatifs: Rechercher avec Ftp search la dernière version disponible sur ftp.


 

Usage de HTTrack

La documentation est maintenant disponible pour WinHTTrack et HTTrack et contient également les FAQ.

 

Sur SUN/Solaris et IBM/AIX, le plus simple est d'utiliser le shell graphique, mais vous pouvez également passer par une simple ligne de commande.
Tapez httrack (sans aucun paramètres) pour lister la liste des options. Paramètres et adresses ne doivent pas nécessairement être placés dans un ordre donné.
Il y a également des commandes speciales, comme l'option Nx.

Exemple:

httrack www.myweb.abc/mydir/index.hml
httrack www.myweb.abc/mydir/index.hml  www.otherweb.abc/~friend/cool/
httrack www.myweb.abc/mydir/index.html www.otherweb.abc/~friend/cool/ -N1 -P proxy.myweb.abc:1234
httrack www.myweb.abc/mydir/index.html +www.otherweb* +www.hisweb*.net* -*.com*

Le premier exemple transférera le site partant de 'www.myweb.abc/mydir/index.hml' (et pas tout www.myweb.abc, évidemment, bien que ce soit possible!)
Le second effectuera le miroir de 'www.myweb.abc/mydir/index.hml' et de 'www.otherweb.abc/~friend/cool/" ensembles. (le troisième séparera html et images en 2 répertoires (option N1), et utilisera un proxy (option P))
Le quatrième exemple montre l'utilisation de jokers (*) pour accepter ou refuser des types d'adresses spécifiques. Si aucun '*' n'est utilisé après le '+' ou le '-' (si vous spécifiez donc une adresse complète), l'adresse en question sera acceptée/refusée lorsqu'elle sera rencontrée.

Les options par défaut sont fixées de façon à ce que vous n'ayez que très peu d'options à indiquer.



 

Comments : ENVOYEZ-NOUS UN MESSAGE!

Nous espérons que vous apprécierez cet utilitaire et que vous prendrez autant de plaisir à l'utiliser que nous en avons eu à le développer. Si vous l'aimez, encouragez nous en envoyant vos commentaires et vos remarques. Les problèmes et les reports de bugs sont également les bienvenus, pour le shell et pour le robot.

 


 

Updates et correction de bugs

A faire & Problèmes connus:
- Euhh... quelques fichiers d'aide... on est un peu... en retard...
- Nous avons quelques problèmes avec la version Unix (protocole ftp buggé) et toujours pas de version Linux (crash disk)

VERSION BETA AVANT FINALE, SIGNALEZ-NOUS TOUT BUG OU PROBLEME SVP
1.20
+ Corrigé: Plantages (div par 0/instruction illégale) aléatoires en cas de fichiers de taille nulle
+ Nouveau: Gestion limitée du ftp (fichier par fichier) (càd que +ftp://* fonctionne désormais)
+ Corrigé: Problèmes de connexion avec certains serveurs ou proxy
+ Nouveau: Option par défaut qui sauve un rapport en html sur les erreurs (404..)
+ Shell: Possibilité de voir le miroir et les fichiers log à la fin
+ Nouveau: Authentification de proxy (ex: guest:star@monproxy.com:8080)
+ Shell: Interface améliorée (notamment durant un miroir)
+ Corrigé: Les noms de fichiers ambigus sont renommés (asp,cgi->html/gif..)
+ Shell: Nouvelle option "test links"
+ Nouveau: Authentification sur un site (ex: guest:star@www.myweb.com/index.html)
+ Corrigé: Bugs mineurs corrigés
+ Shell: Visualisation des fichiers log durant un miroir
+ Corrigé: Certains problèmes avec des cgi (noms de fichiers)
+ Corrigé: Options pour aller plus bas/haut dans les répertoires et filtres
+ Corrigé: "Store html first" ne fonctionnait pas
+ Nouveau: L'option -F ("Browser ID") déguise HTTrack en un butineur
+ Nouveau: Nouveau système de filtres
+ Shell: Nouveaux boutons "Save as default" pour enregistrer une configuration
+ Corrigé: "Build options" ne fonctionnait PAS! (fichiers remplacés ou manquants)
+ Corrigé: Champ "User agent" corrigé
+ Shell: Options "Skip"
+ Shell: Meilleur contrôle de l'interface durant un miroir
+ Shell: InstallShield et fichiers d'aide
+ Corrigé: Certains liens n'étaient pas filtrés parfois
+ Corrigé: Crash du miroir à fin

1.16b
+ Shell: Bug *stupide* qui rendait WinHTTrack très leeeent
+ Corrigé: Crash si la première page n'a pas de titre corrigé
+ Corrigé: Options comme "Just scan" sauvaient des fichiers vides
+ Corrigé: Interdire tous les liens (*) sauf autorisés manuellement corrigé
+ Shell: Interface pour les filtres améliorée
1.16:
+ Nouveau : Classes Java et sous classes prises en compte!
+ Nouveau: Meilleure analyse JavaScripts
+ Nouveau: Option: Abandon des sites en cas de timeout/transfer trop lent
+ Shell: Interface améliorée

1.15b
+ Corrigé: Quelques bugs corrigés
1.15:
+ Shell: Interface améliorée
+ Nouveau: Robot amélioré (certyains fichiers via javascript sont désormais détectés!)
+ Nouveau: Jokers améliorés (par exemple, +www.*.com/*.zip)
+ Nouveau: fichier 'config' pour configurer proxy, chemins.. une seule fois

1.11
+ Nouveau: Démarrage à heure spécifique
+ Nouveau: Option temps de transfert maximum
+ Shell: Interface améliorée pour une utilisation simplifiée

1.10e
+ Corrigé: Les maps n'étaient pas correctement gérées (bug stupide)
1.10d:
+ Corrigé: Fichier index.html bogué
1.10c
+ Shell: Champ "time out" nécessitait le champ "transfer rate"
1.10b
+ Corrigé: Meilleure gestion mémoire
1.10
+ Nouveau: Option "Taux transfert minimum" ajouté (éviter les sites les plus lents)
+ Nouveau: Les sites "morts" ne gèlent plus HTTrack
+ Corrigé: Encore des problèmes avec les tags code/codebase
+ Nouveau: Détection des ruptures de liens améliorée

1.04
+ Corrigé : Certains liens n'étaient pas correctement lus (pages avec des tags "codebase")
+ Shell: Interface améliorée

1.03 (Pas de changements pour la version en ligne de commande)
+ Shell:Gros bug corrigé (taux de transfert TRES lents)

1.02
+ Corrigé: Certains fichiers java n'étaient pas correctement transférés
+ Nouveau: La vitesse a été améliorée
+ Corrigé: Fichiers log plus précis
+ Shell: L'interface a été améliorée

1.01
+ Corrigé: Erreurs lors de la construction de la structure des fichiers

1.00 - The 1.00, Yeah!
+ Nouveau: base et codebase sont maintenant scannés

0.998 beta-2
+ Corrigé: Bug des fichiers multiples (fichiers ayant le même nom dans un répertoire identique) avec l'option -O corrigé

0.997 beta-2
+ Corrigé: Les noms de fichiers avec des '%' n'étaient pas correctement renommés
+ Corrigé: bug deétecté dans la 0.996: certains fichiers ne sont pas écrits sur disque!!

0.996 beta-2
+ Nouveau: Option -O (chemin pour muroir/fichiers log)
+ Nouveau: L' heure/date des fichiers inchangés reste inchangée durant une update

0.99 beta-2
+ Nouveau: Champ "User-agent"
+ Nouveau: Raccourcis (--spider etc.)
+ Nouveau: Les liens non téléchargés sont reconstruits de manière absolue
+ Nouveau: L'option 'g' (juste get files in current directory) a été ajoutée
+ Nouveau: Analyse des liens primaires a été améliorée
+ Fixed: bug du "304" corrigé

0.25 beta-2
+ Corrigé: Plantages durant certains miroirs corrigé!
+ Nouveau: Plus d'options 'N' (filenames type)

0.24 beta-2
+ Corrigé: Restart/Update avec un cache ne fonctionnait pas (pas du tout..)
+ Corrigé: Les jokers fonctionnent correctement (càd. +www.abc.com* fonctionne)
+ Nouveau: L'option 'n' (get non-html files near a link) a été ajoutée!

0.23 beta-2
+ Corrigé: L'option 'M' (site size) ne fonctionnait pas
+ Corrigé: Les fichiers dépassant 65Ko n'étaient pas correctement écrits

 


 

Credits

Shell graphique développé par Yann Philippot
Robot développé par Xavier Roche
Project digiré by Patrick Ducrot et Daniel Carré

HTTrack a été développé en C et C++, en approximativement  10,000 lignes de code source. Nous avons dépensé de très, très nombreuses heures à tester et à débugger ce programme, de telle façon à ce qu'il soir le plus performant possible. Nous pensons que nous avons fait du bon boulot ;-)

Projet développé à l'ENSI Caen - ISMRa

©1998 Xavier Roche & Yann Philippot, tous droits réservés.

HTTrack

hts/wmu.gif (2416 bytes)