home *** CD-ROM | disk | FTP | other *** search
/ Australian Personal Computer 1999 November / APC411-2.ISO / network / tree.pl < prev    next >
Encoding:
Perl Script  |  1999-09-15  |  11.8 KB  |  384 lines

  1. #!/usr/bin/perl -w
  2. # Creates a structured HTML list ('sitemap') of HTML files
  3. # Copyright (C) 1998,1999 Daniel Naber <dnaber@mini.gt.owl.de>
  4. # version 1.10, 1999-08-29 (version number is independent from java version)
  5. # See below for configuration. 
  6. # Usage from command line: ./tree.pl [htmldir] >outputfile
  7. #
  8. # See http://www.ev-stift-gymn.guetersloh.de/server/tree_e.html for the 
  9. # latest version. It would be nice to include a link to this page if you 
  10. # use the script to generate a public page.
  11. #
  12. # CHANGES:
  13. # 1997-09-07: first version
  14. # (...)
  15. # 1998-28-04: new option: @includefiles, @excludepatterns now
  16. #    called @excludefiles; one space after $pictag
  17. # 1998-10-06: checks if $htmldir exists and if it's a directory;
  18. #    $patternfile is now called $templatefile
  19. # 1998-08-16: made ISO 8601 date default
  20. # 1999-04-17: small documentation update
  21. # 1999-08-29: added $filetag_end, thanks to Doug Melton;
  22. #    small html cleanup
  23. #
  24. # TODO/BUGS/PROBLEMS:
  25. # -$htmldir may not point to a link
  26. # -links beneath $htmldir will be ignored
  27. # -due to stupid program design, you cannot make a tree that only 
  28. #    consists of files given in @indexfiles
  29. #
  30. # COPYRIGHT:
  31. # This program is free software; you can redistribute it and/or
  32. # modify it under the terms of the GNU General Public License
  33. # as published by the Free Software Foundation; either version 2
  34. # of the License, or (at your option) any later version.
  35. #
  36. # This program is distributed in the hope that it will be useful,
  37. # but WITHOUT ANY WARRANTY; without even the implied warranty of
  38. # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
  39. # GNU General Public License for more details.
  40. #
  41. # You should have received a copy of the GNU General Public License
  42. # along with this program; if not, write to the Free Software
  43. # Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA  02111-1307, USA.
  44.  
  45. # - user-configurable options ----------------------------------------------
  46.  
  47. # directory with the html files (may be overriden by command line argument),
  48. # don't set a trailing slash
  49. if( $ARGV[0] ) {
  50.     $htmldir = $ARGV[0];
  51. } else {
  52.     $htmldir = "/usr/local/httpd/htdocs";
  53. }
  54.  
  55. $templatefile = "tree-template.html";    # take this file to build the output page
  56. #$templatefile = "";                    # comment in and you'll just get the list
  57. $baseurl = "";                            # this will be in front of any URL
  58.  
  59. $cgi = 0;                # set to 1 to use this as a cgi script
  60. # set the following options both to 1 to generate a list you can use offline
  61. $offline = 0;            # enables you to use generated file offline (from disk)
  62. $indexrefs = 0;            # make links to 'dir/index.html' etc. (instead of 'dir/')
  63.  
  64. @indexfiles = ('index.html', 'index.shtml');    # default-files' names
  65. @inchtml = ('shtml', 'html', 'htm');            # take files with these suffixes as HTML files
  66. #@incpics = ();                        # don't include pictures
  67. @incpics = ('gif', 'jpg', 'jpeg');    # list pictures with these suffixes
  68. $listsize = 1;                        # include size in kb for every file?
  69.  
  70. $self = "/server/az.html";            # output file (relative path; won't be linked in the list)
  71. $selftitle = "Sitemap";
  72.  
  73. # do only include these files/directories, use '*' as a wildcard,
  74. # use '@includefiles = ();' to  include all files matching the pattern
  75. # except those in @excludefiles:
  76. @includefiles = ();
  77. # do not include these files/directories:
  78. @excludefiles = ('/secret/*');
  79.  
  80. $listwithouttitle = 0;            # include html files without <title>..</title>?
  81.  
  82. #$date = "DAY.MONTH.YEAR";        # german format
  83. #$date = "MONTH/DAY/YEAR";        # american format
  84. $date = "YEAR-MONTH-DAY";        # date according to ISO 8601
  85.  
  86. # for those of you who like the plain output:
  87. $dirtag = '<ul>';
  88. $dirtag_end = '</ul>';
  89. $foldertag = '<li>';
  90. $htmltag = '<li>';
  91. $pictag = '<li>';
  92. $nolinktag = '<li>';
  93. $filetag_end = '</li>';
  94.  
  95. # for those who like output with an icon in front of every item:
  96. # (this seems to be valid HTML, but it's not good HTML)
  97. #$dirtag = '<dl>';
  98. #$dirtag_end = '</dl>';
  99. #$foldertag = '<dt><img src="tree_img/folder.open.gif" alt="folder">';
  100. #$htmltag = '<dt><img src="tree_img/generic.gif" alt="html file">';
  101. #$pictag = '<dt><img src="tree_img/image2.gif" alt="picture">';
  102. #$nolinktag = '<dt><img src="tree_img/folder.open.gif" alt="other file">';
  103. #$filetag_end = '</dt>';
  104.  
  105. $modifiedtag = '<img src="/images/new.gif" alt="page updated recently">';    # mark files that changed not long ago
  106. $modifiedtime = 3*24;        # mark files that are not older than $modifiedtime hours (0 = option off)
  107.  
  108. # - nearly no configuration below ------------------------------------------
  109.  
  110. # $st = time();        # comment in if you're interested in runtime
  111. use File::Find;
  112. $depth = 0;
  113. ($htmlct, $htmlsize, $picct, $picsize) = (0, 0, 0, 0);    # count size und number
  114. $partlist = "";
  115.  
  116. &getdate;
  117. &init;
  118. &first_part_output;
  119. find(\&doperfile, $htmldir);
  120. &list_output;
  121. &last_part_output;
  122. # $diff = time() - $st; print STDERR "time: $diff secs\n";    # see above
  123. exit;
  124.  
  125. # --------------------------------------------------------------------------
  126.  
  127. sub getdate {
  128.     my ($sec,$min,$hour,$mday,$mon,$year) = 0;    # avoid warning with perl's -w option
  129.     ($sec,$min,$hour,$mday,$mon,$year) = localtime(time());
  130.     ($mon < 12) ? ($mon++) : ($mon = 1);
  131.     $year += 1900;
  132.     $mon = "0".$mon if( length($mon) == 1 );
  133.     $mday = "0".$mday if( length($mday) == 1 );    
  134.     $date =~ s#DAY#$mday#i;
  135.     $date =~ s#MONTH#$mon#i;
  136.     $date =~ s#YEAR#$year#i;
  137. }
  138.  
  139. sub init {
  140.     if( $cgi ) {
  141.         select(STDOUT); $| = 1;
  142.         $nph = 1 if( $0 =~ m#nph-tree# );
  143.         print "HTTP/1.0 200 OK\n" if( $nph );
  144.         print "Content-Type: text/html\n\n";
  145.     }
  146.     if( ! -d $htmldir ) {
  147.         print "Error: $0: '$htmldir' doesn't exist or isn't a directory.";
  148.         exit;
  149.     }
  150.     my $expat;            # enable '*' as wildcard in @excludefiles
  151.     foreach $expat (@excludefiles) {
  152.         $expat =~ s#\*#.*?#g;
  153.     }
  154.     foreach $expat (@includefiles) {    # the same in @includefiles
  155.         $expat =~ s#\*#.*?#g;
  156.     }
  157. }
  158.  
  159. sub first_part_output {
  160.     $output = &load($templatefile);
  161.     $output =~ s#<!-- \$date -->#$date#igs;
  162.     my ($first_part) = ($output =~ m#^(.*?)<!-- \$list -->#is);
  163.     $first_part = "" if ( ! defined($first_part) );    # avoid warning
  164.     print $first_part;
  165. }
  166.  
  167. sub doperfile {
  168.     my $thisfile = $File::Find::name;
  169.     $thisfile .= "/" if( -d $thisfile );
  170.     my ($thisfile_rel) = ($thisfile =~ m#^$htmldir(/.*)#);    # part after $htmldir
  171.  
  172.     my $expat;
  173.     # include only files from @includefiles:
  174.     if( scalar(@includefiles) >= 1 ) {
  175.         my $do_use = 0;
  176.         foreach $expat (@includefiles) {
  177.             if( $thisfile_rel =~ m#^$expat$# ) {
  178.                 $do_use = 1;
  179.                 last;
  180.             }
  181.         }
  182.         return if( ! $do_use );
  183.     }
  184.     
  185.     # exclude files from @excludefiles:
  186.     foreach $expat (@excludefiles) {
  187.         return if( $thisfile_rel =~ m#^$expat$# );
  188.     }
  189.  
  190.     if( ! &isfile($thisfile, @indexfiles)
  191.         && ($thisfile =~ m#/$# 
  192.         || &isfileclass($thisfile, @inchtml) 
  193.         || &isfileclass($thisfile, @incpics)) ) {
  194.         push(@filelist, $thisfile);
  195.     }
  196. }
  197.  
  198. sub list_output {
  199.     my $thisfile;
  200.     my $dirsdone = "";            # have we been here already?
  201.     my $thisdir = "";
  202.     my $dirtag_ct = 0;
  203.     @filelist = sort(@filelist);
  204.     print "$dirtag\n";
  205.     $dirtag_ct++;
  206.     foreach $thisfile (@filelist) {
  207.         ($url) = ($thisfile =~ m#$htmldir(/.*)#i);
  208.         $olddepth = $depth;
  209.         $depth = ($url =~ s#/#/#gi);            # 1 = html-root
  210.         $olddir = $thisdir;
  211.         ($thisdir) = ($url =~ m#(.*/).*?#i);
  212.         if( $thisdir ne $olddir && ! ($dirsdone =~ m#^$thisdir$#m) ) {    # deeper level or same level
  213.             $dirsdone .= "$thisdir\n";
  214.             $partlist .= "$dirtag_end\n" x ($olddepth-$depth+1);
  215.             $dirtag_ct -= &minzero($olddepth-$depth+1);
  216.             $partlist .= " $nolinktag$baseurl$url$filetag_end\n" if( ! &getdefaultfile("$htmldir$thisdir") );
  217.             $partlist .= "$dirtag\n";
  218.             $dirtag_ct++;
  219.         } elsif( ! ($thisdir =~ m#$olddir#i) ) {    # higher level
  220.             $partlist .= "$dirtag_end\n" x ($olddepth-$depth);
  221.             $dirtag_ct -= &minzero($olddepth-$depth);
  222.             $partlist .= &getinfo($thisfile, 0);
  223.         } else {                    # same level as before
  224.             $partlist .=  &getinfo($thisfile, 0);
  225.             $partlist =~ s#$dirtag\n$dirtag_end\n##ig;    # clean up HTML
  226.             print $partlist;
  227.             $partlist = "";
  228.         }
  229.     }
  230.     print $partlist;
  231.     # close list correctly:
  232.     print "$dirtag_end\n" x $dirtag_ct;
  233. }
  234.  
  235. sub last_part_output {
  236.     $htmlsize = int($htmlsize/1000);    # size in kB
  237.     $picsize = int($picsize/1000);
  238.     $output =~ s#<!-- \$htmlct -->#$htmlct#igs;
  239.     $output =~ s#<!-- \$htmlsize -->#$htmlsize#igs;
  240.     $output =~ s#<!-- \$picsct -->#$picct#igs;
  241.     $output =~ s#<!-- \$picsize -->#$picsize#igs;
  242.     my ($last_part) = ($output =~ m#<!-- \$list -->(.*)$#is);
  243.     $last_part = "" if ( ! defined($last_part) );    # avoid warning
  244.     print $last_part;
  245. }
  246.  
  247. # --------------------------------------------------------------------------
  248.  
  249. sub getdefaultfile {
  250.     my $dir = shift;
  251.     my $item;
  252.     foreach $item (@indexfiles) {
  253.          if( -e "$dir$item" ) {        # there's a defaultfile
  254.             $partlist .= &getinfo("$dir$item", 1);
  255.             return $item;
  256.         }
  257.     }
  258.     return 0;
  259. }
  260.  
  261. sub getinfo
  262. {
  263.     my $thisfile = shift;
  264.     my $isindexfile = shift;
  265.     my ($suffix) = ($thisfile =~ m#.*\.(.*)#);
  266.     my ($size, $exactsize) = &getsize($thisfile);
  267.     my $entry = "";
  268.     my $linkurl;
  269.     $offline ? ($linkurl = $htmldir.$url) : ($linkurl = $url);
  270.     $linkurl = $baseurl.$linkurl;
  271.     if( &isfileclass($thisfile, @inchtml) ) {
  272.         $htmlsize += $exactsize;
  273.         $htmlct++;
  274.         my $string = &load_part($thisfile);
  275.         if( $thisfile eq "$htmldir$self" ) {            # output file itself
  276.             $entry .= " $nolinktag$selftitle";
  277.         } elsif( $string =~ m#<title>(.*?)</title>#is ) {    # common case
  278.             if( $isindexfile ) {
  279.                 $entry .= " $foldertag";
  280.             } else {
  281.                 $entry .= " $htmltag";
  282.             }
  283.             $entry .= " $modifiedtag" if( &is_it_modified($thisfile) );
  284.             $entry .= " <a href=\"$linkurl\">$1";
  285.             $entry .= " ($size kB)" if( $listsize );
  286.             $entry .= "</a>";
  287.         } else {                        # files with no title tag
  288.             if( $listwithouttitle ) {
  289.                 $entry .= " $nolinktag$baseurl$url";
  290.                 $entry .= " ($size kB)" if( $listsize );
  291.             }
  292.         }
  293.         $entry .= "\n";
  294.     } elsif( &isfileclass($thisfile, @incpics) ) {
  295.         $picsize += $exactsize;
  296.         $picct++;
  297.         my ($filenameonly) = ($url =~ m#.*/(.*)#i);
  298.         $entry .= " $pictag";
  299.         $entry .= " $modifiedtag" if( &is_it_modified($thisfile) );
  300.         $entry .= " <a href=\"$linkurl\">$filenameonly";
  301.         $entry .= " ($size kB)" if( $listsize );
  302.         $entry .= "</a>\n";
  303.     }
  304.  
  305.     # links to dir/ or to dir/index.html (see configuration section)
  306.     if( $indexrefs ) {
  307.         my ($filepart) = ($thisfile =~ m#.*/(.*)#);
  308.         $entry =~ s#href="(.*?/)"#href="$1$filepart"#i;
  309.     }
  310.  
  311.     return $entry;
  312. }
  313.  
  314. sub is_it_modified {
  315.     my $filename = shift;
  316.     ($mtime) = (stat($filename))[9];
  317.     if( $modifiedtime && ((time() - $mtime) < ($modifiedtime*60*60)) ) {
  318.         return 1;
  319.     } else {
  320.         return 0;
  321.     }
  322. }
  323.  
  324. sub getsize {            # get filesize in (kB, bytes)
  325.     my $file = shift;
  326.     my $exactsize = -s $file;
  327.     my $size = int($exactsize/1000);
  328.     $size = 1 if( $size == 0 );
  329.     return $size, $exactsize;
  330. }
  331.  
  332. sub isfileclass {        # check filesuffix
  333.     my $file = shift;
  334.     my @fileclass = @_;
  335.     my $item;
  336.     foreach $item (@fileclass) {
  337.         return 1 if( $file =~ m#\.$item$# );
  338.     }
  339.     return 0;
  340. }
  341.  
  342. sub isfile {            # check filename
  343.     my $file = shift;
  344.     my @files = @_;
  345.     my $item;
  346.     foreach $item (@files) {
  347.         return 1 if( $file =~ m#/$item$# );
  348.     }
  349.     return 0;
  350. }
  351.  
  352. sub load_part {            # only load file till </title> is reached
  353.     my $file = shift;
  354.     my $string = "";
  355.     open(INPUT, "<$file") || die "Cannot open '$file': $!";
  356.     while(<INPUT>) {
  357.         $string .= $_;
  358.         last if( $_ =~ m#</title>#i );
  359.     }
  360.     close(INPUT);
  361.     $string = "" if( ! defined($string) && $file =~ m#^$htmldir/$self$# );    # avoid warning
  362.     return $string;
  363. }
  364.  
  365. sub load {
  366.     my $file = shift;
  367.     my $string;
  368.     open(INPUT, "<$file") || return "";
  369.     undef $/;
  370.     $string = (<INPUT>);
  371.     $/ = "\n";
  372.     close(INPUT);
  373.     return $string;
  374. }
  375.  
  376. sub minzero {            # returns 0 if argument is < 0, else returns the argument
  377.     my $var = shift;
  378.     if( $var > 0 ) {
  379.         return $var;
  380.     } else {
  381.         return 0;
  382.     }
  383. }
  384.