To run, simply type "perl scriptname.pl url" you'll a dump on STDOUT looking like:
TYPE : D #### 0:<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" > #### 1: #### #################################################### TYPE : T #### 0: #### 1: #### 2: #### #################################################### TYPE : C #### 0:<!--took this out for IE6ites "http://www.w3.org/TR/REC-html40/loos +e.dtd"--> #### 1: #### #################################################### TYPE : T #### 0: #### 1: #### 2: #### #################################################### TYPE : S #### 0:html #### 1:HASH(0x1afe3f4) #### 2:ARRAY(0x1afe40c) #### 3:<HTML> #### 4: #### ####################################################
#!/usr/bin/perl -w use strict; use LWP::Simple; use HTML::TokeParser; my $url = shift or die "usage: ". __FILE__ ." url"; my $rawHTML = get($url); # attempt to d/l the page to mem die "LWP::Simple messed up $!" unless ($rawHTML); my $tp; $tp = HTML::TokeParser->new(\$rawHTML) or die "WTF $tp gone bad: $!"; # And now -- a generic HTML::TokeParser loop while (my $token = $tp->get_token) { my $ttype = shift @{ $token }; print "TYPE : $ttype\n####\n"; printf( join( '', map { "$_:%s\n####\n" } 0..@{$token} ) , @{$token} ); print "####################################################\n\n"; }
|
|---|
| Replies are listed 'Best First'. | |
|---|---|
|
(crazyinsomniac): HTML::Parser token dumper
by crazyinsomniac (Prior) on Dec 28, 2001 at 08:31 UTC |