Re^2: Extracting data-structure from HTML using Web::Scraper

With help from http://cpansearch.perl.org/src/MIYAGAWA/Web-Scraper-0.36/t/04_callback.t a slight improvement

#!/usr/bin/perl --
use strict; use warnings;
use Web::Scraper;
use Data::Dump;

my $sample = q{
<html><body>
    <h4 class="bla">July 12</h4>
    <p>Tim</p>
    <p>Jon</p>
    <h4 class="bla">July 13</h4>
    <p>James</p>
    <p>Eric</p>
    <p>Jerry</p>
    <p>Susie</p>
    <h4 class="date">July 14</h4>
    <p>Kami</p>
    <p>Darryl</p>
</body></html>
};

sub scrap {
    my @root;
    my $names = scraper {
        process q{//h4 | //p}, sub {
            if( $_->tag eq 'h4' ){
                pop @root;
                push @root, {}, $_->as_trimmed_text;
            }
            if( $_->tag eq 'p' ){
                push @{
                    $root[-2]->{
                        $root[-1] # key
                    }
                } , $_->as_trimmed_text;
            }
        };
    };
    $names->scrape( @_ );
    pop @root if not ref $root[-1];
    return \@root;
}

dd scrap( \$sample );

__END__
[
  { "July 12" => ["Tim", "Jon"] },
  { "July 13" => ["James", "Eric", "Jerry", "Susie"] },
  { "July 14" => ["Kami", "Darryl"] },
]
[download]

Comment on Re^2: Extracting data-structure from HTML using Web::Scraper Download Code