egrave: è : eacute : é : rsquo: ’ : lsquo: ‘

#!/usr/bin/perl use strict; use warnings; use lib 'lib'; use MyParser; my ($p, $txt); my $html = do{local $/;}; $p = MyParser->new(file => 'test.html') or die "can't parse: $!\n"; $txt = $p->get_title; print "$txt\n"; $p->get_tag('p'); $txt = $p->get_txt('p'); # upto a closing p tag print "*$txt*\n"; __DATA__ egrave: è : eacute : é : rsquo: ’ : lsquo: ‘

one two three
four five six

##

package MyParser;

use strict;
use warnings;
use HTML::TokeParser::Simple;

use base qw(HTML::TokeParser::Simple);

sub get_title{
  my ($self) = @_;
  $self->get_tag('title') or return;
  $self->get_txt('title');
}

sub get_txt{
  my ($self, $tag) = @_;
  my ($txt);
  while (my $t = $self->get_token){
    last if $t->is_end_tag($tag);
    next if $t->is_start_tag or $t->is_end_tag;
    $txt .= $t->as_is if $t->is_text;
  }
  for ($txt){
    s/\n/ /g;
    s/^\s+//;
    s/\s+$//;
    s/\s+/ /g;
  }
  return $txt;
}

1;