comment on

This is the two field key comparison script. Here I also am trying to exclude those records that contain some binary (corrupted) data. Look for the "next unless" lines. Tell me please what you think about it. The script worked fine until I tryied to add this feature. I'm screwing it up now, since the diffs are bigger than expected. (sorry for posting this undebugged version)


#!/usr/bin/perl 
my ($prefijo, $n1, $n2)=@ARGV;
my ($endOfFile1,$endOfFile2)=(0,0);

open FILE1, "<".("0"x(8-length($n1)))."$n1"."\/$prefijo".".txt";
open FILE2, "<".("0"x(8-length($n2)))."$n2"."\/$prefijo".".txt";
open OUTPUTF1, ">$prefijo$n1"."NoEn$n2";
open OUTPUTF2, ">$prefijo$n2"."NoEn$n1";
open OUTPUTR1, ">repetidos\-$prefijo$n1"."NoEn$n2";
open OUTPUTR2, ">repetidos\-$prefijo$n2"."NoEn$n1";

my $recordf1=<FILE1> or $endOfFile1=1;
my $recordf2=<FILE2> or $endOfFile2=1;
my $key1, $key2;
my $keyDos1, $keyDos2;
my $firstpass=1;
my $prevkey1, $prevkey2;
my $prevkeyDos1, $prevkeyDos2;

while ( !$endOfFile1 && !$endOfFile2 ) {
  unless ($recordf1 =~ /^[ -\~]*\n$/) {
    $recordf1=<FILE1> or $endOfFile1=1;
    next;
  }
  unless ($recordf2 =~ /^[ -\~]*\n$/) {
    $recordf2=<FILE1> or $endOfFile2=1;
    next;
  }
  if ($recordf1=~/^ *([0-9]+)\,/) {
    $prevkey1=$key1;
    $key1=$1;
  } else {
    undef $key1;
  }

  if ($recordf2=~/^ *([0-9]+)\,/) {
    $prevkey2=$key2;
    $key2=$1;
  } else {
    undef $key2;
  }

  if ( $key1 < $key2 ) {

    if (($key1 eq $prevkey1) && !$firstpass)
      { print OUTPUTR1 $recordf1 if $key1;}
    else
      { print OUTPUTF1 $recordf1 if $key1;}

    $recordf1=<FILE1> or $endOfFile1=1;
    
  } elsif ( $key1 > $key2 ) {
  
    if (($key2 eq $prevkey2) && !$firstpass)
      { print OUTPUTR2 $recordf2 if $key2;}
    else
      { print OUTPUTF2 $recordf2 if $key2;}

    $recordf2=<FILE2> or $endOfFile2=1;

  } else {
 
    if ($recordf1=~/\, *([0-9]+)\,/) {
        $prevkeyDos1=$keyDos1;
        $keyDos1=$1;
    } else {
      undef $keyDos1;
    }

    if ($recordf2=~/\, *([0-9]+)\,/) {
        $prevkeyDos2=$keyDos2;
        $keyDos2=$1;
    } else {
      undef $keyDos2;
    }

    if ( $keyDos1 < $keyDos2 ) {
 
      if (($keyDos1 eq $prevkeyDos1) && !$firstpass)
        { print OUTPUTR1 $recordf1 if $key1;}
      else
        { print OUTPUTF1 $recordf1 if $key1;}
 
      $recordf1=<FILE1> or $endOfFile1=1;
 
    } elsif ( $keyDos1 > $keyDos2 ) {
 
      if (($keyDos2 eq $prevkeyDos2) && !$firstpass)
        { print OUTPUTR2 $recordf2 if $key2;}
      else
        { print OUTPUTF2 $recordf2 if $key2;}
 
      $recordf2=<FILE2> or $endOfFile2=1;
 
    } else {
      $recordf1=<FILE1> or $endOfFile1=1;
      $recordf2=<FILE2> or $endOfFile2=1;
    }
  }
  $firstpass=0 if ($firstpass);
}

while ( !$endOfFile1 ) {
  unless ($recordf1 =~ /^[ -\~]*\n$/) {
    $recordf1=<FILE1> or $endOfFile1=1;
    next;
  }
  if ($recordf1=~/^ *([0-9]+)\, *([0-9]+)\,/) {
    $prevkey1=$key1;
    $prevkeyDos1=$keyDos1;
    $key1=$1;
    $keyDos1=$2;
  } else {
    undef $key1;
    undef $keyDos1;
  }

  if (($key1 eq $prevkey1) && ($keyDos1 eq $prevkeyDos1) && !$firstpas
+s)
    { print OUTPUTR1 $recordf1 if $key1;}
  else
    { print OUTPUTF1 $recordf1 if $key1;}
    
  $recordf1=<FILE1> or $endOfFile1=1;
  $firstpass=0 if ($firstpass);
}

while ( !$endOfFile2 ) {
  unless ($recordf2 =~ /^[ -\~]*\n$/) {
    $recordf2=<FILE1> or $endOfFile1=1;
    next;
  }
  if ($recordf2=~/^ *([0-9]+)\, *([0-9]+)\,/) {
    $prevkey2=$key2;
    $prevkeyDos2=$keyDos2;
    $key2=$1;
    $keyDos2=$2;
  } else {
    undef $key2;
    undef $keyDos2;
  }

  if (($key2 eq $prevkey2) && ($keyDos2 eq $prevkeyDos2) && !$firstpas
+s)
    { print OUTPUTR2 $recordf2 if $key2;}
  else
    { print OUTPUTF2 $recordf2 if $key2;}
 
  $recordf2=<FILE2> or $endOfFile2=1;
  $firstpass=0 if ($firstpass);
}

close FILE1;
close FILE2;
close OUTPUTF1;
close OUTPUTF2;
close OUTPUTR1;
close OUTPUTR2;
[download]

In reply to Re: Key-based diffs by haroldo
in thread Key-based diffs by haroldo

Posts are HTML formatted. Put <p> </p> tags around your paragraphs. Put <code> </code> tags around your code and data!

Titles consisting of a single word are discouraged, and in most cases are disallowed outright.

Read Where should I post X? if you're not absolutely sure you're posting in the right place.

Please read these before you post! —

Posts may use any of the Perl Monks Approved HTML tags:

a, abbr, b, big, blockquote, br, caption, center, col, colgroup, dd, del, details, div, dl, dt, em, font, h1, h2, h3, h4, h5, h6, hr, i, ins, li, ol, p, pre, readmore, small, span, spoiler, strike, strong, sub, summary, sup, table, tbody, td, tfoot, th, thead, tr, tt, u, ul, wbr

You may need to use entities for some characters, as follows. (Exception: Within code tags, you can put the characters literally.)

	For:		Use:
	&		`&`
	<		`<`
	>		`>`
	[		`[`
	]		`]`

Link using PerlMonks shortcuts! What shortcuts can I use for linking?

See Writeup Formatting Tips and other pages linked from there for more info.