comment on

How can I split a file

__DATA__
>i:/13414 Ccl9 (88)/sequencing/13414_fasta.Contig1
TTTCTCCGGCCCCCTCCTCCCGCGGGGGAAAAAACCCGGGGAGCAGTCGG
GCAGGGGTTTTTTGGTTTTTTCAAAATAAAAAGGGGTGCCCGTTGGGGGGcd 
GGGGGGGTGCAGGTTTCAACCCCCCCCCCCAAAGAAAAAAAAATTTTGGG
GAATTTTTGGGGGGCTCCACCAGTTTTCGGGGTTTTTGGGCCTTTTCAGA
AGGTAGGTTGGACGCGGATTGGGCAATAAACCACCCCGCTTCATCGGATA
ATTTTCCCCGGCCGAAAAGGGCCGCGGGGCCGGTGGGCGGCCTTGGGTTT
>i:/13414 Ccl9 (88)/sequencing/13414_fasta.Contig2
TAAACCCAAGGCCCCCCAGGTAAAAAAAAAACCGGCCAGGGGGGGGGGGG
TAAAAAAAACCAAGTGTCACCCAGGGTGGAGATCCCCGGAAAAGGAAAAG
GGGGGTTTTTTATTCGAAACGGGGAAAACTTTCACAAAATTTTGGAAGAA
TCCCCTTTAATGTTTTCTTTTCAAAAGGGGGTAAAAAAACCACCTTTAAA
AAGAAGTCTACCTTGGGAAAAAATAATTTTTGGGAAAATTTAAAAATTGA
[download]

based on the delimiter '>' and then print the lines
in between '>' and the next '>' then continue until I have
separate files like this
file1:

>i:/13414 Ccl9 (88)/sequencing/13414_fasta.Contig1
TTTCTCCGGCCCCCTCCTCCCGCGGGGGAAAAAACCCGGGGAGCAGTCGG
GCAGGGGTTTTTTGGTTTTTTCAAAATAAAAAGGGGTGCCCGTTGGGGGGcd 
GGGGGGGTGCAGGTTTCAACCCCCCCCCCCAAAGAAAAAAAAATTTTGGG
GAATTTTTGGGGGGCTCCACCAGTTTTCGGGGTTTTTGGGCCTTTTCAGA
AGGTAGGTTGGACGCGGATTGGGCAATAAACCACCCCGCTTCATCGGATA
ATTTTCCCCGGCCGAAAAGGGCCGCGGGGCCGGTGGGCGGCCTTGGGTTT
[download]

And file2:

>i:/13414 Ccl9 (88)/sequencing/13414_fasta.Contig2
TAAACCCAAGGCCCCCCAGGTAAAAAAAAAACCGGCCAGGGGGGGGGGGG
TAAAAAAAACCAAGTGTCACCCAGGGTGGAGATCCCCGGAAAAGGAAAAG
GGGGGTTTTTTATTCGAAACGGGGAAAACTTTCACAAAATTTTGGAAGAA
TCCCCTTTAATGTTTTCTTTTCAAAAGGGGGTAAAAAAACCACCTTTAAA
AAGAAGTCTACCTTGGGAAAAAATAATTTTTGGGAAAATTTAAAAATTGA
[download]

I am running into some trouble with this code:

#!/usr/bin/perl 
use warnings;
use strict;
use Data::Dumper;


#
# split a fasta file into separate sequence files
#
open( my $seqs, "C:/Documents and Settings/mydir/13063_fasta.contigs")
+;
open(my $seq_out,">C:/Documents and Settings/mydir/contig.fa" );
$/ = '\777'; # entire input to be read in one slurp

$seqs = <>;  # read input, assigning to single string

while (<$seqs>){
    if($seqs =~ m/^(>[^>]+)/mg) { # match indiv. sequences by '>'s
        push(my @seqs,$1);           # and store in array
    }

    for (my @seqs) {
    # only allow characters A-Z,a-z,0-9,'_','-', and '.' in names;
    # change if you're more liberal
    /^> *([\w\-\.]+)/ && (my $seq_name = $1);
        if ($seq_name) {
            open($seq_out,">$seq_name");
            print $seq_out "$_";
        }
        else {
        warn "couldn't recognise the sequence name in \n$_";
        }
    }
}
close($seqs);
close($seq_out);
[download]

Sorry for not being specific enough :-)

In reply to Re^2: splitting fasta file into individual fasta files by lomSpace
in thread splitting fasta file into individual fasta files by lomSpace

Posts are HTML formatted. Put <p> </p> tags around your paragraphs. Put <code> </code> tags around your code and data!

Titles consisting of a single word are discouraged, and in most cases are disallowed outright.

Read Where should I post X? if you're not absolutely sure you're posting in the right place.

Please read these before you post! —

Posts may use any of the Perl Monks Approved HTML tags:

a, abbr, b, big, blockquote, br, caption, center, col, colgroup, dd, del, details, div, dl, dt, em, font, h1, h2, h3, h4, h5, h6, hr, i, ins, li, ol, p, pre, readmore, small, span, spoiler, strike, strong, sub, summary, sup, table, tbody, td, tfoot, th, thead, tr, tt, u, ul, wbr

You may need to use entities for some characters, as follows. (Exception: Within code tags, you can put the characters literally.)

	For:		Use:
	&		`&`
	<		`<`
	>		`>`
	[		`[`
	]		`]`

Link using PerlMonks shortcuts! What shortcuts can I use for linking?

See Writeup Formatting Tips and other pages linked from there for more info.