position specific sequence

Question

jassipox 0 Newbie Poster

11 Years Ago

I am having two file (File A and File B) of sequence. In File A, thousand of sequences are in fasta format (For example:>seq1
GGTGTTTGCGTGGTTTCATGAAGGTTTTACTaTCCCGAGGAGCCTCATTAAATTGGCAAGA
CTCATTAAATTGGCAAGAGGTGTTTGCGTGGTTTTGGCAAGAGGTGTTTGCGGGTTTTAAA

seq2
CTCATTAAATTGGCAAGAGGTGTTTGCGTGGTTTTGGCAAGAGGTGTTTGCGGGTTTTAAA
TTTGCGTGGTTTCATGAAGGTTTTACTaTCCCGAGGAGCCTCATTAAATTGGCAAAAAAAA

In File B, Two differnt things are avilable first is the sequence number i.e. >seq1 and its position number 10-120 similarly others pattern are like >seq1, 8-84 , >seq2 11-45 are avilable.

I want to first search sequence file of File B i.e. >seq in File A if it is matched than extract the specific position of sequence i.e. 10-120 and get output in other file with sequence like >seq1 TTGCGTGGTTTCATGAAGGTTTTACTaTCCCGAGGAGCCTCATTAAATTGGCAAGACTCATTAAATTGGCAAGAGGTGTTTGCGTGGTTTTGG.

I will really thankful for kind of help.

perl position sequence

sequence.txt (29.96 KB)

The attachment preview is chopped off after the first 10 KB. Please download the entire file.

>sequence00001
GGTGTTTGCGTGGTTTCATGAAGGTTTTACTaTCCCGAGGAGCCTCATTAAATTGGCAAGACACCTGTTTtCGTCCCTCTCATCAATATGTTTGCgTtTCAGCAAAATAAaTTagcAACATCACTAAAGGGCTTTTAAAAAATATAAAATAAATTAAACAACATtATTCTCGTAACATTAGACAcATGTtATGCATATACTTGTACATTGCTTACTTAACTTTTTtATTGTATTTTCACTCgTAACATTTTCTaTTTTCTTTCTTACCGCCTACTTTtTCAtCGGTTTCTTTCTCACCATCACTCACAGTATCTCCGACcAAAaTTTTtATGTTTTTTTtAGGGCAAAAATACCatAATTTACTTTTCTtCCACaGATTATCACCAACAAGTAAATGGGTAtGAAGGCATCACAAACAAATCATTCACGACATATGACGCaGctGAAGCTCAATGCCTAAAATATTGTTCAAAcAAAGGTCATGCAAACTCTTCCCCAATATACAACAATACGCCCTTCAAACAAACCAATACTATTTGAaGACACAGTAATACATAAAaTTtCAATACTTTtAATATATATATATATATATATATGTTAATATGATTATGTTCTTTTATTTACTaTATTTTAAAAAAAAAaaTTTaCCGCCAAAGGTTCCAAcTTTGAATTGTTTGATAATTTTATtATAAAaTACATATTTTTCAAtaTATTtATTAAAcTATGTTATtATCTTATTtATTTtATTTGTTTGgAaGATGATTTtGAAAaTAATTCcAAAAcTTTATCGATATTAATGAAAATATGACGATCCTCTCATCAAGGGAAGCGTCACAATATCACTATTGCTATCACAAAACATTAAaTGAATTAAAAAaTAAACAAAaTTAATTAATAGGGTTTAGGGTACAAAAaTAGCACACATTtCTTACAAAATATCACTGCTGCATGCAATAAATTCTTCGGTCACTATAAGTCAAACATTAAATCAACTATTAATGCATTTCATTATTAACCCTAAGTCCAAAAAaTTATTATAATAAAATAAAATCTCAATTACAAAAGCTTAACACAGTTACTCCTTTACAATGGACACAAATAAACTACATTCTTCACCAGTTGCTATGACTTCTCCTAATGCCAACCGCAACAACACACAACCAATTACTATTGAAATGGCAGGGCCATCAaCAAaCAAAACTCcAACCATTACCTCGTCACCAAATGCTGTAGCCTTTGAAACCACTTCAACTTCTTTtGGGTtAGTTTAACAaTGCATTTATtGTAAATCACTTGTATTCATTCATGGAAGTTGGATGGTTGGTAAACAaTACTTTTTTtACAGGCCAATAGAAGTTATtGCTCTAACCAATAATCCTGACACAACCAACCAACATgAAAATCATtCCAAGGTAATACTTTTTTtCTACTACATCTCAAAAaTCATTGTCATTACGTACATACATATGGTCATTTCATTTAATGGTTCATTTTGTAGAATGCAATTGAACTACTACTTGTTCAGAAAaCTATTCAGGCCATATACTCCGCAACAAAACTCATTTATAACATGACTCAGGTTTGGCATGAAACATTTtATACTTTTttaTTtATTCAACAACCTCAATCATATATACTAACTTATGTTTTTtACAACCTTCATTTATAGGGTGTTAATGAGCGTCTCGAGGAAATGGAGAAAAAaCAAAATGAAATAGATAACAAGCTTGCAAACATTGTCTCAAATTAATATTACAAGAGACATAACTATTAGTGCAATTTCTCGCTCAATGAATGTTCAACCAAATTCTCCAACATTACCGAGTATAAATCTAGATACTGGAGTAAACACCACACCTAAGCGAATATATTGTCGAAATTCATCTCCATTGACAAAGCAATCCCAACAGAAGTTTCTGAATCACTCACACATTCTCAATCAAGTTGATACAAGACCAAGTAAGCGTAAGATGATTGGTAAAAGTATTTTGAGCAATAACAATATAGTTGGATATTCATCTTTGAACAAGACGAATGCAATTGAACTGGAAGTTGATCATCGTCAGTCAACCCAACCATCCAACTACAATCAAAATAGTAGTTTTTCCATTCCACTCAAACGGAAGGTCGTATACACTTTACTTTACATTTAATTTATAATACATTCAATTACTTCTCAATCAAATTAGTTTTTCCGTTCCACTAAAACTACAAATTCTTTTTTTtAGCCAACAATTAATGAAGGGTCATTGGAGTCACCTTTGCCATCGAATGTGTACAGAAACTTGACATTTAACGACTCAGCTGCACAAAGCAATGTTAAAATACCTAACATACCAACTGAATTAACACAAAATGCAAAAAAGTAGGTTCAACAACCAAACAACACAGATGTGCAAGATATACCATCAAGTGATGATGAGTTAGATGGTATCGTTGgtGTAGGCCACATTTTGCCACGagTAAACATTTTTACATTTAATTTTTTTtCAATGAACTCTTCTTAGAAATAAaCTCATTTTTAGGCcTACCAaGACATGGCATTAaCAAAaGATCAATTAtGaTtATGCACCTAtATTTTTtACCCTGAcTATAAACTCAGGTTACCATTTTCATAACTCCTTCATACTGTATTAAATATTTACAACTTCAAC
>sequence00002
ttatatatttaattatatattaatttattataaaatatgcttatttaatatcttagtGACAACTTAATTAACATATTaTTTtATtATACAaTTGAATTAAAATAATTTATATAATATATcTTtAATTTAAAaTTATATATTAATATATGTGATTCAATCcATTTATAATTTAGTTGTTTTATAAATATATTATATTTACTATAATTTATTTTGGAGACTTTTTTGAGCTATGGTATGAATTTTATTAAAATTTATATGTATAAAATATATATGACATAAATATTTTTAAAAAAGTTAaTTAAAACTCGTTCATACAATTTAATGAATGATTTACTGATTCAACTTCTGATTCATTGACTCAATATCCTAATCAATTTGATGATCGATCTAATTTTTAAAATATTATTATTGTGACTTTAGTAAATTAACATTTAAAAAAAaCaTAACAAAATGCTTACTATTAACTTTAACACCAAAGTGTGTTCTACAAATTATCaaTTCATTTTCACAACATCTTGTCTGTATATGCTAAGCATGATGAAACATCGAAGTTTTCAAACTCCAATCCATTTAGAGTTCGATAGAATCAACACTAATTAGTAGCTCAATTCTAATCAATTATGTACCTCAAATATATCAACAATCTATCTTGGACATATAGAAGTCAATCTCAAACACATTACTTtGGTCCATTATtATTTTTGAGACATGTCATCTTTTGTGACCTATATTTTTAATTtAATTTtGATAAaTAaCATTACTTGTtAAAACTTTTTTTtATATCTAGACATATTGTCTTAATATTAAATGAGTAACTATGTACAACTTTTGTtCTTTTTTgTTTGACATTtAaCGAGCATTTGGtAAGGAgTTTTTTTTTTTTTCATATTCAAAAaTTGTTTTCTTAAAATTACAAATCCTAGGAATCATGATTTTAAGTAAATTTTATTtAGTTACTCGTAAAGATtCTTGAAAATGTTCATATAAATTTCTAAAAATTAAGGATTTTTACGTTCGGTTACAaTAACATATTCTTAACTATGtAAATATTTTTCACAAAAATATCCTTTATTAAAATAATCTCATTAAATATATTAATTTATTCAAATTTTATTACAAATATGACATTAAACTTTTTTTATGATCTAATTACTTTTTAAATATAATAAAAATTTAATTAAATATATAaTCAATTTTTATATAATAaTATTTGTATTTGATAAAATTTAAATTATTTTAAAAAAaTAAAaCTTATAGTTAAAATTATTTAAATACAAAATTTAACAAAAAAaTAAACAAAAAAAAGTGTTACCTTATAATTAAGAAGATAAAAATATATTATTTGATTTTATATAAAAATAAaTAAATAAATAAAAaTATTAACAAaTATTATTtAATTACAGAAaTAAAaTACATTTTAATATTATATAAATATATATAGGTAAAGACAAAAAAAaTTCTCGAATTATATTTAAATAAaTATTATTTTTtAGAATTATTTTtAATTATCTTAATGGAATAAATATtGATAACTGAATAATTAATTCATAAAAAaTTATCATCAATCTTATTATATCTGTTATATATATATATATATTTCAATCGGGATGAATTACCATTAAAGTTACTTTAATCAGAACATGTGCTCAGTAACTTTGATCCAATTGTTTGAATTGAGCTCATAGAATTGTAATTTCATAAAATACTGTCCAAGTTAGATGTTAAATTCAATATATTTTTTTCTTAACAAGAGAGTTAAATTTAAAAGGAGAATTTTCATGCGCTACTAACAGATCGTAAAAACTAAAAaGGCATATTCAATTGGATAAACGGAGAAGAAACTATAACAAAGTTTAAAATAAATTAAAAAAAAaCAAAAaTAGTGTATTGTAGTTCCATCTTGAATTAAGAATGTTGCCGATTAATTATTAGTATTACATAAAGTAATAGGAAAGGAGTGTGTCGGAAAGAATCGAGATGCACCAGAGACGGGGAGACCCGTGGACCCAATCTCAGTCCACGTGGGAGCCTATTTTCTAAGCATTAAAAACAAACCAATGTGGTATAATAATAAATTCTTAATTAATTTACTTTAACATACTTTATGGTGCCTCTTTTATGTTATTTATAGATCAAGAATCAAGATTTGGACACAGAAGATATGGCAGATGTTCTGGACGACGAGGCAATGCATTACGCGGCGTTGGATTGGTTGCATTATTACATACGACGACGTATAAGTTATAACCCACCTATTCATCATACTATATAACTTATACTCTTTCTTTACTTATCATCTTCTTCTTCATTAATTGGTTGGGGTGGTAATGAACAAAaTAATCTAGTTTTATTCCTTGTTTTCTCTTGGTATGTAAATTGTTTAACGGGCTGCTGAATCTCACACAGTTTCAATTTTCATATTTGTTGAATTTTTCTATGACATGTGGATCTTGTGCTCCCAAGATCACTTCTTTTTAGTATAAAAAAGTATTTAGTTAATAAAAATAACGTCTCATTAGTACAAATTAGTTTTTAATTATCTATTTTAAAACATTAATCGAATCATGTTCACAGAAAAAaTAAAAaTtGTAAACCAAATATATAATTGGTGGGGGGgATAAATAGTAATTTTGTTATTTAATGTGTCTTTATCATTAACATTTTTATGAATAATATATCAAGATGGCGATGTAGCAGTGGAGTAAAATAAAGGgAAAaTTGGTTTtAAGTTAAACTACAAAAaGTTTAAGTATAACTTAATAACTATATATATATTATGATTAAATTGGATTGTAGTGAATAATTTTCTGTTACATATGGACCTGGCCATATGGTTAAGTGAGAAATAAACTCAATGTATCCAATGAAAAGGAATTTATATGAAAATAATTTTAAACAAGCTTGATGAGTAATATTAGAAAGCTTCTTTTGTTTTATTTAATTAATATTTTCATTAATTAGTGACACAAACATGGATCCAATGTGACAAGTTGTATATGTTATATGTAGCAAAGCCAGgCTtAGAGGCAGAGTTTTCTTTtGGAATGTGACAGCTTCTTAATAGCCACGTGATGTTTGAACGTGACCACGTATGAAAGCAAAGCCAAAAACGTAAAaCGGGATCCTTTGCAGAACGTATATTTTTACACACCATAAGATATGTGCAAGTGCAACCAGGCAGGCACAACAAATATATAAGCATAAAATGATGTTTATGTGCCCCTCAACTTGAATGAATTGGTTAGGTGGATAGTGTGGAACAATTGTTTGTAAATGTACATGAGAATTGAAAACAGTATGTGATGATATATATGGCACAAACATTTGACTCGACCTCGGGCATGTAGCAGAAAATAACGGAAACCAAGGGAAAGAAAGGTAACTACCGCAAGGGATGAGTTAAAAAAAaGAAGGGTGGGTGTGAAATTGTGAATGACACCCTGTTAAGCTCGGATCTCAAACAGTGAAGAAGACTCTCTTTTGAATTTGAACAATAAGGAAAAAAGTCTTAGGAAGAGGGCACATTATATCCTCACTTGTGTCTTTCCAACGTGTCTCTCTAAGATTTGCTAGGTGGGAATATATAGGCTTTGAAATTTGCACAAACACTGGCGTGAACCAGAAATGTCGCAAGTGTGTGTTTTGCTAGTGCACGACCATGAGAGGGAAACTGCAAAAGTAGAAAAAAGTTGAAATTCAGATAGTATATAGAAAAAAGGAGAATTTCAAAGATTAGATTAGATTAGAAAAGGGTTAGAAATTTGTGTCCTAAAGTCTCTTTTTGGAAATCCATGTTTAAGCACGTCTGTTGTTGTGTGTTGAATCCAAGAAACAGGCATCCTAAGTGAAACTAATTAAACTGAGCTTGTATGGTTTTGTGGTCCAATTCAATTTCAAAAATTTCACCGTTCGTTTTCTTAATTATTGGTCATCCAAAATGATGATCTATGGTCAAACGGCTATATAAAACAGGAAAGAAGGGATCTTATGTAAATTTTGCAAGACTTGCACTAAAGGGAGGATCTCGTGTAACTATTGGTCGAAGTTTTCAACATTGTCACCTTGTGTTCTAGTTGCACGTAGAAGATTGACTGCTGATCGTCATTCGTGACCATAATTCAGTAAGAGTCAATCAAAATTGCTAAAGAAATTACACCGCTTAAAAAACTCTCATTTGGGTTGTTACAACTGCATTATTATTAAGGGACCTTTCTAGTAGACGTTTAAAATTCATCAAAACTACTTTCATCCAAGAAAAaTTAACGTTTGAGATTGATCCAAAACAGTACAAAAAAAAAAaCAAAAaCACCTCGTGGTCTTATTAAAAATTTGCTTGATTCAGTAATACAAAGCTTTAAAGTGTTTCAAAGAAAGCGACTATCCACAGTTCCACACTGATTGTACCTAATTCAATTTGAAACAGTTGAATATCTAATATATTGTCGTCTTAGATTAACAAAAAGAAAGTTTTAATATTCTCTTGGTCATATACTTACAAAAATATCATGATTAATCCATGTTTCGTTCAATTTATTTtATAAAAaCAATTATATTATTTTTATTTTtGTGATAAaTTTtAAAAAaTAAaTtATCGAATTATTCCGTCCCAAACACATAATAATTAAGTTTAGTTtGTTTTTTTtAAAAtAaGCTTTAATTTAAGTAGGCTTACTTAAATGTAATTTGAAAGCTCCGTGTTAGAACTGATAATGAATCAAGTCAAGGCCTGATTCAGGCATATTAGAAAATCAAATATGCTCAAAGTCAGTTCACCTTACGATCGAACTCTTtAAATTTATAAGTCATTATCAAGTCTTGTATTAGTTTAATTAATATAATTAAATTTATAACTTAGTTCTTTTtACTTACATAAATATATAATTTAGTCATGCCAAAAaTAAATCAAAaCAAAATGATGACTATTAACTATTATTtGTAATAAAAAAATTtATATATATATATATGTTATCATATGTGTATTAAAATAATATTTAATCAAAATAAATTACGTACTGTAAAAATAAaTTACTTTTtGATTATTAACTTTAAAATATTACATAAATCATGTCCATAAaTTTAAAAAAAAAaTGGTCCCGGAACTCATTGGTCAATCTCAAGTTGGATTCTTATAAGAAaCAAAAAaGGGGCCTAAAATTTTCATTTCGTGATCTGGCTCGTTTGCCAGCATTGTTCGCGCGCGCGCTCTACAAATTTATTTTTTGAGAAATTCATTGAAACTTGTTAGTACACTAGCATTCAATCATTGGAGTACGCTGATTCACTTGCATTCAAAAATAAATTGACAACTACAGTATAATTCATCAAACCTATTTAGAAATGATTTCGCCACACATTTATATATTCTACTTCAAATCTTTCTGTTGGTACTTTGTCGTAGAAAAACCCAACGCAAGATATTGTTTTGCCTGCAACCAAGAAAAACAATACTACTTTGCCCACAATCAATAATCAAAGAGCATATATTAAAATGAGAACTATTCCGAGGGGCAACAACAGCATTGCCTAGTCGAGGCGCATCTGATGAATGATACAAAACCAAAAaCACGTTGGATTGGACCAACTTTATCTTCAAAATCTGTTTGATCTCAATACTCAAAAACTCTACCTTTGCTAATTTCAAAAaCAAGTTCAAGCCCCcACCTCTCTCCCTATCAAACAAAATGACACACTCACACACATGACATTACCATTACCATGGAAAAGATGTACAATTTCTAGGAATGCTTCCGTATAAGTTTAGCTTATACAATGGCAAAACTGAAATTCGCAACTTCATCACGTGTAACTTGTAATTAGTTGTGGACCATGGTTATAATCTGTTCTAGACAACAGAGAGTTCTATAACCAAATTACTATTCAGTAAGTAAAAAaGTTATACTACTAACATAAATATAACTAAGTAGTTCGGTCGACTTTCAGAGTTAGATGATCTAAATTACATCCAATTAGTTAGAAGAGTACAGGGTTTACTTATGATTGTGTATTGCCGACCAATTATTACATGTGTGTAAATTCAGTAATTCACATTGCGATATGGTTCGTTGCTAATTGGACACTTAGAGGATATATGAGGTCCTACACTCCTACTCAAGCTTGTCAATTCTTAAGGTTCACAACAATTTCGTACTTGCGAACCAATATTGATAGATCCCAAAAGGAGACGCGCCTATAAAAGTGACAAAAGAGCAAAaGTACATGTCTTTTGCGAATTGTATGAATTGGCCACTGACCAAACATAAAAGACAGCACCTTAGTTTTTTTTTtCCAACACAGTAACATGGGTGATTTAGGATTTGAGGGTTTAGATTTCATCATTATTAGTGATGTTATTATTATTATTATTATTCACAAAGTACCCTTTCATTTAATATATGTGTTTAAGATTCGATTTTATAATTATAAATTTAAAATCTAAACAAAACTTATTTGAATTCCTTAAAAAGTTATTACTTATTAGTTCTACTGAAAAAAaCAAAGTACTCGTCTTCAATGATCTTGTTTCTGTTAGTATAATGTTATCCAACCGAAAATGATTTATTAAATAGAATTTTTTAATCTATGTTAATGATATATGCATCAATTTTCTATACAAATGATATTATCTGTTAGTAATCAGTGCTGTGAAAACTAGATGAAATCAGACGATAGTGAACTAGTGCTAGCTCCTATTGAAATGGTTTACTAGTTGAGTCGGGTATGTAATTGAACAGACTCAAATCGTTTGGTTTTCACAAAAGTTTAGTAAGCCAATCCGGGTTGCAAACGTTATTTATATAAAATAAAAaTAAAAAaTTTAAAACTCCTTTTAAAATAaaCGATTAAAACCTTTTTtCCAAAaTAAAAATTCAAAATAATGCCGATTAAACTTTGTAAACATTGTGTTTTGAAGAGTTGATAACTAGAACATAAAATTTTAGATGTTGtAATTTTTTTtATTTTTgAACTTATTTATGGAGTTATAACGTTGACTTTGTTATTATGAACATTAGTTTAATTGTTATTTGGATGTTTAGTACTTTATAATGATAACATTTTTTAAATTTGAAATATGAAATtCTTTTATATATAATGAACTTGTGATCTTAAGTTTAAGGTTAGGACATGTAACATTTATCATTTATTATGAGAATTGTAAGATATGACTTAGTGGGGAGAGAAATTTTGAGGACCTtAAACATTTTtCTTTCTTCTTCTCATCAGGTTCTTAAAAGAAGACTCATGCTCAAAGACTCTATTTTCTTTTtCTTTGAGACTTTGTAACTGGTGGTGATTAAAAGCAATTTAGAACTAAGAATCCTATGGAGTAGGTGTGAAACTCAGGTTGTTGGAGCTTATAGCCCATTTCCTTCTCCTTCTCTTCTTCAACCTCAAAGTTCTTCCCcAATTTCACTTCATTCCGAGGTCAAGGAAGTTGGAATCTTGGATTTTTAGTTGAAATGTTGGGCTGTTGAATGAATTAAGAACTTACTGTTGATAAAATTTCTGAAATCTGTAGTTGTGGGAATGGATTTGAAGTGGGTTGCATGTTGAA

sequence_name_and_position.txt (0.64 KB)

sequence Name 	Sequence Start position	Sequence end position
sequence00002	1	400
sequence00002	855	936
sequence00002	2444	2584
sequence00002	4978	5087
sequence00002	7433	7630
sequence00002	7520	7650
sequence00002	7692	8182
sequence00002	8218	8898
sequence00002	8359	8962
sequence00002	8868	9350
sequence00002	9987	10242
sequence00002	11431	11670
sequence00002	16776	16948
sequence00003	922	1026
sequence00003	1283	1698
sequence00003	1790	1958
sequence00003	1963	2081
sequence00003	2004	2177
sequence00003	2329	2431
sequence00004	15	343
sequence00004	346	440
sequence00004	348	422
sequence00004	426	862
sequence00004	863	1271

3 Contributors
2 Replies
251 Views
2 Days Discussion Span
Latest Post 11 Years Ago Latest Post by d5e5

2teez 43 Posting Whiz

11 Years Ago

Hi Jassipox,

There are several ways of solving this problem. I would have really love it, if you have shown what you have tried so far on your own. However, I will show a solution here, that really solved the problem you posted. And I can only wish you take it as a guide to knowing and working with Perl the more.
Here we go:

#!/usr/bin/perl
use warnings;
use strict;

my $seq_name_n_range;    # variable to take in names & range of seq.

open my $fh,  '<', 'seq_name_pos.txt' or die "can't open file: $!";
open my $fh2, '<', 'seq1.txt'         or die "can't open file: $!";
<$fh>;                   ## remove the header
while (<$fh>) {
    chomp;
    next if /^$/;
    my ( $name, $intial_position, $final_position ) = split;
    push @{$seq_name_n_range},
      { name => $name, position => [ $intial_position, $final_position ], };

}
{
    local $/ = ">";      ## change the input record seperator value

    while (<$fh2>) {
        chomp;
        next if /^$/;
        my ( $seq_name, $data ) = split /\n/, $_;

        while ( my ( $key, $value ) = each @{$seq_name_n_range} ) {

            if ( $value->{'name'} eq $seq_name ) {

                output_string(    # call subroutine output_string
                    {             # pass anonymous hash
                        data     => $data,
                        position => $value->{'position'},
                        name     => $value->{'name'},
                    }
                );
            }
        }
    }
    close $fh2 or die "can't close file: $!";

}
close $fh or die "can't close file: $!";

sub output_string {
    my ($input_has_ref) = @_;

    printf "Name of Sequence: %s  Range:%s  -  %s\n", $input_has_ref->{'name'},
      $input_has_ref->{'position'}[0], $input_has_ref->{'position'}[1];

    push my @data_array, split //, $input_has_ref->{'data'};

    print @data_array[ ( $input_has_ref->{'position'}[0] )
      .. ( $input_has_ref->{'position'}[1] ) ], "\n\n";
}

My Output can be seen the file attached to this mail. Please check it.
The only issue I have with this code is that all the counting starts FROM 0 NOT 1. i.e All the array start from 0. If that is what you want fine, you could use this without any change. But if you want you counting to start from 1, you might have to change this line

print @data_array[ ( $input_has_ref->{'position'}[0] )
      .. ( $input_has_ref->{'position'}[1] ) ], "\n\n";

a bit. And that you have to figure out. It really simple.
I can only hope this helps.
cheers,
~ 2t

answer.txt (7.62 KB)

Name of Sequence: sequence00002  Range:1  -  400
tatatatttaattatatattaatttattataaaatatgcttatttaatatcttagtGACAACTTAATTAACATATTaTTTtATtATACAaTTGAATTAAAATAATTTATATAATATATcTTtAATTTAAAaTTATATATTAATATATGTGATTCAATCcATTTATAATTTAGTTGTTTTATAAATATATTATATTTACTATAATTTATTTTGGAGACTTTTTTGAGCTATGGTATGAATTTTATTAAAATTTATATGTATAAAATATATATGACATAAATATTTTTAAAAAAGTTAaTTAAAACTCGTTCATACAATTTAATGAATGATTTACTGATTCAACTTCTGATTCATTGACTCAATATCCTAATCAATTTGATGATCGATCTAATTTTTAAAAT

Name of Sequence: sequence00002  Range:855  -  936
AGCATTTGGtAAGGAgTTTTTTTTTTTTTCATATTCAAAAaTTGTTTTCTTAAAATTACAAATCCTAGGAATCATGATTTTA

Name of Sequence: sequence00002  Range:2444  -  2584
TGGATCTTGTGCTCCCAAGATCACTTCTTTTTAGTATAAAAAAGTATTTAGTTAATAAAAATAACGTCTCATTAGTACAAATTAGTTTTTAATTATCTATTTTAAAACATTAATCGAATCATGTTCACAGAAAAAaTAAAA

Name of Sequence: sequence00002  Range:4978  -  5087
ATTAAAATAATATTTAATCAAAATAAATTACGTACTGTAAAAATAAaTTACTTTTtGATTATTAACTTTAAAATATTACATAAATCATGTCCATAAaTTTAAAAAAAAAa

Name of Sequence: sequence00002  Range:7433  -  7630
TGGAATCTTGGATTTTTAGTTGAAATGTTGGGCTGTTGAATGAATTAAGAACTTACTGTTGATAAAATTTCTGAAATCTGTAGTTGTGGGAATGGATTTGAAGTGGGTTGCATGTTGAAATTGAGGTTTTGATGTTCTTGATGAAAGGTTAAAATGTTGATGATTTCTCTAAGTTATGGTTGATGCATGTTGCTTTtC

Name of Sequence: sequence00002  Range:7520  -  7650
GGGAATGGATTTGAAGTGGGTTGCATGTTGAAATTGAGGTTTTGATGTTCTTGATGAAAGGTTAAAATGTTGATGATTTCTCTAAGTTATGGTTGATGCATGTTGCTTTtCCTTTGATTTCCGAGTTGTAG

Name of Sequence: sequence00002  Range:7692  -  8182
TAGCATAAGTTGAGAAAAATTGAAGATTTGGGATGCTTTTCATTGATGCTAAAAAATCTAAATTATAGGGTTGAGCGTGAGTTTCATGTTAAGTAAGAGAATCGAAAAGTGTCTCTAGAAGGCCAAGGTTTAGCGTGAGATCCTACGTTAAGTGTGAGAGAGACTGAACGTGAATTTCATGCTAATTGTGAGAATTAAGATGTGCCTCTAGAAGGTTGACGCTTAGGACGAGATTTTACGTTGAGCGTGGGAATTGAGTCAAATAAATTTCTTTTCTAATAGAATTGGTTGTTTGCTTGATGAATGAGTTATATGTTGAAAGCTTGTTGTTTGAGTTGTTTTATGGTTAAATGACGATGAATAAGTTGTAGGGATGTTGTTGTATGATAAGGAGCTTTATATGTTTAATGTTAATAAGTTGTATGTTAGTGATTATATTGTGAGTTGCTAGTTGAAAGTTGAGTTGGgTAGTATGTTGTGTAGTTGTGTAA

Name of Sequence: sequence00002  Range:8218  -  8898
TTGTTGATGTGTTGATGACTAAaGAGTTGAATATGAGTAGTGATGATAGAGTTGTGAGATGTGAAGTTGTATGTTGATTTCGTTGTTGTGTGAAATATGTAAAAaGTTGTTGTGTTGTTGAATTGTGGTGACTACTTAGGACTAGAAGAAAGATTTTCGAAAGTTACATATCCCATTGTGTTGATATTGTATTGTGGTGCTATGAAAGCCCAATTTGTTGAAAATTCTTATTGAAAAGTTGATCCTTGAAGCAAATAGTTGTATTGAGTCTTCTCTATAACTTTGTTGGTACTGTGTGTGAGCAAGGTTGGGGCACATGTGTATAAAGCGACCAAATTGAGTAAAGTATAAAGTCGGAAACTTAGTTCCTAACCGACTATGACATAGTACTTAGAGGGTAGTTGATGGACTAATTTCATAGGTGACTTGATTAAGCTAACTAATGTCATGGTAGGTCCAAAATCCAATTGTTCTACCCTAACAATGATACTAGGCTTCCTTGTTTAAGTGACGACATTTGAGAAACTAAGTTGTTGTGTTGTAGATTTATATCTAATTTATTGTTGATCTATCAAGCCCAAAAAGATTATCGGTTCGATAGGATTAAGTCACTCAAACAACTCACCTTGTTTTGTAGGAGATCTCCTAATTAAAATGCGTGATTACATATGTAATTGTTGT

Name of Sequence: sequence00002  Range:8359  -  8962
CTAGAAGAAAGATTTTCGAAAGTTACATATCCCATTGTGTTGATATTGTATTGTGGTGCTATGAAAGCCCAATTTGTTGAAAATTCTTATTGAAAAGTTGATCCTTGAAGCAAATAGTTGTATTGAGTCTTCTCTATAACTTTGTTGGTACTGTGTGTGAGCAAGGTTGGGGCACATGTGTATAAAGCGACCAAATTGAGTAAAGTATAAAGTCGGAAACTTAGTTCCTAACCGACTATGACATAGTACTTAGAGGGTAGTTGATGGACTAATTTCATAGGTGACTTGATTAAGCTAACTAATGTCATGGTAGGTCCAAAATCCAATTGTTCTACCCTAACAATGATACTAGGCTTCCTTGTTTAAGTGACGACATTTGAGAAACTAAGTTGTTGTGTTGTAGATTTATATCTAATTTATTGTTGATCTATCAAGCCCAAAAAGATTATCGGTTCGATAGGATTAAGTCACTCAAACAACTCACCTTGTTTTGTAGGAGATCTCCTAATTAAAATGCGTGATTACATATGTAATTGTTGTATTGAAAaTACCGTGTAGCTATGATGATTATTTtGTTTTTGAGAATGTTGTGATGTTGAGTTGA

Name of Sequence: sequence00002  Range:8868  -  9350
TAAAATGCGTGATTACATATGTAATTGTTGTATTGAAAaTACCGTGTAGCTATGATGATTATTTtGTTTTTGAGAATGTTGTGATGTTGAGTTGATATTACTTATTTTTtCTTTTTTTtACTCTATATTGTCCTTACGTGTTTCTATGTGGTTTGGATTACGATGATCATACGAGGTATGAAAGTAAGGTAGGAATAAGATTGGAGTGTTGTAGTAGAGGTCATACAGTGGCGCTGCAACTGATTTTTTTTTTTttATGACTACCTATTAGTGGTAAATTTGGGTAGATAGTTGTAGTTTAACTTATTTGTATATTTACATTTACAAGATTATTGTATGTATATTGCACATATTTGTGTAGTTGTTTCATCTTGTATGTATGCGATATAATACACATCCTAATATTTATAAGTATATAGTTAATTATTTTTCACTACTAGTAATTATGTTGTTTAGTATAGGAATTATAACGAGTCGTTATAA

Name of Sequence: sequence00002  Range:9987  -  10242
TGTCCTTGGTATGGAGGAAAGATACAAtCGAGAAATTGAGTGAAGAAAAaTAAAAATAAAAAaTAAAAaTTTtGGTTaTTtGATtAaGAGAAaTAAATAAAAAaTtaTATATATATATATAAGAGAAGAAaGAGAAATAAATAAATAAGAGAATGAGATTTATTCATTTTTAATTTTTtATTCTCTTATTTTTTTtCAAACAAACAATCTTaTTTTTTTATTTTTTTtATATTTTATTTCTTATCTATTTTTTTtA

Name of Sequence: sequence00002  Range:11431  -  11670
AAATAGCAAGAGAGATATTGTGCGTCATTATTGTTTTAAAAAaTAAATAATTAGTTAGAGATTTATAAAAAAAAaTAGAAATTGAATAAAAATAATAGGAAAGAAGAAAAACAAAAGAGAGTGATTTGAAAATTGTGATAATAATAAAATTGTCCCAAAAAAATAATGTACAGCAAAATAAATTATTAGTTTTATATATTGTTATAGATTATATTTTATGAAATTAATTTTAAATAATTA

Name of Sequence: sequence00002  Range:16776  -  16948
TAGTTGGTAGATAATTAGCATTCTTAATATTTTCAAGGATTCACTTATTTAGTTGTGCATGTGAAAAAaGATTTTGTTGGGAGAGACGATATCAATAATCTCTATGTTTCGAAAAaGAATTTTAATCTTTAAGATTATCGACAGAGGATAACTCAATTTAGTGAAAACTAAAT

Name of Sequence: sequence00003  Range:922  -  1026
GTGTTtGATTTACTTAATTTTTGAATTTTAAAACTACATTCAACGTAATTTTACTCTCTTGTAACTTTGACGTTGAACAAAACTAAACGAGAATACAAACATACT

Name of Sequence: sequence00003  Range:1283  -  1698
TTAAACATTATTAGTATTCTCTTCTTTTTCTTTATGTCCATTTCCCACATCTTCCCCCTAATaGTAAAAAAAAAaTCTCTTAATCATTTCAAACTATCTATATTTATTTTTATATATTTAATATTCTTATCCATTTATTCCTTTTAATGTACCCTCTTTTATTTATACATTTATTATTtATAACAAATTTAAATATTTTTtAAATAAGAAATtATTAATAaTTAAAACTAAtaTTATATCACAATTTAAATTATTCATtATAAATGTAAAATATAACTTCCaTATGTAAATATATTTATTTAATATAAATTTTAaTTGTAATACAATTTATATATTAAAAACAATTATTTACTGTAAATTTTAATTATATAATAATAAACAGTTCTCCTATGTAATATTATATAGTAGAATAATAG

Name of Sequence: sequence00003  Range:1790  -  1958
GGCTCATGATATATACTATtCTTTTTTTtATTTTTtATAATTACACTCCTTTTTGTTTTAAATTTATAAAATATTGTAGTTTTTTTttAAAaTTTtTTtAATTTTACACTtCCAACTTTCAATTTGCTACTTTCTtctCTTTTTTTtCACACTTTTTTcTTTCTTTTAC

Name of Sequence: sequence00003  Range:1963  -  2081
TACCAAAATAGGTGTGATGAAGGAAAGGTAAGGAAGTATAtgTAAAAATTGAAAAAagaGGAAAAaTGTgTGAAAAAAAaGTACTAAATTAAATATTGTAGATGTAAAATtAAAAaTTA

Name of Sequence: sequence00003  Range:2004  -  2177
gTAAAAATTGAAAAAagaGGAAAAaTGTgTGAAAAAAAaGTACTAAATTAAATATTGTAGATGTAAAATtAAAAaTTAAAAaCAAAAAAaTTAAAAAaTTAaGAATATTTtAGAAATTTAATtATTTTTTAAAAAaGGaGGTGTaCTTAAAGAAGGTATATATATATGAATCTT

Name of Sequence: sequence00003  Range:2329  -  2431
GGgTTCAAACGACATCAATGTAGCTTTTACTAAGTGTTATACTGCTTAATAATTTTATATTAAATGTGAATTTTGAAAATCTAACCGTTAAATtGAAAGTTCA

Name of Sequence: sequence00004  Range:15  -  343
agacctaattaagacttcatccaacaaagtcatgaaatatcgaaccacattgacaactacatcccttattgATGCAACACcTTTCATGATTaCAAaTaTTACCgAcTCCGTTAaCTaGTCaTCAATgtGGGgTGTAGCAaCAAAaTGgCATgCCAATgTGATCAAaTAGTCATaCtATCATTTTCTtCATCAATCCACATTTTTCTCCAATGCCTAGAAGTCAGAGAAATTACACGGTTTACGATCATGCCTCAACTCCAAAATGTCATCAATTACGAGCATAATAGTCTCTATGACATCGAGCCTTGAAAAATAAACTTGTCTCAACA

Name of Sequence: sequence00004  Range:346  -  440
AGGGATGACAAATATACTCGTACTTGTAGGTAATACCCGAACCCGTCCCAACTTTGACGGGAAATACCCGGTTTGATCAGGTACGGGTAAGGGTA

Name of Sequence: sequence00004  Range:348  -  422
GGATGACAAATATACTCGTACTTGTAGGTAATACCCGAACCCGTCCCAACTTTGACGGGAAATACCCGGTTTGAT

Name of Sequence: sequence00004  Range:426  -  862
GTACGGGTAAGGGTAAAACTCGATATATTAAATTGGGTACGGGTACGGGTACAGGTATGTACTTACCCGCCCCTTATCCGTACCCGtCCATGTTCCCATTTTTAATTTAATaCCCACTTTCAATTTAATTATATTAAAGAATTTTAATATTTTTTTATGTGTGATTATTTATTATAATATGAGATAGAGAAAAAACCTAATTATAATTATAATATAAAAAaTAATTTAAAAaTATCATATATTTTTTtACAAAAAaTAAAAaTAAAAAaTTGACGGGTACAGGTACGGGTATACCCGATACCCGACGGGGACGGGGATGGGGATGGAAATCATAGACCCGATAGGTACGGGTACGGGGACGGGGACGAGTTTGATTCGCGGGAACGGGgACGGGTATCATGAAACATGTACCTGACCCACCCCGTTGCCATCCCTAC

Name of Sequence: sequence00004  Range:863  -  1271
TCAACACCAACATAGGGTTAACTATCGTCATAGAGGTCTTAATAACACCGAGCTCCAAATAATGTCTTAACTTCAATATGGTGTCAACCACCAGCATAGTGGTCACATCAACATTGAGCTTAAAAAAAaTtGTTTCAACTCTAACATGGTGTCAACCAATAACATAGCGATCCTTATGACACAAAGCTTAAAAATAaTTATGTCTCAACTCCAATATGGTGCAGACCACCGACATAGTGGTCCTAATGGCACTGAGCTTAAAAAAAaTTATGTCTCAAATCCAACATGGTGTTGATCATCGACATAATAGTCCCAATGACATGGAGCTTAAAAATAATTATGCCTCAAATCCAACAAGGTGTCGATCAATGACATAATGGTCCTAACATTGAGTTTAAAAAAaTTTATC

Edited 11 Years Ago by 2teez

Reply to this topic

Be a part of the DaniWeb community

We're a friendly, industry-focused community of developers, IT pros, digital marketers, and technology enthusiasts meeting, networking, learning, and sharing knowledge.

d5e5 109 Master Poster · Answer 1 · 2012-08-20T14:48:54+00:00

You may also want to look at the Bio::DB::Fasta module. I haven't tried it but according to the docs it has the following method to extract specific substrings from fasta files:

$raw_seq = $db->seq($id [,$start, $stop])
Return the raw sequence (a string) given an ID and optionally a start and stop position in the sequence.