[英]python 2.7 read file with big line
I have a fasta file and I want to print only the sequence 我有一个fasta文件,我只想打印序列
f = open ("NC_007970.fas",'r')
for line in f:
print line
it prints only the first line > NC_007970
它仅打印第一行
> NC_007970
I think the problem is from the fasta file itself it's composed of first line with '>', and the second line is the sequence and no new lines in the sequence itself and its length is about 19000 character 我认为问题是来自fasta文件本身,它由第一行带有'>'组成,第二行是序列,序列本身中没有新行,其长度约为19000个字符
> NC_007970
GTTATTGTAGCTTACACTAAAGCATGGCACTGAAGTTGCCAAGATGGGTAATCAAAATACCCCAAAAACACAAAGATTTGGTCCTAACCTTACTGTTACTTTTTGCTAAAATTACACATGCAAGTATCAGCATACCAGTGAAAACACCCTAGCAATCCTATTAGACAAAGGAGCCGGTATCAGGCACACCATGATAGCCCAAGACACCTAGCTTTGCCACACCCCCAAGGGCATTCAGCAGTGATAAAAATTAAGCAATAAGCGCAAGCTCGACTTAATTATAGCAAACATAGAGCTGGCCAATCTCGTGCCAGCCGCCGCGGTTATACAAGAAGCCCAAACTAACAGACAACCGGCGTAAAATGTGGCTAAAAATTTATCTACAAAATTAAGGCGAACCTACAACTTAACTGTTATACGCAAGTACACATTAATACATTATGAAAATAACCTTAACACAATAGAACTATTTGAACCCACTATCGCTAAGGCACAAACTGGGATTAGATACCCCACTATGCTCAGCCCTAAACTTAGATATTTACTTACAATAATATCCGCCAGAGAACTACGAGCCCAAACGCTTAAAACTCTAAAGACTTGGCGGTACCTCAACCTCCTAGAGGAGCCTGTTCTATAATCGATAATCCACGATCTACCTCACCATCCCTTGTCAATTCAGCCTATATACCACCGTCATTAGCTTACCCTGTGAAGGGTACCAAGTAAGCAAAATAACCTAAACAACTAGCAAGTCAGGTCAAGGTGTAGCTAACTGAGATGGAAGAAATGGGCTACATTTTCTTTATTAGAAATCACTTAACAGAAAGGACCATGAAATAAGTCCCATAAGTAGGATTTAGCAGTAAACTGGGAACAGAGAGCCCAATTTAAGTCGGTCCTGAGGTGCGCACACACCGCCCGTCACCCTCCTCAAATAATCCTTAAGCATAGATAAACCACAACAAACAAATAGATGAGGCAAGTCGTAACAAGGTAAGTGTACCGGAAGGTGTACTTGGAACATCAAAATATAGCTTATCAAAAGCACTCAGCTTACACCTGAAAGTTGTCCATTAAAATCGGATTATTTTGAGCAACTACCTAGCCCAACTAATAAATATAAAACCCAACAAACAAATTATCCTACCAATAAATCAACTAAAACATTTTACCATCATAGTATAGGAGATAGAAAAGATAATTGGAGCTATAAAGACAGTACCGCGAGGGAAAGATGAAAAACATGAAACACTCACCAAGCCAGAAAAAGCAAAGATTAACTCTTGTACCTTTTGCATCATGATTTAGCCAGTACATCCAAGCAAAGAGAACTAAAGTCTGAACTCCCGAAACCAAATGAGCTACTTAAAGGTAGCCTATACCACCATGGGCTAAATCCGTCTCTGTGGCAAAAGAGTGGAGAAACCTTTAAGTAGAGGTGAAAAGCCTAACGAACCTGGTGATAGCTGGTTGCTCAACAAAAGAATATCAGTTCAACCTTAAACCTCCTAACCTAACAACTTTGAAGTAATAGAAGAGAAGTTTAAGATATATTCAACAGGGGTACAGCCCTGTTGAAAAAGGGTACAACCTAAAATGCAGGACAAAACATCAAAGCAAGACCACAGTAGGCCTTAAAGCAGCCATCTCCAAAGAAAGCGTCAAAGCTCACTACAATTAATATCAACACAATTTTTTTCCCCTAAACAACATTGAGCTATTCTATCACCATAGAAGAACTAATGCTAAAATGAGTAACAAGAAGACGAAACTTCTCTTCCGCGCCAACTTAAATCATAATAGATAAACTACTGATTATTACAACCAATATTATAAGATCAACAGTACTTAATACACCATATAAACCCAACTGTTAACCCAACACAGGAGCGCACACAAGAAAGATTAAAATTTGTAAAAGGAACTAGGCAAACATTGAGCTCGACTGTTTACCAAAAACATAGCCCCTAGCAACAATAAGTATTAGGGGTAATGCCTGCCCAGTGACACTGTTCAACGGCCGCGGTATCCTAACCGTGCAAAGGTAGCGTAATCACTTGTCTTTTAAATAAGGACTAGAATGAACGGCTAAACGAGGTTCTACCTGTCTCTTACAAATAATCAGTGAAATTGGTCTTCCAGTGCAAAACCTGGAATAAAAATATAAGACGAGAAGACCCTGTGGAACTTTAAATACAAATCAATCTATTATTCATACCCACCCACGATGGTTTATCACCAATTAGCACATTGATCCATATTTTCGGTTGGGATGACCTCAGAGTAAAATTAAACCTCTGAACAAAGAACACACCTCCAAACCTAGACCCACCATTCAAAGTGCTTACAGCAAAATGATCCAATACACTTGATCAACGAACCAAGCTACCCCAGGGATAACAGCGCAATCCTATCCTAGAGTCCCTATCGACGATAGGGTTTACGACCTCGATGTTGGATCAGGACATCCTAATGGTGTAACCGCTATCAAGGGTTCGTTTGTTCAACGATTAATAGTCCTACGTGATCTGAGTTCAGACCGGAGTAATCCAGGTCGGTTTCTATCTATAAATGGGCTTTTTCTAGTACGAAAGGACCGAAAAGACAAGGCCTATTTTTAAAAACAAGCCTTACCTTATATTAGTGAAAGCAACTTAACTAATAATAAGGACAAACCATTTAACCCTAAAAAGGGGTTATTGAGGTGGCAGAGCCTGGTACAAAAGGCCTAAGCCCTTTACTCAGGGGTTCAAATCCCCTCCCCAATAATGAAAGCCCTATTATCAAACCTAATATCCCCACTTATATATATAATCCCAGTCTTAATTGCTGTAGCTTTCTTTACCTTAATTGAACGGAAAACTTTGGGATACATACAACTCCGAAAAGGCCCAAACATCGTAGGACCATGTGGACTTTTACAACCTGTAGCTGATGGTGTAAAACTATTTATTAAGGAACCAGTGTACCCATCAAACTCATCAACTATACTATTTACACTATCACCAATCCTAGCTCTACTACTATCTTTATCAGTCTGACTTCCACTGCCTCTACCATTTCCACTAGCCGACTTAAACCTAGGCCTCCTATTCCTAATTTCAATATCCAGCTTCATAGTTTACTCCATCTTATGATCTGGCTGAGCTTCAAACTCCAAGTACGCCTTAGTAGGGGCACTCCGGGCAGTAGCCCAAACTATCTCATACGAAGTAACCCTAGGAATCATCCTACTCTCCCTAATCCTATTCTCAGGCGGATTCAACATACAAACATTTATAACAACGCAGGAACCTGCGTACCTGATATTCTCATCCTGACCTTTAATAATAATATGGTATATCTCCACATTAGCAGAAACAAATCGAGCACCATTCGACCTTTCCGAAGGAGAATCTGAACTCGTATCAGGGTTTAACGTTGAATACGCCGCCGGCCCATTCGCCCTATTCTTCCTAGCAGAGTACGCTAATATTCTGATAATAAACACCCTCACCACTATCCTATTCCTGAATCCATCCCATATTAACAACACCCCCGAACTATTTTCATTATCATTAGTATCAAAAATAATACTACTCTCAGTAGGATTCCTATGAATCCGCGCCTCATACCCGCGATTCCGATATGACCAGTTAATACACTTATTATGAAAAAACTTCCTCCCTATTACCTTAGCAATGTGCCTCTGACATATATCTATGCCAACTGCCTTCTCGGGGCTACCACCGATGTTATAGGATACGTGCCTGAAATTAAAGGATCACCTTGATAAGGTGAATCATAGAGGCTAAACCCTCTCGTCTCCCTAAAAGAAAGCACCTTTACCTATAAATAACAAAATCCTATACCTGTATATTACTGTACTGAATTCATAAATTACACTACACACAATATTATCTAACCACAAATTAACACTCCATAAACCACTACATTAAAAATACAATATAGTACTATAACAGCATAACCCTTTATAAAATACCCTACAACCCATTTATAACATATATTATGAAATAAACTACCCCTTATTAAAATTACTAACAACTTCTCATAACAAACTACACAAAATCAAGCCAATATATCTTAATTTCTCGACTACAAACAATTTACCAACGTATTATCCCGTTACTTCCATAAATACACAATCCTTTTACCTAACAAACAAATTAAAACCAATTACCCTAACAGCAAAAAACACCAATATTCATCAAAAACCCCAACATATCTGAAAAATAAACTCCCTATTGTACTATTATAGGACCTAAAATACCCAAAACCCCTTTAGGTCAATATAGTTTAAAACAAACATTAGACTGTGATTCTAAAAATAGGAGTGTAAATCCCCTTATAGACCAAGAGAGATCCAACAGTAAGAACTGCTAATTCTTATACCTGAGACTAACACCTCAGCTCCCTTACTTTTAAAGGATAGAAGTAATCCACTGGTTTTAGGAACCATAAACCCTTGGTGCAACTCCAAGTAAAAGAACATGCCAACACCCCCACTGTTAGCCTTAACACATTTTATGACCCTAGCTATCCTGCTAGTTCCACTAGTAATCTCTATACTCACTACAAAAGTGTGAATTATTGAAAAGACAAAAACATCCGTGAAAACAGCGTTTTTTACCTCCATACTATCATTTCTCCTCTTTAAAGCTGAGTCCACCCCTTTCATAGTAATAGACTATAACCTATTAAGCACATCAACCTTCTATGTAAAGCTTAACTTTAAATTTGACCTATACTCCATACTATTTACACCAGTTGCCTTATACGTCTCATGATGTATTTTAGAGTTTTCACAATGATACATAGACAAAGACCCCTATCCCTCAAAATTCGCCAAATACCTACTAACCTTCATTATAGCTATAATAATCCTAGTATCAGCTAATAACCTACTCCTATTTTTTATTGGTTGGGAGGGGGTAGGAATCCTATCCTTCCTCCTAATCGCATGATGGCGAAACCGACCAAACACGAATACATCAGCCCTACAAGCTATTATCTACAACCGCATAGGAGACATCGGACTAATCTTATGTCTAGCATGACTAACAACACGCCTAAACACATTAGCACTCCAAAAAATCTTCACGTGTAATGACTTCATCACACTCCTACCATTACTAGGCCTTATCCTAGCTGCAATAGGCAAATCAGCCCAATTCGGCCTCCACCCCTGATTACCAGCAGCTATGGAAGGTCCAACCCCAGTCTCAGCGTTACTACACTCAAGTACTATGGTGGTCGCTGGCATTTTCCTACTAATCCGCATACACCCCGTATTAACCCTCAATAAATATGCTCTTTCAGCATGCCTGCTATTGGGAGCAATTACCTCATTAGTGGCAGCCTTTTGCGCTCTAACCCAAAATGATATTAAAAAAATCATTGCCTTCTCCACATCAAGCCAACTTGGCTTTATAATAGTAACCGTGGGCCTAGACCAACCACAACTAGCCTTCCTCCATCTCTCATTACACGCCTTCTTTAAAGCCATATTATTTCTATGCTCAGGTTCCATTATTCATAACCTTAATAACGAACAAGACATTCGAAAAATAGGCGGATTACATAAATGTTTACCCATCACCTCTGCATGCTTAACCATCGGCAGCATAGCGCTTGCAGGCACGCCATTCCTAACTGGATTCTACTCTAAAGATATTATTATCGAAACCATGACCACATCACATCTAAATGCTTTTGCCCTACTCATTACACTAATCGCAACCTCATTCACTGTGGTATACAGCCTGCGGATTACAATATTTGTACAAACAGGACAACCCCAACACATATCCATACTACTATTAGATGAATACAACCCGCTAGTTATCAACCCTATCATCCGCCTAGCTACAGGCAGCATTGCTGCCGGATTAATTATTTCAATAAACATTACACCGCTAGAAACCCCACCAATAACCATACCAACATACATTAAAACCGTAACATTAATGGTAGTAGCCCTAAGCCTCCTAATAGCCCTAAAACTAGCTACTATAACCAATAAAATACCCCCAAAATCATCCCACACCCATAACTTTTCCAACTCACTAATGTACTTTAATACCATAATTCACCGCTCAACACCAATAATTACTTCAACCATTAGTGAAAAATACTCAACCCGAATAATAGACTCAACCTGACAAGAAAAAATAGGCCCAAAAAAACTAGCTGAGTCACAAGTACTGCCTACTAAAACAACCTCTTCATTGCAAAAAGGCCTCATTAAAATTTATTTAACCTCATTTATCCTATCCGTCCTACTTCTTATTTACTTATTTGACTAATATACAAAACTAGTAAAATAAACATTACCCGCCGGATGTAATACGCTAAAAGGATATTACCCAAGATCTTAAAACCACTTCTCTAACTGCTAGGAACCAAAACCTTTTTACCCAAGTACCCACTATTTTTTAACCGCGCCTCACCATACATTCTAGTAGCTATCAACAAAGCATTGGTCTTGTAAACCAAAGACTGAAGACTATAATCTTCCTAGAATAATCAAAAGAGAAGGACTTAAACCTCCATTCCCGGCCCCCAAAACCGAAATCTTTTATTAAACTATCTTTTGACACCCCCCCCCCCCCCGATGGGCATGCTCATCGAATTTTGCCTAAATATAGGACAATTTACACCCTATGTACGTCGTGCATACTTTTATTTACCCCTAGCATATATTTAGTAATATCCCTGCTTAATCTTACATAAAAGTATATTCCCCATAATCTATCCAGATAACAGTAATTTAATGGTTTAAGGACATAATATTCTATAGTGCTTTACAACATGACTATTGTCACAGTATTGGGTTATTTCCTAATCTACCTAATCACGAGAGATAAGCAACCCTTGTTTGTAAGATACAACGTTACCAGTTTCAGGCCCATATTCATGATGGCGTACATAACTGATCTATTCTGGCCACTGGCTGTTTTTTCAGGCACATGTTATCCACTAAGTTCATTCGTTCCTCTTTAAAAGGCCTCTGGTTAAATGAGTTCTATACATTAAGTTAATAACTTGACATATGGTGGTCTTACTGGCATATAGTAGTTCTCTTTTTCTCTTTGTGTTCTCAGGCCCGCATAACTGATACCTGCCTACTCAATGAAACTGAGCCTACGTTCAAATGGTTAACCTTACATAATTGATATGGTATTATTTAGTTAATGCTTGTTAGACATATATTTTTATAAAAATTCACGACAGTAATTTTAAACCTAAACACTATAAACTATAATTTTTTAAGTTAAACCCCCCTACCCCCCGTTAAACTAACACCTAGTATGAATGGCCACTTATTTCTCGTCAAACCCCTAAATCCGAGAGCGACCAAACAGCATAAGCGTTAGTTATACAAATATCCTGAATATTTGTATTATATTAAATACACGCTACATTACCACAAACTTTTACCAAAAGTAATACACAAACAAATTTTATCCTACTTTACTAAACCCGCATAAACATTACACGCTTTAAATACTACTATATAAAAGACAAATAAAAATTTACCTTAATATAAAACACTGCAAAGCCACTAAATAAAATTAAAACTACTCAAAAATACAAACACAAGTAATAAACTCCAAAAACTCCCACCCACAACAATATACTCAACATATACCGCATACCAACACCTCTATTTAAACCTACCAAACACACCCCAGAAACTCAAAACATCACAAAGACTAGACCATCTAGTTTCCATAGAAAAATAGGTCTTGAACCTATACCAGAGAGATCAAAACTCCCCATACTTCCATTATACTACATCCTAGTAAAGTCAGCTAATTAAGCTCTTGGGCCCATACCCCAAAAATGTCGGTTAAAATCCTTCCTTTACTAATGAACCCACACGCAAGCATAATTATTACTTTAAGCCTAATTATAGGACCCCTAATCACCATCTCTAGTAATCATTGAATCCTAGCATGAACCGGATTAGAAATCAGCACCTTAGCTATTACCCCATTAATCGCCAAACAACACCACCCACGAGCAATTGAAGCCACCATTAAATACTTCCTGACACAAGCAACCGCCTCAACACTAATTCTATCCTCTAGCATTATTAATGCCTGAACACTGGGCCAATGAGACATCACACAAATGTCTAACAACACTTCATGCGCAATTCTAACCACAGCCCTAGCCATTAAATTAGGACTAGCACCCTTCCACTTCTGATTGCCAGAAGTCCTACAAGGAACTTCCACAACAACAGCCTTAATCCTAACTACCTGACAAAAATTAGCTCCTCTATCCCTACTAGTAATAACCACCCAATCCCTAAACACACCATTACTACTATTATTAGGATTAATATCCACCTTAGTTGGCGGATGGGGCGGACTAAACCAACCCCAACTACGAAAAATCATAGCATTCTCCTCCATCGCTCACCTAGGGTGAATAATTACAATCATTACTTTCTCACCTAAACTTATATTACTCACATTCTACACATACATTACTATAACTACAGCCATATTCCTCATAATTAAACTCCTAGAGACAAACAAAATCTCTATAATAATAACATCATGGACAAAACTACCAACACTAAACACCATCATAATTCTAATCCTTATGTCACTAGCCGGACTACCACCACTAACAGGGTTCATGCCCAAATGATTAATTCTTCAAGAACTAACCAAACAGCACATATTCATTATCGCCACCATAATAGCTCTACTCTCACTACTCAGCTTATTCTTCTACTTACGAATCTCATACTGCGCAACCATTACATTACCCCCAAACTCAACTAACTATTTACAACAATGACGTCACAAAACTAACCAAAAACCCTACCTAGCTCCAATAGCCACACTATCTATCACCCTGCTCCCTATCACACCTACCCTACTAACCCTCCTCTAGAAACTTAGGATCAAGCCAATTTTTAAACCGGGGGCCTTCAAAGCCCCAAAAAAGAGATAGAACCTCTTAGTTTCTGTTAAGACCTATAGGGCTCTATCCTATATCTTATGAATGCAACTCAGACACTTTAATTAAGCTAAAGTCTCACTAGACAAATGGGCCTCGATCCCATAAAAATTTAGTTAACAGCTAAACACCCAAATCCAGCGGGCTTTTATCTAATTTTCCCGCTCTCAGAAAAAGCGGGAAAACCCCGACACAAATCAAAGTGTATCTCCGAATTTGCAATTCGGAATGAATTTCACTACGAGGTTTGATAAGAAGAGGGGTTAAACCTCTATAAAAAGGTCTACAGCCTAACGCTTAAGCACTCAGCCATCTTACCTATGATTTTAACCCGCTGATTTTTTTCTACTAACCATAAAGACATTGGTACCTTATACCTTATTTTCGGGGCCTGATCAGGTATAATTGGCACAGCATTAAGTCTTTTGATCCGTGCCGAACTGAGCCAGCCAGGTACACTTCTTGGGGATGATCAGATCTACAATGTTATTGTTACGGCCCACGCTTTTGTTATAATCTTTTTCATAGTCATACCTGTTATGATCGGCGGGTTCGGAAACTGATTAGTTCCTTTAATAATTGGGGCGCCAGACATAGCATTCCCTCGTATAAACAATATAAGCTTCTGACTCCTACCTCCATCTCTACTGCTACTATTAATATCCTCTGGAATTGAAGCAGGTGCAGGTACCGGCTGAACTGTATACCCCCCACTAGCTGGGAATATGGCCCATTCCGGGGCCTCGGTAGACTTGACTATCTTTTCCCTTCACCTCGCCGGGGTGTCTTCAATCTTGGGGGCTATTAATTTTATCACCACAGCAATCAATATAAAATCTACAACCATGTCGCAGTACCAGACACCCCTATTCGTATGATCTGTACTCATTACAGCTATCTTATTACTACTCTCTTTACCTGTACTCGCCGCAGGGATCACTATATTACTTACAGACCGAAATCTGAATACAACTTTTTTTGACCCTTCAGGAGGGGGAGACCCCATCCTATACCAACACCTATTCTGATTCTTTGGTCACCCAGAAGTATACATTCTTATCCTACCTGGGTTTGGGATAATCTCACACATTGTAACCTGCTACGCAGGTAAAAAAGAACCATTTGGATATATAGGGATAGTGTGAGCAATAATATCCATTGGATTCCTGGGCTTTATTGTGTGAGCTCACCATATATTTACCGTTGGAATAGACGTAGACACCCGAGCCTATTTCACATCTGCAACAATAATTATTGCTATCCCAACAGGGGTAAAAGTATTTAGCTGATTAGCTACCTTGCATGGGGGAACAATCCAATGGGGGGCCGCCATAATATGGGCCCTAGGTTTCATTTTCCTATTCACCATCGGCGGACTAACAGGCATTGTACTGGCTAATTCATCTCTGGATATTGTACTCCATGATACTTACTATGTAGTAGCACACTTCCACTATGTTCTTTCAATAGGGGCCGTATTCGCCATTATAGCAGGATTTACCCATTGATTCACATTATTTACAGGATATCTATTACACCAAACCTGAACAAAAGTACACTTCGGATTAATATTTGCAGGCGTTAACATAACCTTCTTCCCTCAGCACTTCCTAGGCCTGGCAGGAATACCACGACGTTACTCTGACTACCCCGATGCATACACCCTATGAAATTCAATTTCGTCAATCGGATCATTAATTTCTCTAGTAGCAGTAATTATAATAATATTTATTATCTGAGAAGCATTTTGTTCAAAGCGTAAAATAGTATTAACTGAACTCAAAACTACAAACGTAGAGTGACTACACGGTTGCCCACCACCATACCACACTTATGAAGAACCAGCCCACATGCAAGTTCAAGAAAGGAGGGAATTGAACCCCCTTAAATTAGTTTCAAGCCAACTACATAACCTTTATGCTACCTTCTTCTAAAGACGTTAGTAAAATATATTACTAAACCTTGTCAAGGTTAAATTATAAGTGAAACCCCTATACGCCTTAATGGCCCACCCGCTGCAACTAGGATTCCAGGACGCAATATCACCCGTTATAGAAGAACTCCTTCACTTTCATGACCATACCCTAATAATTGTATTTTTAATCAGCACCTTAGTGCTCTACATCATTACACTAATAATAACAACAAAACTAACATACACTAACACTATAAATGCTCAAGAAGTGGAAATAATTTGAACTATTCTACCAGCAATTGTCCTAATCACCATTGCACTCCCCTCCCTACGAGTCTTGTACTTAATAGATGAAATTAATAACCCGCATTTAACAATTAAAACCATAGGACATCAATGATACTGAACGTACGAGTATACTGACTACGAAAACCTTGAGTTTGACTCTTACATGATCCATGCCCAAGATCTACCAAACGGGTACTTTCGATTATTAGAAGTAGACCACCGCATGGTCATACCAATAGAATCGCCAATCCGAATTCTAATCTCGGCTGAAGACGTCCTACACTCATGAGCAATCCCATCATTAGGTGTAAAAACAGACGCAGTGCCCGGACGATTGAACCAAACAACTTTCATTATTACACGACCAGGAATATTCTACGGACAATGTTCAGAAATCTGCGGGGCTAACCATAGCTTCATGCCAATTGTGGTAGAATCTGTGCCACTACAATACTTCGAAAACTGATCTTCACTAATACTCTCCTAACCACTATAGAAGCTAAACAGGATAGCGCTAGCCTTTTAAACTAGAGAAAGAGAATTCCCCACCCTCCTTAGTGACATGCCACAACTAAATCCAGACCCTTGATTCTTAATTCTGTCTCTCGCATGATTAACCTACATTCTCGTCCTACAACCAAAAATTCTATCCAACAAGTCTATAAATCACCCAACCAACAAAAACAACGAAATTATTAAAACAAACCCATGAACATGACCATGACCCTAACCATAAACCTAACATTTTTTAATCAATTCACAAGCCCGCAAATCATAGGAGTTCCATTAATTATACTCGCTCTATTAGCACCATCAGCCATGTTCCAAACCCAAAACAACCGATGGTTAACTAACCGTCTTTCATTACTCCAATTATGAATAATTAACCTATTCACAAAACAACTAATATCGCCCATTAGTAAAACAGGACATCAGTGATCCGTTATCTTAACATCACTAATAATTATACTCTTAATAATTAATCTGCTAGGACTTCTACCATATACATTCACCCCTACAACACAACTCTCCATAAATATAGGACTAGCCATCCCAATATGATTAGCCACAGTACTAACAGGCCTTCGAAACCAACCAACTGCATCACTAGGACACCTTCTACCAGAAGGGACCCCAAACCTATTAACCCCAATCCTCATCATCATTGAAACTATTAGCCTTTTTATCCGACCATTAGCCCTAGGTGTACGACTTACAGCCAATCTTACAGCTGGCCACCTATTAATTCAACTTACTTCTACCGCAACATTTGCTTTACTCCCAACAATACCAACCTTATCTATGCTAACCATAGTTGTACTATTATTATTATCTATTCTAGAACTAGCAGTAGCAATAATTCAAGCCTACGTCTTCGTCTTATTACTAAGCCTCTACCTTCAAGAAAACACCTAATGACCCACCAAACTCATGCCTACCACATAGTAGACCCTAGCCCATGACCATTAACAGGCGCAGCAGCATCATTACTAATAACCTCTGGGTTCGCCATGTGATTTCACCATAACTCAATACTACTAATAACCCTAGGTTTATTAACTATACTACTGACTATACTCCAGTGATGACGAGACATTGTTCGAGAAGGAACCTTCCAAGGCCATCACACCACTCCAGTACAGAAAAGCCTACGATACGGTATAATCCTATTCGTCACGTCAGAAGTATTCTTTTTTATTGGATTCTTCTGAGCTTTCTACCACTCAAGCCTGTCCCCCACACCAGAATTAGGGGGATGTTGACCACCAACAGGAATTTCTCCACTAAATCCATTTGAAGTACCACTGTTGAATACAGCAGTCTTACTGGCCTCAGGGGTAACAATTACCTGAGCCCACCATAGCCTGATAGAAGTCAACCGACACCAGACTATCCAAGCCCTTATATTAACAGTTTTACTAGGTTTGTACTTCACAACCCTACAAGCCCTGGAGTACTACGAAGCCCCGTTTACAGTTGCTGACGGTGTGTACGGCTCTACATTTTTTATTGCAACAGGCTTTCACGGACTCCACGTAATTATTGGATCAACATTTCTAATCGTATGCCTGATACGGCAAATAAAATTCCACTTCACCTCCGCCCATCACTTCGGATTCGAAGCATCCGCTTGATACTGACACTTTGTAGATGTTGTATGACTATTCCTTTATGTATCAATCTACTGATGAGGCTCATACTCTTCTAGTACAAAATAGTACCAGTGACTTCCAATCACTAAATTTTAGCTATACCCTAAAGAAGAGTAATGAACGTAACAATCTCCATTATAACAATCGCCCTCATCCTATCAGTAGTTTTAATAACACTGAACTATTGATTAACACTAGTAAAACCAAACAACGAAAAACTATCCCCATACGAATGCGGCTTCGATCCATTAGAATCAGCTCGTTTACCATTCTCAATCCAATTTTTTCTCAGTAGCAATCTTATTCTTACTATTTGATTTAGAAATCGCATTACTCTTACCTCTACCATGAGCTATTCAACTGTTATCACCAACCTACACCTTCACCTGAGCACTTATAATCCTACTACTTCTAACATTGGGCCTCATTTATGAATGAGTTCAAGGGGGCTTGGAATGGGCAGAATTGATAACTAGTCTAACACAAGACAACTAATTTCGACTTAGTTAATCATGATTAAATCCATGGTTATCCAATGACACCATTACATTTTAGCTATCTCTCTGCTTTTATTGTTAGCATCATAGGCCTCTCACTACATCGAACCTACCTTATCTCCACCCTATTATGCTTAGAAAGCATAATATTATCCATATTTATTGCCCTATCAATATGACCTATCCAACTACAAACTTCATCATTTATACTCACTCCCATACTAATACTATCCTTCTCAGCCTGCGAAGCAGGCACCGGCCTATCCTTACTTGTGGCATCCTCACGAACCCATGGTTCAGACCACTTACAAAACTTAAACCTATTACAATGCTAAAAATCATACTTCCAACCATTATATTATTACCCACAACTATGCTCTGCAAACCAAAACAACTATGAATCACTATATTAACCCATAGTTTTGGGATTGCCTTTTTAAGCCTACAGTGATTTAAACCCTCCATGGAATTTACAAGCTTCTCCAACCATTACTTAGGGGTAGACCAAATTTCAGCCCCATTACTCATCTTAACATGCTGACTCAGCCCACTAATAGTCCTGGCCAGTCAAAACCACTTGACTAAAGAACCAGTTACACGAAAACGAACCTTTATCTCCACTATTATTCTACTACAAACCTCATTAATCCTGGCCTTCTCTGCCACAGAACTAATCATATTCTTCATAGCATTTGAAGCTACACTGATTCCAACACTAGTAATTATTACACGCTGAGGAAACCAAATAGAACGGCTAAATGCTGGAACCTATTTCCTATTCTACACTCTTATTGGATCCCTCCCCCTACTAATTGCCCTCCTTTCACTTCATACCCAAAATGGAACCCTATCCCTCTGTACTATTCAACTCAACCAACACGCCATATTAAATTCATGAACCCACACAACATGATGATTTGCATTACTAACAGCCTTCATAATCAAAATACCATTGTATGGGCTACATCTATGACTACCAAAAGCACACGTAGAAGCTCCAATCGCAGGGTCAATAATCCTAGCAGCTGTACTTCTCAAACTCGGGGGGTATGGCATTATCCGTATTATAATAACTCTAGATCCTTTATCAAAAACACTCTCTTATCCATTTATAGTCCTAGCTCTATGGGGAGTAGTCATAACCAGTTCAATCTGCTTACACCAAACAGACCTAAAATCACTAATCGCTTACTCATCAGTAAGTCACATAGGACTAGTCACTGCCGCAGCACTAACCCAAACCCACTGAGCCCATACTGGAGCAATCACACTCATAATCGCCCACGGTCTAACATCATCAATACTCTTTTGCCTAGCAAACACAAACTATGAGCGAACCCACAACCGAACATTATTAATTGCCCGAAATATGCAACTATTCCTGCCACTAATGGGGACATGATGACTACTTGCCAGCCTAGCAAACATAGCCATCCCACCGACGATTAACTTAATAGGAGAACTAACTATTATTGCCTCATTATTCAACTGATCCAACATTACAATCCTAATAACAGGGTTAGGAACTTTACTCACTGCTACCTACACCTTACATATACTATCTACAACACAATGAGGAAAGACACCCTCATATATTAAAACTATCCCTCCAACTCACACACGAGAACATTTACTGATGGCACTCCACACTATACCCATAGCACTATTAATAGTAAAACCAGAACTAATCTGAGGGGCCTTTCACTGTACTATATTCCTAAAATAAATATTAGATATAGGAGTTTAAATCTCCTTATAGACCCAAAAGTAATAAAAACTCACCCAATATTTAAAACCACCTTTCCCCACTCCCAAAAAGAGAAAAAACCTAATGTTTCAAAACTATCAATGCAATTCCAAGTAATACCGCACCCATAGCCTTAGCCTAACATTACTTACCCTAATACTACCGTATATAATACTCTCCATTTAAGCATAAAACAACACCTTCCACAATCCTGACACAACTCTTTACATCTATAAACACTGAACTTATCATACTTAACCCAAAATTACCTACTACATCACGCACAAACACACACTACTTTAAACTAACCCCCACTACCTCACATAACACACCACCCTACACCCTATCAGATTCACTTTAAAATTTTTCATCTCCACACAACCTAAACGATTAGAAACTCACCAAACACCTATTAATAGCCCTAATAATAACTAATAATTTAATTTTTTTAAATAATAGACAAAAATCACATTACTACTTATAATTGAACAATAACAAAGCTGACCAAACAACTTACTACAACCTCACACATACCCATTAAGAACTTACCTGCCTTCCTTACCCAATCTTACACTTCTTCACAGTACTCTAATCGCACGAAGCACTCCACGAGACAAACCACGAACCAATTCCAACACAACAAACAATGTTAACAATAGCCCTCAACCAGCAATCAAAAAAATTACATTGCCCAAATAATAAAATCATGACACTCCACTAAAATCCAGCCGAACCACACATAATCCACCAGCATCAACTGTGATATGACCAAACCCTTCGGTACCCCACAACCAATGACCAATAACTACAAGTCCAATAATAACTAAAACATAAACCACCATATACACCACCCCCCACAAACTCCCTCAACCAATAGGATATGGCTCCGCAACTAATGCAGCCGAATAAGCAAAAATTACCAATATCCCTCCCAAATAAATTAAAAACAACACTAAAGAAACAAAAGACCCCCCAACACTTACCAACACCCCACACCCAGAAGCCGCACCCAGGATTAAACTTAAAACTCCGTAATAAGGCGACGGATTACAAGACACACCCACCATTCAAAAAACAAAACAAAACCCAAATAAAAATATAAAATATATCATAATTCTTGCATGGACTTTAACCAAGACTAATGATCTGAAAAACCACTGTTGTATTCAACTACAAAAACCTAATGACCACAAATACACGAAAAACCCACCCTATAATAAAAATTATCAACAACTCATTCATTGACCTACCAAGCCCGTCTAATATCTCTGCTTGATGAAACTTCGGATCACTACTAGGTATCTGCCTAATTTTACAAATTATCACTGGAATTTTCCTAGCAATACACTACTCACCAGACGTCTCCCTGGCATTTTCATCAATTACACACATCTCTCGAGATGTACAATACGGATGACTTATTCGCAACATACACGCTAATGGTGCCTCCTTATTCTTCATGTACATCTATATCCACATCGGACGAGGACTATACTACGGCTCATACTTGTACAAAGAGACATGAAACACAGGGATCATTCTTCTACTACTAACTATAGCCACCGCGTTCGTAGGTTATGTTCTCCCATGGGGCCAAATATCATTCTGAGGCGCTACTGTAATCACCAACCTACTCTCAGCTATTCCATATATGGGCAGCACATTAGTACAGTGGATTTGAGGGGGGTTTTCAGTGGACAACGCAACCTTAACCCGATTCTTTACCTTCCATTTTCTTTTACCATTCATTACTTCCGGCTTCGCAATAGTACATCTTCTATTTCTGCATGAGACAGGATCAAACAACCCAACAGGATTAAACTCAAACACTGATAAAATCCCCTTCCACCCGTACTTTTCATATAAAGACTTACTAGGAATTATCCTAACACTAGCCTTACTACTAACCCTCGCACTATTCTCCCCAAATCTTTTAGGAGACCCTGACAACTTTACACCAGCCAACCCTCTATCCACTCCTCCCCATATTAAACCAGAATGATACTTCCTCTTCGCTTATGCAATCCTACGATCAATTCCTAACAAACTAGGTGGCGTACTTGCCCTCCTATTAGCTATCCTTATATTACTCCTAATACCTATCCTACATACATCAAAACAACGAACCACATCATTCCGACCACTAACCCAAATCCTCTTCTGATTCTTAGTTGCTGACCTATTAGTACTAACGTGAATCGGGGGACAGCCAGTTGAAGCCCCGTTCACCGCCATCAGCCAAATAGCCTCTATCCTATACTTCTTAATCCCATTAATCTTAATGCCTACCACAGGCGTAATCGAAAACAAAATACTAAACCTAAAATACTCTAGTAGCACACCCCACTAAAGCACTGGCCATAAACCAAAGACTGAAGACTATAATCTTCCTAGAGTAATCAAAAGAGAAGGACTTAAACCTCCATTCCCGGCCCCCAAAATCGAAATCTTTTATTAAACTATATTTTGACCCCCCCCCCCCCCGATGGGCATGCTCATCGAATTTTGCCTAAATATAGGACAATTTACACCCTATGTACGTCGTGCATACTTTTATTTACCCCTAGCATATATTTAGTAATATCCCTGCTTAATCTTACATAAAAGTATATTCCCCATAATCTATCCAGATAACAGTAATTTAATGGTTTAAGGACATAATATTCTATAGTGCTTTACAACATGACTATTGTCACAGTATTGGGTTATTTCCTAATCTACCTAATCACGAGAGATAAGCAACCCTTGTTTGTAAGATACAACGTTACCAGTTTCAGGCCCATATTCATGATGGCGTACATAACTGATCTATTCTGGCCACTGGCTGTTTTTTCAGGCACATGTTATCCACTAAGTTCATTCGTTCCTCTTTAAAAGGCCTCTGGTTAAATGAGTTCTATACATTAAGTTAATAACTTGACATATGGTGGTCTTACTGGCATATAGTAGTTCTCTTTTTCTCTTTGTGTTCTCAGGCCCGCATAACTGATACCTGCCTACTCAATGAAACTGAGCCTACGTTCAAATGGTTAACCTTACATAATTGATATGGTATTATTTAGTTAATGCTTGTTAGACATATATTTTTATAAAAATTCACGACAGTAATTTTAAACCTAAACACTATAAACTATAATTTTTTAAGTTAAACCCCCCTACCCCCCGTTAAACTAACACCTAGTATGAATGGCCACTTATTTCTCGTCAAACCCCTAAATCCGAGAGCGACCAAACAGCATAAGCGTTAGTTATACAAATATCCTGAATATTTGTATTAATGTTACAGCAATAAATTTATTATGTTATACTATGTTATAGTATAGTGTGTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATGTGTTGTTATATAATATGTGTTGTTATATAATATAT
How to get the sequence from such file?? 如何从这样的文件中获取序列?
AWRAM, may I suggest you check out the BioPython
package? AWRAM,我建议您检查一下
BioPython
软件包吗?
Specific code I would use to do what you're trying to do would be as follows: 我将用来执行您要执行的操作的特定代码如下:
from Bio import SeqIO
file = open('NC_007970.fas', r)
for record in SeqIO.parse(file, "clustal") :
print record.seq
file.close()
BioPython will parse each FASTA file as an iterator of SeqRecord objects, from which you can query for each SeqRecord's sequence, and use it to manipulate other things too. BioPython会将每个FASTA文件解析为SeqRecord对象的迭代器,您可以从中查询每个SeqRecord的序列,并使用它来处理其他事情。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.