简体   繁体   English

python 2.7大行读取文件

[英]python 2.7 read file with big line

I have a fasta file and I want to print only the sequence 我有一个fasta文件,我只想打印序列

f = open ("NC_007970.fas",'r')
for line in f:
    print line

it prints only the first line > NC_007970 它仅打印第一行> NC_007970

I think the problem is from the fasta file itself it's composed of first line with '>', and the second line is the sequence and no new lines in the sequence itself and its length is about 19000 character 我认为问题是来自fasta文件本身,它由第一行带有'>'组成,第二行是序列,序列本身中没有新行,其长度约为19000个字符

> NC_007970
GTTATTGTAGCTTACACTAAAGCATGGCACTGAAGTTGCCAAGATGGGTAATCAAAATACCCCAAAAACACAAAGATTTGGTCCTAACCTTACTGTTACTTTTTGCTAAAATTACACATGCAAGTATCAGCATACCAGTGAAAACACCCTAGCAATCCTATTAGACAAAGGAGCCGGTATCAGGCACACCATGATAGCCCAAGACACCTAGCTTTGCCACACCCCCAAGGGCATTCAGCAGTGATAAAAATTAAGCAATAAGCGCAAGCTCGACTTAATTATAGCAAACATAGAGCTGGCCAATCTCGTGCCAGCCGCCGCGGTTATACAAGAAGCCCAAACTAACAGACAACCGGCGTAAAATGTGGCTAAAAATTTATCTACAAAATTAAGGCGAACCTACAACTTAACTGTTATACGCAAGTACACATTAATACATTATGAAAATAACCTTAACACAATAGAACTATTTGAACCCACTATCGCTAAGGCACAAACTGGGATTAGATACCCCACTATGCTCAGCCCTAAACTTAGATATTTACTTACAATAATATCCGCCAGAGAACTACGAGCCCAAACGCTTAAAACTCTAAAGACTTGGCGGTACCTCAACCTCCTAGAGGAGCCTGTTCTATAATCGATAATCCACGATCTACCTCACCATCCCTTGTCAATTCAGCCTATATACCACCGTCATTAGCTTACCCTGTGAAGGGTACCAAGTAAGCAAAATAACCTAAACAACTAGCAAGTCAGGTCAAGGTGTAGCTAACTGAGATGGAAGAAATGGGCTACATTTTCTTTATTAGAAATCACTTAACAGAAAGGACCATGAAATAAGTCCCATAAGTAGGATTTAGCAGTAAACTGGGAACAGAGAGCCCAATTTAAGTCGGTCCTGAGGTGCGCACACACCGCCCGTCACCCTCCTCAAATAATCCTTAAGCATAGATAAACCACAACAAACAAATAGATGAGGCAAGTCGTAACAAGGTAAGTGTACCGGAAGGTGTACTTGGAACATCAAAATATAGCTTATCAAAAGCACTCAGCTTACACCTGAAAGTTGTCCATTAAAATCGGATTATTTTGAGCAACTACCTAGCCCAACTAATAAATATAAAACCCAACAAACAAATTATCCTACCAATAAATCAACTAAAACATTTTACCATCATAGTATAGGAGATAGAAAAGATAATTGGAGCTATAAAGACAGTACCGCGAGGGAAAGATGAAAAACATGAAACACTCACCAAGCCAGAAAAAGCAAAGATTAACTCTTGTACCTTTTGCATCATGATTTAGCCAGTACATCCAAGCAAAGAGAACTAAAGTCTGAACTCCCGAAACCAAATGAGCTACTTAAAGGTAGCCTATACCACCATGGGCTAAATCCGTCTCTGTGGCAAAAGAGTGGAGAAACCTTTAAGTAGAGGTGAAAAGCCTAACGAACCTGGTGATAGCTGGTTGCTCAACAAAAGAATATCAGTTCAACCTTAAACCTCCTAACCTAACAACTTTGAAGTAATAGAAGAGAAGTTTAAGATATATTCAACAGGGGTACAGCCCTGTTGAAAAAGGGTACAACCTAAAATGCAGGACAAAACATCAAAGCAAGACCACAGTAGGCCTTAAAGCAGCCATCTCCAAAGAAAGCGTCAAAGCTCACTACAATTAATATCAACACAATTTTTTTCCCCTAAACAACATTGAGCTATTCTATCACCATAGAAGAACTAATGCTAAAATGAGTAACAAGAAGACGAAACTTCTCTTCCGCGCCAACTTAAATCATAATAGATAAACTACTGATTATTACAACCAATATTATAAGATCAACAGTACTTAATACACCATATAAACCCAACTGTTAACCCAACACAGGAGCGCACACAAGAAAGATTAAAATTTGTAAAAGGAACTAGGCAAACATTGAGCTCGACTGTTTACCAAAAACATAGCCCCTAGCAACAATAAGTATTAGGGGTAATGCCTGCCCAGTGACACTGTTCAACGGCCGCGGTATCCTAACCGTGCAAAGGTAGCGTAATCACTTGTCTTTTAAATAAGGACTAGAATGAACGGCTAAACGAGGTTCTACCTGTCTCTTACAAATAATCAGTGAAATTGGTCTTCCAGTGCAAAACCTGGAATAAAAATATAAGACGAGAAGACCCTGTGGAACTTTAAATACAAATCAATCTATTATTCATACCCACCCACGATGGTTTATCACCAATTAGCACATTGATCCATATTTTCGGTTGGGATGACCTCAGAGTAAAATTAAACCTCTGAACAAAGAACACACCTCCAAACCTAGACCCACCATTCAAAGTGCTTACAGCAAAATGATCCAATACACTTGATCAACGAACCAAGCTACCCCAGGGATAACAGCGCAATCCTATCCTAGAGTCCCTATCGACGATAGGGTTTACGACCTCGATGTTGGATCAGGACATCCTAATGGTGTAACCGCTATCAAGGGTTCGTTTGTTCAACGATTAATAGTCCTACGTGATCTGAGTTCAGACCGGAGTAATCCAGGTCGGTTTCTATCTATAAATGGGCTTTTTCTAGTACGAAAGGACCGAAAAGACAAGGCCTATTTTTAAAAACAAGCCTTACCTTATATTAGTGAAAGCAACTTAACTAATAATAAGGACAAACCATTTAACCCTAAAAAGGGGTTATTGAGGTGGCAGAGCCTGGTACAAAAGGCCTAAGCCCTTTACTCAGGGGTTCAAATCCCCTCCCCAATAATGAAAGCCCTATTATCAAACCTAATATCCCCACTTATATATATAATCCCAGTCTTAATTGCTGTAGCTTTCTTTACCTTAATTGAACGGAAAACTTTGGGATACATACAACTCCGAAAAGGCCCAAACATCGTAGGACCATGTGGACTTTTACAACCTGTAGCTGATGGTGTAAAACTATTTATTAAGGAACCAGTGTACCCATCAAACTCATCAACTATACTATTTACACTATCACCAATCCTAGCTCTACTACTATCTTTATCAGTCTGACTTCCACTGCCTCTACCATTTCCACTAGCCGACTTAAACCTAGGCCTCCTATTCCTAATTTCAATATCCAGCTTCATAGTTTACTCCATCTTATGATCTGGCTGAGCTTCAAACTCCAAGTACGCCTTAGTAGGGGCACTCCGGGCAGTAGCCCAAACTATCTCATACGAAGTAACCCTAGGAATCATCCTACTCTCCCTAATCCTATTCTCAGGCGGATTCAACATACAAACATTTATAACAACGCAGGAACCTGCGTACCTGATATTCTCATCCTGACCTTTAATAATAATATGGTATATCTCCACATTAGCAGAAACAAATCGAGCACCATTCGACCTTTCCGAAGGAGAATCTGAACTCGTATCAGGGTTTAACGTTGAATACGCCGCCGGCCCATTCGCCCTATTCTTCCTAGCAGAGTACGCTAATATTCTGATAATAAACACCCTCACCACTATCCTATTCCTGAATCCATCCCATATTAACAACACCCCCGAACTATTTTCATTATCATTAGTATCAAAAATAATACTACTCTCAGTAGGATTCCTATGAATCCGCGCCTCATACCCGCGATTCCGATATGACCAGTTAATACACTTATTATGAAAAAACTTCCTCCCTATTACCTTAGCAATGTGCCTCTGACATATATCTATGCCAACTGCCTTCTCGGGGCTACCACCGATGTTATAGGATACGTGCCTGAAATTAAAGGATCACCTTGATAAGGTGAATCATAGAGGCTAAACCCTCTCGTCTCCCTAAAAGAAAGCACCTTTACCTATAAATAACAAAATCCTATACCTGTATATTACTGTACTGAATTCATAAATTACACTACACACAATATTATCTAACCACAAATTAACACTCCATAAACCACTACATTAAAAATACAATATAGTACTATAACAGCATAACCCTTTATAAAATACCCTACAACCCATTTATAACATATATTATGAAATAAACTACCCCTTATTAAAATTACTAACAACTTCTCATAACAAACTACACAAAATCAAGCCAATATATCTTAATTTCTCGACTACAAACAATTTACCAACGTATTATCCCGTTACTTCCATAAATACACAATCCTTTTACCTAACAAACAAATTAAAACCAATTACCCTAACAGCAAAAAACACCAATATTCATCAAAAACCCCAACATATCTGAAAAATAAACTCCCTATTGTACTATTATAGGACCTAAAATACCCAAAACCCCTTTAGGTCAATATAGTTTAAAACAAACATTAGACTGTGATTCTAAAAATAGGAGTGTAAATCCCCTTATAGACCAAGAGAGATCCAACAGTAAGAACTGCTAATTCTTATACCTGAGACTAACACCTCAGCTCCCTTACTTTTAAAGGATAGAAGTAATCCACTGGTTTTAGGAACCATAAACCCTTGGTGCAACTCCAAGTAAAAGAACATGCCAACACCCCCACTGTTAGCCTTAACACATTTTATGACCCTAGCTATCCTGCTAGTTCCACTAGTAATCTCTATACTCACTACAAAAGTGTGAATTATTGAAAAGACAAAAACATCCGTGAAAACAGCGTTTTTTACCTCCATACTATCATTTCTCCTCTTTAAAGCTGAGTCCACCCCTTTCATAGTAATAGACTATAACCTATTAAGCACATCAACCTTCTATGTAAAGCTTAACTTTAAATTTGACCTATACTCCATACTATTTACACCAGTTGCCTTATACGTCTCATGATGTATTTTAGAGTTTTCACAATGATACATAGACAAAGACCCCTATCCCTCAAAATTCGCCAAATACCTACTAACCTTCATTATAGCTATAATAATCCTAGTATCAGCTAATAACCTACTCCTATTTTTTATTGGTTGGGAGGGGGTAGGAATCCTATCCTTCCTCCTAATCGCATGATGGCGAAACCGACCAAACACGAATACATCAGCCCTACAAGCTATTATCTACAACCGCATAGGAGACATCGGACTAATCTTATGTCTAGCATGACTAACAACACGCCTAAACACATTAGCACTCCAAAAAATCTTCACGTGTAATGACTTCATCACACTCCTACCATTACTAGGCCTTATCCTAGCTGCAATAGGCAAATCAGCCCAATTCGGCCTCCACCCCTGATTACCAGCAGCTATGGAAGGTCCAACCCCAGTCTCAGCGTTACTACACTCAAGTACTATGGTGGTCGCTGGCATTTTCCTACTAATCCGCATACACCCCGTATTAACCCTCAATAAATATGCTCTTTCAGCATGCCTGCTATTGGGAGCAATTACCTCATTAGTGGCAGCCTTTTGCGCTCTAACCCAAAATGATATTAAAAAAATCATTGCCTTCTCCACATCAAGCCAACTTGGCTTTATAATAGTAACCGTGGGCCTAGACCAACCACAACTAGCCTTCCTCCATCTCTCATTACACGCCTTCTTTAAAGCCATATTATTTCTATGCTCAGGTTCCATTATTCATAACCTTAATAACGAACAAGACATTCGAAAAATAGGCGGATTACATAAATGTTTACCCATCACCTCTGCATGCTTAACCATCGGCAGCATAGCGCTTGCAGGCACGCCATTCCTAACTGGATTCTACTCTAAAGATATTATTATCGAAACCATGACCACATCACATCTAAATGCTTTTGCCCTACTCATTACACTAATCGCAACCTCATTCACTGTGGTATACAGCCTGCGGATTACAATATTTGTACAAACAGGACAACCCCAACACATATCCATACTACTATTAGATGAATACAACCCGCTAGTTATCAACCCTATCATCCGCCTAGCTACAGGCAGCATTGCTGCCGGATTAATTATTTCAATAAACATTACACCGCTAGAAACCCCACCAATAACCATACCAACATACATTAAAACCGTAACATTAATGGTAGTAGCCCTAAGCCTCCTAATAGCCCTAAAACTAGCTACTATAACCAATAAAATACCCCCAAAATCATCCCACACCCATAACTTTTCCAACTCACTAATGTACTTTAATACCATAATTCACCGCTCAACACCAATAATTACTTCAACCATTAGTGAAAAATACTCAACCCGAATAATAGACTCAACCTGACAAGAAAAAATAGGCCCAAAAAAACTAGCTGAGTCACAAGTACTGCCTACTAAAACAACCTCTTCATTGCAAAAAGGCCTCATTAAAATTTATTTAACCTCATTTATCCTATCCGTCCTACTTCTTATTTACTTATTTGACTAATATACAAAACTAGTAAAATAAACATTACCCGCCGGATGTAATACGCTAAAAGGATATTACCCAAGATCTTAAAACCACTTCTCTAACTGCTAGGAACCAAAACCTTTTTACCCAAGTACCCACTATTTTTTAACCGCGCCTCACCATACATTCTAGTAGCTATCAACAAAGCATTGGTCTTGTAAACCAAAGACTGAAGACTATAATCTTCCTAGAATAATCAAAAGAGAAGGACTTAAACCTCCATTCCCGGCCCCCAAAACCGAAATCTTTTATTAAACTATCTTTTGACACCCCCCCCCCCCCCGATGGGCATGCTCATCGAATTTTGCCTAAATATAGGACAATTTACACCCTATGTACGTCGTGCATACTTTTATTTACCCCTAGCATATATTTAGTAATATCCCTGCTTAATCTTACATAAAAGTATATTCCCCATAATCTATCCAGATAACAGTAATTTAATGGTTTAAGGACATAATATTCTATAGTGCTTTACAACATGACTATTGTCACAGTATTGGGTTATTTCCTAATCTACCTAATCACGAGAGATAAGCAACCCTTGTTTGTAAGATACAACGTTACCAGTTTCAGGCCCATATTCATGATGGCGTACATAACTGATCTATTCTGGCCACTGGCTGTTTTTTCAGGCACATGTTATCCACTAAGTTCATTCGTTCCTCTTTAAAAGGCCTCTGGTTAAATGAGTTCTATACATTAAGTTAATAACTTGACATATGGTGGTCTTACTGGCATATAGTAGTTCTCTTTTTCTCTTTGTGTTCTCAGGCCCGCATAACTGATACCTGCCTACTCAATGAAACTGAGCCTACGTTCAAATGGTTAACCTTACATAATTGATATGGTATTATTTAGTTAATGCTTGTTAGACATATATTTTTATAAAAATTCACGACAGTAATTTTAAACCTAAACACTATAAACTATAATTTTTTAAGTTAAACCCCCCTACCCCCCGTTAAACTAACACCTAGTATGAATGGCCACTTATTTCTCGTCAAACCCCTAAATCCGAGAGCGACCAAACAGCATAAGCGTTAGTTATACAAATATCCTGAATATTTGTATTATATTAAATACACGCTACATTACCACAAACTTTTACCAAAAGTAATACACAAACAAATTTTATCCTACTTTACTAAACCCGCATAAACATTACACGCTTTAAATACTACTATATAAAAGACAAATAAAAATTTACCTTAATATAAAACACTGCAAAGCCACTAAATAAAATTAAAACTACTCAAAAATACAAACACAAGTAATAAACTCCAAAAACTCCCACCCACAACAATATACTCAACATATACCGCATACCAACACCTCTATTTAAACCTACCAAACACACCCCAGAAACTCAAAACATCACAAAGACTAGACCATCTAGTTTCCATAGAAAAATAGGTCTTGAACCTATACCAGAGAGATCAAAACTCCCCATACTTCCATTATACTACATCCTAGTAAAGTCAGCTAATTAAGCTCTTGGGCCCATACCCCAAAAATGTCGGTTAAAATCCTTCCTTTACTAATGAACCCACACGCAAGCATAATTATTACTTTAAGCCTAATTATAGGACCCCTAATCACCATCTCTAGTAATCATTGAATCCTAGCATGAACCGGATTAGAAATCAGCACCTTAGCTATTACCCCATTAATCGCCAAACAACACCACCCACGAGCAATTGAAGCCACCATTAAATACTTCCTGACACAAGCAACCGCCTCAACACTAATTCTATCCTCTAGCATTATTAATGCCTGAACACTGGGCCAATGAGACATCACACAAATGTCTAACAACACTTCATGCGCAATTCTAACCACAGCCCTAGCCATTAAATTAGGACTAGCACCCTTCCACTTCTGATTGCCAGAAGTCCTACAAGGAACTTCCACAACAACAGCCTTAATCCTAACTACCTGACAAAAATTAGCTCCTCTATCCCTACTAGTAATAACCACCCAATCCCTAAACACACCATTACTACTATTATTAGGATTAATATCCACCTTAGTTGGCGGATGGGGCGGACTAAACCAACCCCAACTACGAAAAATCATAGCATTCTCCTCCATCGCTCACCTAGGGTGAATAATTACAATCATTACTTTCTCACCTAAACTTATATTACTCACATTCTACACATACATTACTATAACTACAGCCATATTCCTCATAATTAAACTCCTAGAGACAAACAAAATCTCTATAATAATAACATCATGGACAAAACTACCAACACTAAACACCATCATAATTCTAATCCTTATGTCACTAGCCGGACTACCACCACTAACAGGGTTCATGCCCAAATGATTAATTCTTCAAGAACTAACCAAACAGCACATATTCATTATCGCCACCATAATAGCTCTACTCTCACTACTCAGCTTATTCTTCTACTTACGAATCTCATACTGCGCAACCATTACATTACCCCCAAACTCAACTAACTATTTACAACAATGACGTCACAAAACTAACCAAAAACCCTACCTAGCTCCAATAGCCACACTATCTATCACCCTGCTCCCTATCACACCTACCCTACTAACCCTCCTCTAGAAACTTAGGATCAAGCCAATTTTTAAACCGGGGGCCTTCAAAGCCCCAAAAAAGAGATAGAACCTCTTAGTTTCTGTTAAGACCTATAGGGCTCTATCCTATATCTTATGAATGCAACTCAGACACTTTAATTAAGCTAAAGTCTCACTAGACAAATGGGCCTCGATCCCATAAAAATTTAGTTAACAGCTAAACACCCAAATCCAGCGGGCTTTTATCTAATTTTCCCGCTCTCAGAAAAAGCGGGAAAACCCCGACACAAATCAAAGTGTATCTCCGAATTTGCAATTCGGAATGAATTTCACTACGAGGTTTGATAAGAAGAGGGGTTAAACCTCTATAAAAAGGTCTACAGCCTAACGCTTAAGCACTCAGCCATCTTACCTATGATTTTAACCCGCTGATTTTTTTCTACTAACCATAAAGACATTGGTACCTTATACCTTATTTTCGGGGCCTGATCAGGTATAATTGGCACAGCATTAAGTCTTTTGATCCGTGCCGAACTGAGCCAGCCAGGTACACTTCTTGGGGATGATCAGATCTACAATGTTATTGTTACGGCCCACGCTTTTGTTATAATCTTTTTCATAGTCATACCTGTTATGATCGGCGGGTTCGGAAACTGATTAGTTCCTTTAATAATTGGGGCGCCAGACATAGCATTCCCTCGTATAAACAATATAAGCTTCTGACTCCTACCTCCATCTCTACTGCTACTATTAATATCCTCTGGAATTGAAGCAGGTGCAGGTACCGGCTGAACTGTATACCCCCCACTAGCTGGGAATATGGCCCATTCCGGGGCCTCGGTAGACTTGACTATCTTTTCCCTTCACCTCGCCGGGGTGTCTTCAATCTTGGGGGCTATTAATTTTATCACCACAGCAATCAATATAAAATCTACAACCATGTCGCAGTACCAGACACCCCTATTCGTATGATCTGTACTCATTACAGCTATCTTATTACTACTCTCTTTACCTGTACTCGCCGCAGGGATCACTATATTACTTACAGACCGAAATCTGAATACAACTTTTTTTGACCCTTCAGGAGGGGGAGACCCCATCCTATACCAACACCTATTCTGATTCTTTGGTCACCCAGAAGTATACATTCTTATCCTACCTGGGTTTGGGATAATCTCACACATTGTAACCTGCTACGCAGGTAAAAAAGAACCATTTGGATATATAGGGATAGTGTGAGCAATAATATCCATTGGATTCCTGGGCTTTATTGTGTGAGCTCACCATATATTTACCGTTGGAATAGACGTAGACACCCGAGCCTATTTCACATCTGCAACAATAATTATTGCTATCCCAACAGGGGTAAAAGTATTTAGCTGATTAGCTACCTTGCATGGGGGAACAATCCAATGGGGGGCCGCCATAATATGGGCCCTAGGTTTCATTTTCCTATTCACCATCGGCGGACTAACAGGCATTGTACTGGCTAATTCATCTCTGGATATTGTACTCCATGATACTTACTATGTAGTAGCACACTTCCACTATGTTCTTTCAATAGGGGCCGTATTCGCCATTATAGCAGGATTTACCCATTGATTCACATTATTTACAGGATATCTATTACACCAAACCTGAACAAAAGTACACTTCGGATTAATATTTGCAGGCGTTAACATAACCTTCTTCCCTCAGCACTTCCTAGGCCTGGCAGGAATACCACGACGTTACTCTGACTACCCCGATGCATACACCCTATGAAATTCAATTTCGTCAATCGGATCATTAATTTCTCTAGTAGCAGTAATTATAATAATATTTATTATCTGAGAAGCATTTTGTTCAAAGCGTAAAATAGTATTAACTGAACTCAAAACTACAAACGTAGAGTGACTACACGGTTGCCCACCACCATACCACACTTATGAAGAACCAGCCCACATGCAAGTTCAAGAAAGGAGGGAATTGAACCCCCTTAAATTAGTTTCAAGCCAACTACATAACCTTTATGCTACCTTCTTCTAAAGACGTTAGTAAAATATATTACTAAACCTTGTCAAGGTTAAATTATAAGTGAAACCCCTATACGCCTTAATGGCCCACCCGCTGCAACTAGGATTCCAGGACGCAATATCACCCGTTATAGAAGAACTCCTTCACTTTCATGACCATACCCTAATAATTGTATTTTTAATCAGCACCTTAGTGCTCTACATCATTACACTAATAATAACAACAAAACTAACATACACTAACACTATAAATGCTCAAGAAGTGGAAATAATTTGAACTATTCTACCAGCAATTGTCCTAATCACCATTGCACTCCCCTCCCTACGAGTCTTGTACTTAATAGATGAAATTAATAACCCGCATTTAACAATTAAAACCATAGGACATCAATGATACTGAACGTACGAGTATACTGACTACGAAAACCTTGAGTTTGACTCTTACATGATCCATGCCCAAGATCTACCAAACGGGTACTTTCGATTATTAGAAGTAGACCACCGCATGGTCATACCAATAGAATCGCCAATCCGAATTCTAATCTCGGCTGAAGACGTCCTACACTCATGAGCAATCCCATCATTAGGTGTAAAAACAGACGCAGTGCCCGGACGATTGAACCAAACAACTTTCATTATTACACGACCAGGAATATTCTACGGACAATGTTCAGAAATCTGCGGGGCTAACCATAGCTTCATGCCAATTGTGGTAGAATCTGTGCCACTACAATACTTCGAAAACTGATCTTCACTAATACTCTCCTAACCACTATAGAAGCTAAACAGGATAGCGCTAGCCTTTTAAACTAGAGAAAGAGAATTCCCCACCCTCCTTAGTGACATGCCACAACTAAATCCAGACCCTTGATTCTTAATTCTGTCTCTCGCATGATTAACCTACATTCTCGTCCTACAACCAAAAATTCTATCCAACAAGTCTATAAATCACCCAACCAACAAAAACAACGAAATTATTAAAACAAACCCATGAACATGACCATGACCCTAACCATAAACCTAACATTTTTTAATCAATTCACAAGCCCGCAAATCATAGGAGTTCCATTAATTATACTCGCTCTATTAGCACCATCAGCCATGTTCCAAACCCAAAACAACCGATGGTTAACTAACCGTCTTTCATTACTCCAATTATGAATAATTAACCTATTCACAAAACAACTAATATCGCCCATTAGTAAAACAGGACATCAGTGATCCGTTATCTTAACATCACTAATAATTATACTCTTAATAATTAATCTGCTAGGACTTCTACCATATACATTCACCCCTACAACACAACTCTCCATAAATATAGGACTAGCCATCCCAATATGATTAGCCACAGTACTAACAGGCCTTCGAAACCAACCAACTGCATCACTAGGACACCTTCTACCAGAAGGGACCCCAAACCTATTAACCCCAATCCTCATCATCATTGAAACTATTAGCCTTTTTATCCGACCATTAGCCCTAGGTGTACGACTTACAGCCAATCTTACAGCTGGCCACCTATTAATTCAACTTACTTCTACCGCAACATTTGCTTTACTCCCAACAATACCAACCTTATCTATGCTAACCATAGTTGTACTATTATTATTATCTATTCTAGAACTAGCAGTAGCAATAATTCAAGCCTACGTCTTCGTCTTATTACTAAGCCTCTACCTTCAAGAAAACACCTAATGACCCACCAAACTCATGCCTACCACATAGTAGACCCTAGCCCATGACCATTAACAGGCGCAGCAGCATCATTACTAATAACCTCTGGGTTCGCCATGTGATTTCACCATAACTCAATACTACTAATAACCCTAGGTTTATTAACTATACTACTGACTATACTCCAGTGATGACGAGACATTGTTCGAGAAGGAACCTTCCAAGGCCATCACACCACTCCAGTACAGAAAAGCCTACGATACGGTATAATCCTATTCGTCACGTCAGAAGTATTCTTTTTTATTGGATTCTTCTGAGCTTTCTACCACTCAAGCCTGTCCCCCACACCAGAATTAGGGGGATGTTGACCACCAACAGGAATTTCTCCACTAAATCCATTTGAAGTACCACTGTTGAATACAGCAGTCTTACTGGCCTCAGGGGTAACAATTACCTGAGCCCACCATAGCCTGATAGAAGTCAACCGACACCAGACTATCCAAGCCCTTATATTAACAGTTTTACTAGGTTTGTACTTCACAACCCTACAAGCCCTGGAGTACTACGAAGCCCCGTTTACAGTTGCTGACGGTGTGTACGGCTCTACATTTTTTATTGCAACAGGCTTTCACGGACTCCACGTAATTATTGGATCAACATTTCTAATCGTATGCCTGATACGGCAAATAAAATTCCACTTCACCTCCGCCCATCACTTCGGATTCGAAGCATCCGCTTGATACTGACACTTTGTAGATGTTGTATGACTATTCCTTTATGTATCAATCTACTGATGAGGCTCATACTCTTCTAGTACAAAATAGTACCAGTGACTTCCAATCACTAAATTTTAGCTATACCCTAAAGAAGAGTAATGAACGTAACAATCTCCATTATAACAATCGCCCTCATCCTATCAGTAGTTTTAATAACACTGAACTATTGATTAACACTAGTAAAACCAAACAACGAAAAACTATCCCCATACGAATGCGGCTTCGATCCATTAGAATCAGCTCGTTTACCATTCTCAATCCAATTTTTTCTCAGTAGCAATCTTATTCTTACTATTTGATTTAGAAATCGCATTACTCTTACCTCTACCATGAGCTATTCAACTGTTATCACCAACCTACACCTTCACCTGAGCACTTATAATCCTACTACTTCTAACATTGGGCCTCATTTATGAATGAGTTCAAGGGGGCTTGGAATGGGCAGAATTGATAACTAGTCTAACACAAGACAACTAATTTCGACTTAGTTAATCATGATTAAATCCATGGTTATCCAATGACACCATTACATTTTAGCTATCTCTCTGCTTTTATTGTTAGCATCATAGGCCTCTCACTACATCGAACCTACCTTATCTCCACCCTATTATGCTTAGAAAGCATAATATTATCCATATTTATTGCCCTATCAATATGACCTATCCAACTACAAACTTCATCATTTATACTCACTCCCATACTAATACTATCCTTCTCAGCCTGCGAAGCAGGCACCGGCCTATCCTTACTTGTGGCATCCTCACGAACCCATGGTTCAGACCACTTACAAAACTTAAACCTATTACAATGCTAAAAATCATACTTCCAACCATTATATTATTACCCACAACTATGCTCTGCAAACCAAAACAACTATGAATCACTATATTAACCCATAGTTTTGGGATTGCCTTTTTAAGCCTACAGTGATTTAAACCCTCCATGGAATTTACAAGCTTCTCCAACCATTACTTAGGGGTAGACCAAATTTCAGCCCCATTACTCATCTTAACATGCTGACTCAGCCCACTAATAGTCCTGGCCAGTCAAAACCACTTGACTAAAGAACCAGTTACACGAAAACGAACCTTTATCTCCACTATTATTCTACTACAAACCTCATTAATCCTGGCCTTCTCTGCCACAGAACTAATCATATTCTTCATAGCATTTGAAGCTACACTGATTCCAACACTAGTAATTATTACACGCTGAGGAAACCAAATAGAACGGCTAAATGCTGGAACCTATTTCCTATTCTACACTCTTATTGGATCCCTCCCCCTACTAATTGCCCTCCTTTCACTTCATACCCAAAATGGAACCCTATCCCTCTGTACTATTCAACTCAACCAACACGCCATATTAAATTCATGAACCCACACAACATGATGATTTGCATTACTAACAGCCTTCATAATCAAAATACCATTGTATGGGCTACATCTATGACTACCAAAAGCACACGTAGAAGCTCCAATCGCAGGGTCAATAATCCTAGCAGCTGTACTTCTCAAACTCGGGGGGTATGGCATTATCCGTATTATAATAACTCTAGATCCTTTATCAAAAACACTCTCTTATCCATTTATAGTCCTAGCTCTATGGGGAGTAGTCATAACCAGTTCAATCTGCTTACACCAAACAGACCTAAAATCACTAATCGCTTACTCATCAGTAAGTCACATAGGACTAGTCACTGCCGCAGCACTAACCCAAACCCACTGAGCCCATACTGGAGCAATCACACTCATAATCGCCCACGGTCTAACATCATCAATACTCTTTTGCCTAGCAAACACAAACTATGAGCGAACCCACAACCGAACATTATTAATTGCCCGAAATATGCAACTATTCCTGCCACTAATGGGGACATGATGACTACTTGCCAGCCTAGCAAACATAGCCATCCCACCGACGATTAACTTAATAGGAGAACTAACTATTATTGCCTCATTATTCAACTGATCCAACATTACAATCCTAATAACAGGGTTAGGAACTTTACTCACTGCTACCTACACCTTACATATACTATCTACAACACAATGAGGAAAGACACCCTCATATATTAAAACTATCCCTCCAACTCACACACGAGAACATTTACTGATGGCACTCCACACTATACCCATAGCACTATTAATAGTAAAACCAGAACTAATCTGAGGGGCCTTTCACTGTACTATATTCCTAAAATAAATATTAGATATAGGAGTTTAAATCTCCTTATAGACCCAAAAGTAATAAAAACTCACCCAATATTTAAAACCACCTTTCCCCACTCCCAAAAAGAGAAAAAACCTAATGTTTCAAAACTATCAATGCAATTCCAAGTAATACCGCACCCATAGCCTTAGCCTAACATTACTTACCCTAATACTACCGTATATAATACTCTCCATTTAAGCATAAAACAACACCTTCCACAATCCTGACACAACTCTTTACATCTATAAACACTGAACTTATCATACTTAACCCAAAATTACCTACTACATCACGCACAAACACACACTACTTTAAACTAACCCCCACTACCTCACATAACACACCACCCTACACCCTATCAGATTCACTTTAAAATTTTTCATCTCCACACAACCTAAACGATTAGAAACTCACCAAACACCTATTAATAGCCCTAATAATAACTAATAATTTAATTTTTTTAAATAATAGACAAAAATCACATTACTACTTATAATTGAACAATAACAAAGCTGACCAAACAACTTACTACAACCTCACACATACCCATTAAGAACTTACCTGCCTTCCTTACCCAATCTTACACTTCTTCACAGTACTCTAATCGCACGAAGCACTCCACGAGACAAACCACGAACCAATTCCAACACAACAAACAATGTTAACAATAGCCCTCAACCAGCAATCAAAAAAATTACATTGCCCAAATAATAAAATCATGACACTCCACTAAAATCCAGCCGAACCACACATAATCCACCAGCATCAACTGTGATATGACCAAACCCTTCGGTACCCCACAACCAATGACCAATAACTACAAGTCCAATAATAACTAAAACATAAACCACCATATACACCACCCCCCACAAACTCCCTCAACCAATAGGATATGGCTCCGCAACTAATGCAGCCGAATAAGCAAAAATTACCAATATCCCTCCCAAATAAATTAAAAACAACACTAAAGAAACAAAAGACCCCCCAACACTTACCAACACCCCACACCCAGAAGCCGCACCCAGGATTAAACTTAAAACTCCGTAATAAGGCGACGGATTACAAGACACACCCACCATTCAAAAAACAAAACAAAACCCAAATAAAAATATAAAATATATCATAATTCTTGCATGGACTTTAACCAAGACTAATGATCTGAAAAACCACTGTTGTATTCAACTACAAAAACCTAATGACCACAAATACACGAAAAACCCACCCTATAATAAAAATTATCAACAACTCATTCATTGACCTACCAAGCCCGTCTAATATCTCTGCTTGATGAAACTTCGGATCACTACTAGGTATCTGCCTAATTTTACAAATTATCACTGGAATTTTCCTAGCAATACACTACTCACCAGACGTCTCCCTGGCATTTTCATCAATTACACACATCTCTCGAGATGTACAATACGGATGACTTATTCGCAACATACACGCTAATGGTGCCTCCTTATTCTTCATGTACATCTATATCCACATCGGACGAGGACTATACTACGGCTCATACTTGTACAAAGAGACATGAAACACAGGGATCATTCTTCTACTACTAACTATAGCCACCGCGTTCGTAGGTTATGTTCTCCCATGGGGCCAAATATCATTCTGAGGCGCTACTGTAATCACCAACCTACTCTCAGCTATTCCATATATGGGCAGCACATTAGTACAGTGGATTTGAGGGGGGTTTTCAGTGGACAACGCAACCTTAACCCGATTCTTTACCTTCCATTTTCTTTTACCATTCATTACTTCCGGCTTCGCAATAGTACATCTTCTATTTCTGCATGAGACAGGATCAAACAACCCAACAGGATTAAACTCAAACACTGATAAAATCCCCTTCCACCCGTACTTTTCATATAAAGACTTACTAGGAATTATCCTAACACTAGCCTTACTACTAACCCTCGCACTATTCTCCCCAAATCTTTTAGGAGACCCTGACAACTTTACACCAGCCAACCCTCTATCCACTCCTCCCCATATTAAACCAGAATGATACTTCCTCTTCGCTTATGCAATCCTACGATCAATTCCTAACAAACTAGGTGGCGTACTTGCCCTCCTATTAGCTATCCTTATATTACTCCTAATACCTATCCTACATACATCAAAACAACGAACCACATCATTCCGACCACTAACCCAAATCCTCTTCTGATTCTTAGTTGCTGACCTATTAGTACTAACGTGAATCGGGGGACAGCCAGTTGAAGCCCCGTTCACCGCCATCAGCCAAATAGCCTCTATCCTATACTTCTTAATCCCATTAATCTTAATGCCTACCACAGGCGTAATCGAAAACAAAATACTAAACCTAAAATACTCTAGTAGCACACCCCACTAAAGCACTGGCCATAAACCAAAGACTGAAGACTATAATCTTCCTAGAGTAATCAAAAGAGAAGGACTTAAACCTCCATTCCCGGCCCCCAAAATCGAAATCTTTTATTAAACTATATTTTGACCCCCCCCCCCCCCGATGGGCATGCTCATCGAATTTTGCCTAAATATAGGACAATTTACACCCTATGTACGTCGTGCATACTTTTATTTACCCCTAGCATATATTTAGTAATATCCCTGCTTAATCTTACATAAAAGTATATTCCCCATAATCTATCCAGATAACAGTAATTTAATGGTTTAAGGACATAATATTCTATAGTGCTTTACAACATGACTATTGTCACAGTATTGGGTTATTTCCTAATCTACCTAATCACGAGAGATAAGCAACCCTTGTTTGTAAGATACAACGTTACCAGTTTCAGGCCCATATTCATGATGGCGTACATAACTGATCTATTCTGGCCACTGGCTGTTTTTTCAGGCACATGTTATCCACTAAGTTCATTCGTTCCTCTTTAAAAGGCCTCTGGTTAAATGAGTTCTATACATTAAGTTAATAACTTGACATATGGTGGTCTTACTGGCATATAGTAGTTCTCTTTTTCTCTTTGTGTTCTCAGGCCCGCATAACTGATACCTGCCTACTCAATGAAACTGAGCCTACGTTCAAATGGTTAACCTTACATAATTGATATGGTATTATTTAGTTAATGCTTGTTAGACATATATTTTTATAAAAATTCACGACAGTAATTTTAAACCTAAACACTATAAACTATAATTTTTTAAGTTAAACCCCCCTACCCCCCGTTAAACTAACACCTAGTATGAATGGCCACTTATTTCTCGTCAAACCCCTAAATCCGAGAGCGACCAAACAGCATAAGCGTTAGTTATACAAATATCCTGAATATTTGTATTAATGTTACAGCAATAAATTTATTATGTTATACTATGTTATAGTATAGTGTGTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATATGTTGTTATATAATATGTGTTGTTATATAATATGTGTTGTTATATAATATAT

How to get the sequence from such file?? 如何从这样的文件中获取序列?

AWRAM, may I suggest you check out the BioPython package? AWRAM,我建议您检查一下BioPython软件包吗?

Specific code I would use to do what you're trying to do would be as follows: 我将用来执行您要执行的操作的特定代码如下:

from Bio import SeqIO

file = open('NC_007970.fas', r)
for record in SeqIO.parse(file, "clustal") :
    print record.seq
file.close()

BioPython will parse each FASTA file as an iterator of SeqRecord objects, from which you can query for each SeqRecord's sequence, and use it to manipulate other things too. BioPython会将每个FASTA文件解析为SeqRecord对象的迭代器,您可以从中查询每个SeqRecord的序列,并使用它来处理其他事情。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM