在 Python 中使用 NLTK 為序列解析單個樹

Question

我想解析一棵樹的 RNA 序列。 我在列表中標記了 RNA 序列，如下面的代碼所示，並解析了樹：

from __future__ import print_function
import nltk
import pdb
import numpy as np
import h5py
import RNA_vae
import equation_vae_copy
import RNA_grammar

sent = ['C', 'C', 'C', 'C', 'A', 'A', 'A', 'U', 'A', 'C', 'A', 'G', 'A', 'A', 'G', 'C', 'G', 'G', 'G', 'C', 'U', 'U', 'A']
parser = nltk.ChartParser(RNA_grammar.GCFG) 
parse_trees = [next(parser.parse(t)) for t in sent]

print(parse_trees)

但是代碼的output如下：

[Tree('S', [Tree('L', ['C'])]), Tree('S', [Tree('L', ['C'])]), Tree('S', [Tree('L', ['C'])]), Tree('S', [Tree('L', ['C'])]), Tree('S', [Tree('L', ['A'])]), Tree('S', [Tree('L', ['A'])]), Tree('S', [Tree('L', ['A'])]), Tree('S', [Tree('L', ['U'])]), Tree('S', [Tree('L', ['A'])]), Tree('S', [Tree('L', ['C'])]), Tree('S', [Tree('L', ['A'])]), Tree('S', [Tree('L', ['G'])]), Tree('S', [Tree('L', ['A'])]), Tree('S', [Tree('L', ['A'])]), Tree('S', [Tree('L', ['G'])]), Tree('S', [Tree('L', ['C'])]), Tree('S', [Tree('L', ['G'])]), Tree('S', [Tree('L', ['G'])]), Tree('S', [Tree('L', ['G'])]), Tree('S', [Tree('L', ['C'])]), Tree('S', [Tree('L', ['U'])]), Tree('S', [Tree('L', ['U'])]), Tree('S', [Tree('L', ['A'])])]

我想為整個序列制作一棵樹，但它為 RNA 中的每個字符制作了樹。 如何為整個序列生成一棵樹？

語法如下：

# the RNA grammar
gram = """S -> LS
S -> L
LS -> L
LS -> S
L -> AFU
L -> UFA
L -> GFC
L -> CFG
L -> 'A'
L -> 'U'
L -> 'C'
L -> 'G'
F -> AFU
F -> UFA
F -> GFC
F -> CFG
F -> LS
AFU -> 'A'
AFU -> F
AFU -> 'U'
UFA -> 'U'
UFA -> F
UFA -> 'A'
GFC -> 'G'
GFC -> F
GFC -> 'C'
CFG -> 'C'
CFG -> F
CFG -> 'G'
Nothing -> Nones
"""

語法必須如下：

然后，我將語法更改如下，但仍然無法解析序列：

gram = """S -> L S | L
L -> 'A' F 'U' | 'A' | 'U' F 'A' | 'U' | 'C' F 'G' | 'C' | 'G' F 'C' | 'G'
F -> 'A' F 'U' | 'U' F 'A' | 'C' F 'G' | 'G' F 'C' | L S
Nothing -> Nones
"""

Answer 1

正如評論中所討論的，您從兩個基本問題開始：

你寫的語法只能處理一個字符
你每次用一個字符調用你的解析器。

結果是每個字符的“解析”向量，分別。

修正語法后，如已編輯的問題所示，更改對parser.parse的調用以提供要解析的整個序列會產生 2100 個可能的解析。

這是我所做的（您也可以這樣做，只需將以下代碼塊復制到您的 python 控制台中）：

# import only what's needed
import nltk
# The grammar
grammar = """
S -> L S | L
L -> 'A' F 'U' | 'A' | 'U' F 'A' | 'U' | 'C' F 'G' | 'C' | 'G' F 'C' | 'G'
F -> 'A' F 'U' | 'U' F 'A' | 'C' F 'G' | 'G' F 'C' | L S
"""
# Make a chartparser
parser = nltk.ChartParser(nltk.CFG.fromstring(grammar))
# The test sentence
sent = ['C', 'C', 'C', 'C', 'A', 'A', 'A',
        'U', 'A', 'C', 'A', 'G', 'A', 'A',
        'G', 'C', 'G', 'G', 'G', 'C', 'U',
        'U', 'A'
       ]
# Get all of the parses
parses = list(parser.parse(sent))
# There are a lot of them. len(parses) is 2100.
# Print one of them to the console
parses[0].pprint()

打印：

(S
  (L C)
  (S
    (L C)
    (S
      (L C)
      (S
        (L C)
        (S
          (L A)
          (S
            (L A)
            (S
              (L A)
              (S
                (L
                  U
                  (F
                    (L A)
                    (S
                      (L C)
                      (S
                        (L A)
                        (S
                          (L G)
                          (S
                            (L
                              A
                              (F
                                A
                                (F G (F C (F (L G) (S (L G))) G) C)
                                U)
                              U))))))
                  A)))))))))

在 Python 中使用 NLTK 為序列解析單個樹

問題描述

1 個解決方案

解決方案1
1 2021-05-10 20:37:54

在 Python 中使用 NLTK 為序列解析單個樹

問題描述

1 個解決方案

解決方案1 1 2021-05-10 20:37:54

解決方案1
1 2021-05-10 20:37:54