簡體 English 中英

水平和垂直馬氏體化

[英]Horizontal and Vertical Markovization

原文 2012-11-27 09:19:22 0 1 python/ nlp/ context-free-grammar

我有一個句子以及樹形式的語法。 我需要從中訓練一個概率上下文免費語法，以便我可以為它提供最好的解析。 我正在使用Viterbi CKY算法來獲得最佳解析。 句子采用以下樹形式:( TOP（S（NP（DT））（NN航班））（VP（MD應）（VP（VB be）（NP（NP（CD 11））（RB am））（ NP（明天NN））））））（PUNC。））

我已經建立了一個系統，該系統從賓夕法尼亞大學銀行的ATIS部分學習了概率語法，現在可以為上述句子提供一個可能的解析輸出。

我讀到了水平和垂直馬氏體化技術，它可以通過使用注釋來幫助提高准確性。 我對他們的工作方式感到有點困惑。 有人可以引導我一些解釋性的例子或說明它們如何工作以及它們如何影響准確性。

1 個解決方案

值得看看Klein和Manning撰寫的這篇論文：

http://nlp.stanford.edu/~manning/papers/unlexicalized-parsing.pdf

垂直馬爾科夫化是一種為給定規則提供上下文的技術。 從上面的論文：

例如，主題NP擴展與對象NP擴展非常不同：主題NP比對象NP擴展為僅僅代詞的可能性高8.7倍。 具有主題和對象NP的單獨符號允許捕獲該變體並用於改進解析得分。 捕獲這種外部上下文的一種方法是使用父注釋，如Johnson（1998）中所述。 例如，具有S父母（如受試者）的NP將被標記為NPS，而具有VP父母（如對象）的NP將是NPVP。

通過使用此附加父注釋重寫這些規則，我們將添加有關您正在重寫的規則的位置的信息，並且此附加信息提供特定規則重寫的更准確概率。

這個的實現非常簡單。 使用訓練數據，從底部非終端開始（這些是重寫到諸如DT，NNP，NN，VB等終端的規則）並附加^后跟其父非終端。 在您的示例中，第一次重寫將是NP ^ S，依此類推。 繼續向上直到你到達TOP（你不會重寫）。 在你的情況下，最后的重寫將是S ^ TOP。 剝離輸出上的標記將為您提供最終的解析樹。