簡體   English   中英

可以使用CRF(條件隨機字段)來標記整個句子嗎?

[英]Can CRFs (Conditional Random Fields) be used to label whole sentences?

我正在嘗試使用機器學習為句子加標簽(每個句子帶有一個標簽,我假設句子彼此獨立)。 我認為線性CRF模型可以解決這種情況,但是我有一些疑問。

我嘗試使用CRF ++ (我看到的其他實現似乎具有類推格式)。 它使用句子作為輸入,但是將輸出標簽分配給每個標記。 如何在整個句子中使用單個標簽? (我想過的hack只是為測試數據中的點分配一個有效的標簽,並將其作為整個句子的輸出標簽。)

如何使用不同長度的句子? 訓練配置需要指定在分析當前令牌時要考慮哪些令牌。 但是一個句子可以包含大量或少量的標記,我想使用一個句子中的所有標記(不多或少)來利用整個信息。

這個問題看來,我正在嘗試做的事情是可能的(整個序列只有一個標簽),但是我不知道該如何格式化訓練數據。

我認為您使用的工具不正確。 要對整個句子進行分類,您可以嘗試使用Facebook的fasttext之類的東西。

https://github.com/facebookresearch/fastText

正如Ashemah所說,也許您使用的是錯誤的工具。 如果您要標記序列,例如單詞序列甚至句子序列,通常會使用CRF。 但是,由於您假設自己的句子彼此獨立,因此您可能希望獨立查看它們。 因此,您的任務不是序列標記,而是簡單的分類。 為此,您可以使用其他幾種模型,例如SVM,Naive Bayes,kNN等。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM