簡體   English   中英

訓練沒有句子界限的CRF

[英]Training a CRF without sentence boundaries

我需要標記HTML文檔中的部分文本。 但是,它主要由日期,公司名稱,地址等形式的文本組成。我計划使用CRF(sklearn-crfsuite)

我的問題是很難將數據集划分為句子。 我們可以訓練沒有句子邊界的CRF模型嗎? CRFSuite或sklearn-crfsuite中的教程不討論此問題。

如果沒有句子分段就無法做到這一點,那么如何將此類文本分成句子的任何提示?

數據是這樣的:(我無法共享實際數據) 在此處輸入圖片說明

是的,您可以進行訓練而無需將輸入序列分為句子-只需對所有內容使用較大的序列即可。 例如, https://github.com/scrapinghub/webstruct針對HTML頁面執行此操作。

句子中的拆分順序提供了附加信息(硬邊界),但是CRF可以在沒有它的情況下工作。 另請參閱: https : //stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM