簡體 English 中英

訓練沒有句子界限的CRF

[英]Training a CRF without sentence boundaries

原文 2017-07-17 20:38:12 4 1 machine-learning/ crf/ crfsuite/ python-crfsuite

我需要標記HTML文檔中的部分文本。 但是，它主要由日期，公司名稱，地址等形式的文本組成。我計划使用CRF（sklearn-crfsuite）

我的問題是很難將數據集划分為句子。 我們可以訓練沒有句子邊界的CRF模型嗎？ CRFSuite或sklearn-crfsuite中的教程不討論此問題。

如果沒有句子分段就無法做到這一點，那么如何將此類文本分成句子的任何提示？

數據是這樣的：（我無法共享實際數據）

是的，您可以進行訓練而無需將輸入序列分為句子-只需對所有內容使用較大的序列即可。 例如， https：//github.com/scrapinghub/webstruct針對HTML頁面執行此操作。

句子中的拆分順序提供了附加信息（硬邊界），但是CRF可以在沒有它的情況下工作。 另請參閱： https : //stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf 。

[英]CRF++/Wapiti include category of entire sentence as feature

[英]Training a model to identify names appearing in a sentence

[英]Caffe training without testing

[英]Difference between CRF and Fully Connected CRF?

[英]Multithreading Forwards/Backwards for a CRF

[英]CRF++-058 on MAC

[英]CRF in tensorflow keras?

[英]CRF for NER with many classes

[英]Is it possible to visualize a tensorflow graph without a training op?

[英]How to predict from model without training again?

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 CRF ++ / Wapiti包括整個句子的類別作為特征訓練模型以識別句子中出現的名字沒有測試的Caffe培訓 CRF和全連接CRF的區別？ CRF 的多線程向前/向后 MAC上的CRF ++-058 tensorflow keras 中的 CRF？ NER的CRF有很多課程是否有可能在沒有培訓操作的情況下可視化張量流圖？如何通過模型進行預測而無需再次訓練？

相關標簽