[英]Unstructured Text to Structured Data
我正在尋找有關以類似於谷歌日歷快速添加按鈕的方式構建非結構化文本的參考資料(教程,書籍,學術文獻)。
我知道這可能屬於NLP類別,但我只對從“Levi jeans size 32 A0b293”這樣的東西感興趣
到:品牌:Levi,尺寸:32,類別:牛仔褲,代碼:A0b293
我想這將是詞法解析和機器學習技術的某種組合。
我更傾向於語言,但如果推動它會更喜歡python,Matlab或C ++引用
謝謝
可能看看Toby Segaran的“集體智慧”。 我似乎記得在一章中解決了這個問題的基礎知識。
經過一番研究后我發現這個問題通常被稱為信息提取 ,並積累了一些論文並存儲在Mendeley Collection中
http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/
另外,正如Tai Weiss所說,用於python的NLTK是一個很好的起點,本書的這一章,專門研究信息提取
如果你只是為你所引用的例子工作,你最好使用一些100%可預測的基於規則的手動規則,並涵蓋可能遇到生產的90%的案例。
您可以列出所有可能的品牌和類別的可列表,並檢測哪個在輸入字符串中哪個在這兩個列表中通常只有很少的交集。
可以使用正則表達式輕松檢測和提取其他兩個。 (1-3位數字總是大小等)
您的問題域似乎不足以保證更重要的方法,如統計學習。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.