簡體   English   中英

非結構化文本到結構化數據

[英]Unstructured Text to Structured Data

我正在尋找有關以類似於谷歌日歷快速添加按鈕的方式構建非結構化文本的參考資料(教程,書籍,學術文獻)。

我知道這可能屬於NLP類別,但我只對從“Levi jeans size 32 A0b293”這樣的東西感興趣

到:品牌:Levi,尺寸:32,類別:牛仔褲,代碼:A0b293

我想這將是詞法解析和機器學習技術的某種組合。

我更傾向於語言,但如果推動它會更喜歡python,Matlab或C ++引用

謝謝

您需要提供有關文本來源(網絡?用戶輸入?),域名(它只是衣服?),潛在格式和詞匯的更多信息......

假設最壞的情況你需要開始學習NLP。 一本非常好的免費書籍是NLTK的文檔: http ://www.nltk.org/book。 它也是一個非常好的Python介紹,SW是免費的(用於各種用途)。 警告:NLP很難。 它並不總是有效。 有時候這不好玩。 最先進的技術不在您想象的地方附近。

假設一個更好的場景(你的文本是半結構化的) - 一個好的免費工具就是pyparsing 有一本書,很多例子,結果代碼非常有吸引力。

我希望這有幫助...

可能看看Toby Segaran的“集體智慧”。 我似乎記得在一章中解決了這個問題的基礎知識。

經過一番研究后我發現這個問題通常被稱為信息提取 ,並積累了一些論文並存儲在Mendeley Collection中

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

另外,正如Tai Weiss所說,用於python的NLTK是一個很好的起點,本書的這一章,專門研究信息提取

如果你只是為你所引用的例子工作,你最好使用一些100%可預測的基於規則的手動規則,並涵蓋可能遇到生產的90%的案例。

您可以列出所有可能的品牌和類別的可列表,並檢測哪個在輸入字符串中哪個在這兩個列表中通常只有很少的交集。

可以使用正則表達式輕松檢測和提取其他兩個。 (1-3位數字總是大小等)

您的問題域似乎不足以保證更重要的方法,如統計學習。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM