簡體 English 中英

非結構化文本到結構化數據

[英]Unstructured Text to Structured Data

原文 2010-07-01 23:48:54 0 4 python/ nlp/ structured-data

我正在尋找有關以類似於谷歌日歷快速添加按鈕的方式構建非結構化文本的參考資料（教程，書籍，學術文獻）。

我知道這可能屬於NLP類別，但我只對從“Levi jeans size 32 A0b293”這樣的東西感興趣

到：品牌：Levi，尺寸：32，類別：牛仔褲，代碼：A0b293

我想這將是詞法解析和機器學習技術的某種組合。

我更傾向於語言，但如果推動它會更喜歡python，Matlab或C ++引用

謝謝

4 個解決方案

您需要提供有關文本來源（網絡？用戶輸入？），域名（它只是衣服？），潛在格式和詞匯的更多信息......

假設最壞的情況你需要開始學習NLP。 一本非常好的免費書籍是NLTK的文檔： http ：//www.nltk.org/book。 它也是一個非常好的Python介紹，SW是免費的（用於各種用途）。 警告：NLP很難。 它並不總是有效。 有時候這不好玩。 最先進的技術不在您想象的地方附近。

假設一個更好的場景（你的文本是半結構化的） - 一個好的免費工具就是pyparsing 。 有一本書，很多例子，結果代碼非常有吸引力。

我希望這有幫助...

可能看看Toby Segaran的“集體智慧”。 我似乎記得在一章中解決了這個問題的基礎知識。

經過一番研究后我發現這個問題通常被稱為信息提取 ，並積累了一些論文並存儲在Mendeley Collection中

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

另外，正如Tai Weiss所說，用於python的NLTK是一個很好的起點，本書的這一章，專門研究信息提取

如果你只是為你所引用的例子工作，你最好使用一些100％可預測的基於規則的手動規則，並涵蓋可能遇到生產的90％的案例。

您可以列出所有可能的品牌和類別的可列表，並檢測哪個在輸入字符串中哪個在這兩個列表中通常只有很少的交集。

可以使用正則表達式輕松檢測和提取其他兩個。 （1-3位數字總是大小等）

您的問題域似乎不足以保證更重要的方法，如統計學習。

解析混合的結構化和非結構化數據

[英]Parsing mixed structured and unstructured data

在 Python 中讀取非結構化文本文件以使其結構化

[英]Unstructured text file read in Python to make it structured

將BeautifulSoup中的非結構化數據解析為結構化數據集

[英]Parsing Unstructured Data from BeautifulSoup into Structured Datasets

嵌套 for 循環將非結構化數據轉換為結構化數據

[英]Nested for loops to convert unstructured data to structured

非結構化數據的文本分析

[英]Text analysis for unstructured data

詞法分析或一系列正則表達式以將非結構化文本解析為結構化形式

[英]lexical analyse or series of regular expressions to parse unstructured text into structured form

將非結構化數據解析為來自 R 或 Python 中的 pdf 的結構化數據

[英]Parsing unstructured data to structured data from pdf in R or Python

Scipy 對結構化二維數據進行插值，但在非結構化點進行評估？

[英]Scipy interpolate on structured 2d data, but evaluate at unstructured points?

將非結構化 Json 轉換為結構化 DataFrame

[英]Convert unstructured Json to structured DataFrame

如何提取非結構化excel文件數據（儀表盤數據）並將其導出為結構化干凈數據

[英]How to extract unstructured excel file data(dashboard data) and export it to as structured clean data

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 解析混合的結構化和非結構化數據在 Python 中讀取非結構化文本文件以使其結構化將BeautifulSoup中的非結構化數據解析為結構化數據集嵌套 for 循環將非結構化數據轉換為結構化數據非結構化數據的文本分析詞法分析或一系列正則表達式以將非結構化文本解析為結構化形式將非結構化數據解析為來自 R 或 Python 中的 pdf 的結構化數據 Scipy 對結構化二維數據進行插值，但在非結構化點進行評估？將非結構化 Json 轉換為結構化 DataFrame 如何提取非結構化excel文件數據（儀表盤數據）並將其導出為結構化干凈數據

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM