繁体 English 中英

非结构化文本到结构化数据

[英]Unstructured Text to Structured Data

原文 2010-07-01 23:48:54 6 4 python/ nlp/ structured-data

我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的参考资料（教程，书籍，学术文献）。

我知道这可能属于NLP类别，但我只对从“Levi jeans size 32 A0b293”这样的东西感兴趣

到：品牌：Levi，尺寸：32，类别：牛仔裤，代码：A0b293

我想这将是词法解析和机器学习技术的某种组合。

我更倾向于语言，但如果推动它会更喜欢python，Matlab或C ++引用

谢谢

4 个解决方案

您需要提供有关文本来源（网络？用户输入？），域名（它只是衣服？），潜在格式和词汇的更多信息......

假设最坏的情况你需要开始学习NLP。 一本非常好的免费书籍是NLTK的文档： http ：//www.nltk.org/book。 它也是一个非常好的Python介绍，SW是免费的（用于各种用途）。 警告：NLP很难。 它并不总是有效。 有时候这不好玩。 最先进的技术不在您想象的地方附近。

假设一个更好的场景（你的文本是半结构化的） - 一个好的免费工具就是pyparsing 。 有一本书，很多例子，结果代码非常有吸引力。

我希望这有帮助...

可能看看Toby Segaran的“集体智慧”。 我似乎记得在一章中解决了这个问题的基础知识。

经过一番研究后我发现这个问题通常被称为信息提取 ，并积累了一些论文并存储在Mendeley Collection中

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

另外，正如Tai Weiss所说，用于python的NLTK是一个很好的起点，本书的这一章，专门研究信息提取

如果你只是为你所引用的例子工作，你最好使用一些100％可预测的基于规则的手动规则，并涵盖可能遇到生产的90％的案例。

您可以列出所有可能的品牌和类别的可列表，并检测哪个在输入字符串中哪个在这两个列表中通常只有很少的交集。

可以使用正则表达式轻松检测和提取其他两个。 （1-3位数字总是大小等）

您的问题域似乎不足以保证更重要的方法，如统计学习。

解析混合的结构化和非结构化数据

[英]Parsing mixed structured and unstructured data

在 Python 中读取非结构化文本文件以使其结构化

[英]Unstructured text file read in Python to make it structured

将BeautifulSoup中的非结构化数据解析为结构化数据集

[英]Parsing Unstructured Data from BeautifulSoup into Structured Datasets

嵌套 for 循环将非结构化数据转换为结构化数据

[英]Nested for loops to convert unstructured data to structured

非结构化数据的文本分析

[英]Text analysis for unstructured data

词法分析或一系列正则表达式以将非结构化文本解析为结构化形式

[英]lexical analyse or series of regular expressions to parse unstructured text into structured form

将非结构化数据解析为来自 R 或 Python 中的 pdf 的结构化数据

[英]Parsing unstructured data to structured data from pdf in R or Python

Scipy 对结构化二维数据进行插值，但在非结构化点进行评估？

[英]Scipy interpolate on structured 2d data, but evaluate at unstructured points?

将非结构化 Json 转换为结构化 DataFrame

[英]Convert unstructured Json to structured DataFrame

如何提取非结构化excel文件数据（仪表盘数据）并将其导出为结构化干净数据

[英]How to extract unstructured excel file data(dashboard data) and export it to as structured clean data

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 解析混合的结构化和非结构化数据在 Python 中读取非结构化文本文件以使其结构化将BeautifulSoup中的非结构化数据解析为结构化数据集嵌套 for 循环将非结构化数据转换为结构化数据非结构化数据的文本分析词法分析或一系列正则表达式以将非结构化文本解析为结构化形式将非结构化数据解析为来自 R 或 Python 中的 pdf 的结构化数据 Scipy 对结构化二维数据进行插值，但在非结构化点进行评估？将非结构化 Json 转换为结构化 DataFrame 如何提取非结构化excel文件数据（仪表盘数据）并将其导出为结构化干净数据

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM