繁体   English   中英

非结构化文本到结构化数据

[英]Unstructured Text to Structured Data

我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的参考资料(教程,书籍,学术文献)。

我知道这可能属于NLP类别,但我只对从“Levi jeans size 32 A0b293”这样的东西感兴趣

到:品牌:Levi,尺寸:32,类别:牛仔裤,代码:A0b293

我想这将是词法解析和机器学习技术的某种组合。

我更倾向于语言,但如果推动它会更喜欢python,Matlab或C ++引用

谢谢

您需要提供有关文本来源(网络?用户输入?),域名(它只是衣服?),潜在格式和词汇的更多信息......

假设最坏的情况你需要开始学习NLP。 一本非常好的免费书籍是NLTK的文档: http ://www.nltk.org/book。 它也是一个非常好的Python介绍,SW是免费的(用于各种用途)。 警告:NLP很难。 它并不总是有效。 有时候这不好玩。 最先进的技术不在您想象的地方附近。

假设一个更好的场景(你的文本是半结构化的) - 一个好的免费工具就是pyparsing 有一本书,很多例子,结果代码非常有吸引力。

我希望这有帮助...

可能看看Toby Segaran的“集体智慧”。 我似乎记得在一章中解决了这个问题的基础知识。

经过一番研究后我发现这个问题通常被称为信息提取 ,并积累了一些论文并存储在Mendeley Collection中

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

另外,正如Tai Weiss所说,用于python的NLTK是一个很好的起点,本书的这一章,专门研究信息提取

如果你只是为你所引用的例子工作,你最好使用一些100%可预测的基于规则的手动规则,并涵盖可能遇到生产的90%的案例。

您可以列出所有可能的品牌和类别的可列表,并检测哪个在输入字符串中哪个在这两个列表中通常只有很少的交集。

可以使用正则表达式轻松检测和提取其他两个。 (1-3位数字总是大小等)

您的问题域似乎不足以保证更重要的方法,如统计学习。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM