[英]Unstructured Text to Structured Data
我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的参考资料(教程,书籍,学术文献)。
我知道这可能属于NLP类别,但我只对从“Levi jeans size 32 A0b293”这样的东西感兴趣
到:品牌:Levi,尺寸:32,类别:牛仔裤,代码:A0b293
我想这将是词法解析和机器学习技术的某种组合。
我更倾向于语言,但如果推动它会更喜欢python,Matlab或C ++引用
谢谢
可能看看Toby Segaran的“集体智慧”。 我似乎记得在一章中解决了这个问题的基础知识。
经过一番研究后我发现这个问题通常被称为信息提取 ,并积累了一些论文并存储在Mendeley Collection中
http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/
另外,正如Tai Weiss所说,用于python的NLTK是一个很好的起点,本书的这一章,专门研究信息提取
如果你只是为你所引用的例子工作,你最好使用一些100%可预测的基于规则的手动规则,并涵盖可能遇到生产的90%的案例。
您可以列出所有可能的品牌和类别的可列表,并检测哪个在输入字符串中哪个在这两个列表中通常只有很少的交集。
可以使用正则表达式轻松检测和提取其他两个。 (1-3位数字总是大小等)
您的问题域似乎不足以保证更重要的方法,如统计学习。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.