繁体   English   中英

建立自己的文本语料库

[英]Building your own text corpus

这可能听起来很愚蠢,但你知道如何构建文本语料库吗? 我到处搜索,已经存在语料库,但我想知道它们是如何构建的? 例如,如果我想用正面和负面推文构建语料库,那么我只需制作两个文件? 但那些文件的内在呢? 不要得到它((( 在这个例子中,他在RedisDB中存储pos和neg推文)。

但那些文件的内在呢?

这主要取决于您正在使用的库。 XML(带有各种标签)很常见,每行一个句子。 棘手的部分是首先获取数据。

例如,如果我想用正面和负面推文构建语料库

这是否意味着您想知道如何将推文标记为正面和负面? 如果是这样,您正在寻找的是文本分类或语义分析。

如果你想找到一堆推文,我会查看其中一个页面(只是通过我自己的快速搜索)。

Clickonf5: http ://clickonf5.org/5438/download-tweets-pdf-xml-format-local-machine-server/

Quora: http//quora.com/What-is-the-best-tool-to-download-and-archive-Twitter-data-of-certain-hashtags-and-mentions-for-academic-research

Google网上论坛: http//groups.google.com/forum/?fromgroups#! topic / twitter-development- talk/ kfislDfxunI

关于如何创建语料库的一般性学习,我将查看Richard Xiao 的“自然语言处理维基手册”

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM