繁体 English 中英

建立自己的文本语料库

[英]Building your own text corpus

原文 2012-07-04 11:25:17 3 1 text/ corpus

这可能听起来很愚蠢，但你知道如何构建文本语料库吗？ 我到处搜索，已经存在语料库，但我想知道它们是如何构建的？ 例如，如果我想用正面和负面推文构建语料库，那么我只需制作两个文件？ 但那些文件的内在呢？ 不要得到它（（（在这个例子中，他在RedisDB中存储pos和neg推文）。

1 个解决方案

但那些文件的内在呢？

这主要取决于您正在使用的库。 XML（带有各种标签）很常见，每行一个句子。 棘手的部分是首先获取数据。

例如，如果我想用正面和负面推文构建语料库

这是否意味着您想知道如何将推文标记为正面和负面？ 如果是这样，您正在寻找的是文本分类或语义分析。

如果你想找到一堆推文，我会查看其中一个页面（只是通过我自己的快速搜索）。

Clickonf5： http ：//clickonf5.org/5438/download-tweets-pdf-xml-format-local-machine-server/

Quora： http ： //quora.com/What-is-the-best-tool-to-download-and-archive-Twitter-data-of-certain-hashtags-and-mentions-for-academic-research

Google网上论坛： http ： //groups.google.com/forum/？fromgroups＃！ topic / twitter-development- talk/ kfislDfxunI

关于如何创建语料库的一般性学习，我将查看Richard Xiao 的“自然语言处理维基手册” 。

TensorFlow文本分类示例-如何评估自己的文本？

[英]TensorFlow example for text classification - how to evaluate your own text?

DirectX 11：使用自己的字体纹理输出文本

[英]DirectX 11: text output, using your own font texture

HTML制作你自己的<script type=“text/language”>?

[英]HTML make your own <script type=“text/language”>?

将非结构化句子与文本语料库分开

[英]Separating non structured sentences from text corpus

在大文本句子语料库中搜索句子

[英]Search the sentence in large text sentence corpus

将 gsub function 和文本文件配对以进行语料库清理

[英]Pairing a gsub function and text file for corpus cleaning

从多个HTML文本文件创建语料库

[英]creating corpus from multiple html text files

无法检查R中的文本语料库

[英]Can't Inspect Text Corpus in R

需要在NLTK和Python中设置分类语料库阅读器，在一个文件中设置语料库文本，每行一个文本

[英]Need to set categorized corpus reader in NLTK and Python, corpus texts in one file, one text per line

在文本挖掘中将TDM CSV文件转换为语料库格式

[英]Convert TDM CSV file into Corpus Format in Text Mining

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 TensorFlow文本分类示例-如何评估自己的文本？ DirectX 11：使用自己的字体纹理输出文本 HTML制作你自己的<script type=“text/language”>? 将非结构化句子与文本语料库分开在大文本句子语料库中搜索句子将 gsub function 和文本文件配对以进行语料库清理从多个HTML文本文件创建语料库无法检查R中的文本语料库需要在NLTK和Python中设置分类语料库阅读器，在一个文件中设置语料库文本，每行一个文本在文本挖掘中将TDM CSV文件转换为语料库格式

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM