繁体   English   中英

从语料库中删除括号/圆括号中的文本 (R)

[英]Removing text contained in brackets/parentheses from corpus (R)

我有一个包含许多文档的语料库,其中包含长文本。 我想标记这个语料库以供进一步分析,但是,文本包含括号内的无关数据(通常是引用,例如:“(示例)”),因此我想删除它们。 我已经在 stackoverflow 上找到了文本对象的方法,但是,我不知道如何将其应用于语料库(括号之间的单词将被视为独立的标记并且不会被正则表达式删除?)。 我发现我应该在删除标点符号之前这样做(因为后者也删除了括号)。

你能帮我解决这个问题吗? 先感谢您!

我只达到了正则表达式:“\\( . \\)”

您可以使用gsub()删除括号中的所有文本。 当您计划在下一步中删除标点符号时,您可以将它们替换为. , 只是为了表明某事发生的位置(如果您需要调试管道),或者您可以将它们替换为空字符串""

你的正则表达式不起作用。 您需要使用双反斜杠对括号进行转义,并且您需要删除多个但尽可能少的字符。 你需要正则表达式*? 对于括号的内容:

corp = c("This is an example (or demonstration) of replacing things in brackets",
         "Just use gsub (a function in base) to remove (or better replace) these elements")

corp = gsub("\\(.*?\\)",".",corp)

上面的例子将导致向量:

> corp
[1] "This is an example . of replacing things in brackets"
[2] "Just use gsub . to remove . these elements"     

根据您用于语料库的包,您可以在将字符向量转换为语料库之前使用字符向量执行此操作,或者您可以使用特定的映射函数(例如tm tm_map() )将其应用于所有文本。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM