繁体   English   中英

如何删除一个带有两个特定首字母的句子

[英]how to remove one sentence with two specific initial words

在此处输入图片说明

我有一个包含新闻数据集的数据框。 我想删除一个带有两个特定初始词的句子,即“baca juga:, .... laga”。 例如。 知道怎么做吗?

如果您需要,这是附加信息。

在此处输入图片说明

您可以尝试 df.loc 找到它,然后将其更改为空白:

df.loc[df['news'].astype(str).str.contains(r'(?:baca juga)', regex=True), 'news'] 

如果可行,您可以使用 = '' 将其设置为空白

使用正则表达式,找到句子然后用空格替换

我在你的例子中没有看到 baca juga 但假设它在其中一排

import re
df['news'].map(lambda x: re.sub(r'(baca juga[^.]+.)', '', x))

解释

  • baca juga从这个开始

  • [^.]这匹配任何不是句点的字符

  • +. 继续直到达到一个时期并删除该时期

例子

input_df
                                                news
0  dskfl fsdg wer. baca juga: fgads awr yut. dfaw...
1          rwepu fsan apsj lis. fja jp ios jos lfslt
Output_df
0           dskfl fsdg wer.  dfaw top fapw asf
1    rwepu fsan apsj lis. fja jp ios jos lfslt

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM