繁体   English   中英

如何使用 Python 从推特推文中删除图片 URL

[英]How to remove picture URL from twitter tweet using Python

我有一个来自 twitterscraper 的数据框,我正在尝试从文本中删除图片 URL

输入:大家好,有一个美好的一天。 pic.twitter.com/Z1yG39NO

输出:大家好,有美好的一天。

df['text'] = df['text'].apply(lambda x: re.split('https:\/\/.*[\r\n]*', str(x))[0]) 

我使用此代码,但它只能删除 https:

谢谢 :-)

import re
def cleaning_PicURL (text):
    text = re.sub(r'pic.twitter.com/[\w]*',"", text)
    return text

df['text'] = df['text'].apply(lambda x: cleaning_PicURL(x))

使用上面的代码它将从文本中删除图片 URL,这里split函数会将文本拆分为匹配的正则表达式模式并给我们一个列表。 在推文中,您可能不确定图片 URL 的位置,因此使用sub函数而不是split函数更相关,因为sub函数会直接删除匹配的空字符串文本,它可以轻松完成工作你。 正则表达式模式pic.twitter.com/[\\w]*将有助于匹配文本中的所有 twitter 图片 URL。 希望这可以消除您的疑虑。

例子:

re.sub(r'pic.twitter.com/[\w]*',"", "test pic.twitter.com/va4nFjFQ5B")
'test '

做这个 :

df['text'] = df['text'].str.replace(r'pic.twitter.com(.*?)\s(.*)', '')

(.*?)\\s(.*)将此用于每个帖子特定的 url 的其余部分

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM