在 pd.dataframe 系列上使用.find()

Question

我有以下df：

data = {'Org':  ['<a href="/00xO" target="_blank">Chocolate</a>'],
        'Owner': ['Charlie']
        }

df = pd.DataFrame(data)

print (df)

当我在下面应用兰巴 function 而不是给我“巧克力”时，它返回 0。

df['Correct Org']=df['Org'].apply(lambda st: st[st.find(">"):st.find("<")])

我尝试按如下方式添加“str”：

df['Correct Org']=df['Org'].str.apply(lambda st: st[st.find(">")+1:st.find("<")])

& 得到以下错误：

AttributeError: 'StringMethods' object has no attribute 'apply'

Answer 1

你得到 None 返回，因为df['Org'][0].find(">")返回 31 但df['Org'][0].find("<")返回 0。所以不清楚是什么st[st.find(">"):st.find("<")表示。 您可以使用bs4.BeautifulSoup创建汤 object 并直接获取a中的文本：

from bs4 import BeautifulSoup
df['Org'] = df['Org'].apply(lambda x: BeautifulSoup(x).text)

Output：

         Org    Owner
0  Chocolate  Charlie

Answer 2

使用BeautifulSoup解析 html 标签：

from bs4 import BeautifulSoup

df['Correct Org']=df['Org'].apply(lambda st: ','.join(BeautifulSoup(st, features="lxml").findAll(text=True)))

Answer 3

如果您不想使用 BeautifulSoup ，我为您编写了一个简单的 function 。

用于获取链接文本的 FUNCTION

def getOrg(link):
    link = str(link)
    link = link[link.find('>'):link.find("</")]
    return link.replace(link[0], '')

例如

import pandas as pd

data = {'Org':  ['<a href="/00xO" target="_blank">Chocolate</a>'],
        'Owner': ['Charlie']
        }

df = pd.DataFrame(data)


# Function Call
getOrg(df['Org'])

OUTPUT

巧克力

在 pd.dataframe 系列上使用.find()

问题描述

3 个解决方案

解决方案1
1 已采纳 2022-01-20 08:32:43

解决方案2
0 2022-01-20 08:32:43

解决方案3
0 2022-01-20 09:05:35

用于获取链接文本的 FUNCTION

例如

在 pd.dataframe 系列上使用.find()

问题描述

3 个解决方案

解决方案1 1 已采纳 2022-01-20 08:32:43

解决方案2 0 2022-01-20 08:32:43

解决方案3 0 2022-01-20 09:05:35

用于获取链接文本的 FUNCTION

例如

解决方案1
1 已采纳 2022-01-20 08:32:43

解决方案2
0 2022-01-20 08:32:43

解决方案3
0 2022-01-20 09:05:35