Pandas：在字符串中查找 substring 的開始和結束 position

Question

from numpy.core.defchararray import find
df = pd.DataFrame({
  "string": ["abc", "def", "ghi"],
  "substring": ["bc", "e", "ghi"]
})

我得到以下確定開始 position 但我不知道如何得到結束 position：

df.assign(start=find(df['string'].values.astype(str),df['substring'].values.astype(str)))

預期結果：

string substring start end
abc    bc        1     2
def    e         1     1
ghi    ghi       0     2

Answer 1

將列表推導與:=一起用於表達式中的變量賦值，用於元組中的end字符串值，最后賦值給新列：

df[['start','end']]=[(c:=a.find(b),c+len(b)-1) for a,b in zip(df['string'],df['substring'])]
print (df)
  string substring  start  end
0    abc        bc      1    2
1    def         e      1    1
2    ghi       ghi      0    2

您的解決方案應該使用相同的邏輯進行更改：

from numpy.core.defchararray import find

df=df.assign(start=find(df['string'].values.astype(str),df['substring'].values.astype(str)),
             end = lambda x: x['start'] + x['substring'].str.len() - 1)
print (df)
  string substring  start  end
0    abc        bc      1    2
1    def         e      1    1
2    ghi       ghi      0    2

如果沒有匹配返回-1 ，那么可能的解決方案應該在下一步中設置NaN s：

df = pd.DataFrame({
  "string": ["ab7c", "def", "ghi"],
  "substring": ["bc", "e", "ghi"]
})
print (df)
  string substring
0   ab7c        bc
1    def         e
2    ghi       ghi

from numpy.core.defchararray import find

df=df.assign(start=find(df['string'].values.astype(str),df['substring'].values.astype(str)),
         end = lambda x: x['start'] + x['substring'].str.len() - 1)

df[['start','end']] = df[['start','end']].mask(df['start'].eq(-1))
print (df)
  string substring  start  end
0   ab7c        bc    NaN  NaN
1    def         e    1.0  1.0
2    ghi       ghi    0.0  2.0

Answer 2

另一種具有更好代碼可讀性的方法如下

## this will ensure if not found it will return None
def index_of_substring(main_string, substring):
    try:
        start_index = main_string.index(substring)
        end_index = start_index + len(substring) -1
        return(pd.Series([start_index,end_index]))
    except ValueError:
        return(pd.Series([None,None]))
## Then you call the function as follows
df = pd.DataFrame({
  "string": ["abc", "def", "ghi"],
  "substring": ["bc", "e", "ghi"]
})
df[["start","end"]] = df.apply(lambda row:index_of_substring(row['string'],row["substring"]),axis=1)
df.head()

string  substring   start   end
0   abc bc  1   2
1   def e   1   1
2   ghi ghi 0   2

Pandas：在字符串中查找 substring 的開始和結束 position

問題描述

2 個解決方案

解決方案1
4 已采納 2022-09-09 05:46:20

解決方案2
0 2022-09-09 05:56:56

Pandas：在字符串中查找 substring 的開始和結束 position

問題描述

2 個解決方案

解決方案1 4 已采納 2022-09-09 05:46:20

解決方案2 0 2022-09-09 05:56:56

解決方案1
4 已采納 2022-09-09 05:46:20

解決方案2
0 2022-09-09 05:56:56