如何在Python中刪除html文件的特定部分

Question

我正在處理一個包含項目1，項目2和項目3的html文件。我想刪除項目2之后的所有文本。我可以在文件中找到項目2，如下所示：

Item2= re.compile (r'(Item&nbsp;2)',re.I|re.S)
Item2match= Item2.findall(file)

但我不知道如何刪除后面的文字。

Answer 1

只需使用字符串方法分割html文本並采用第一部分； str.partition()工作簡單得多：

file.partition('Item&nbsp;2')[0]

如果您也想保留Item 2文字，請使用：

''.join(file.partition('Item&nbsp;2')[:2])

此處無需使用正則表達式； 您正在匹配文字文本。 正則表達式是一種出色的表現力和強大的工具，但是如果有更簡單的選擇，則不要使用它。

演示：

>>> 'Some text with Item&nbsp;2 in it'.partition('Item&nbsp;2')[0]
'Some text with '
>>> ''.join('Some text with Item&nbsp;2 in it'.partition('Item&nbsp;2')[:2])
'Some text with Item&nbsp;2'

Answer 2

>>> re.sub(r'(?s)(?<=Item&nbsp;2)(.*)', '', file)

例：

>>> s
'Item&nbsp;2...feiugeogherger\nfjweifjwef\nsfjioweiefjwe'
>>> re.sub(r'(?s)(?<=Item&nbsp;2)(.*)', '', s)
'Item&nbsp;2'

如何在Python中刪除html文件的特定部分

問題描述

2 個解決方案

解決方案1
0 已采納 2013-07-24 21:15:28

解決方案2
0 2013-07-24 21:15:55

如何在Python中刪除html文件的特定部分

問題描述

2 個解決方案

解決方案1 0 已采納 2013-07-24 21:15:28

解決方案2 0 2013-07-24 21:15:55

解決方案1
0 已采納 2013-07-24 21:15:28

解決方案2
0 2013-07-24 21:15:55