如何使用 Selenium 和 Python 從 html 中提取文本 H MATTHEWS

Question

通過使用“包含” function 如何從這種類型的 html 結構中提取信息，我正在嘗試抓取“H MATTHEWS”此信息

HTML：

<p>
<strong>Date Published:</strong>
&nbsp; 20 APRIL 2020
<br>
<strong>Closing Date / Time:</strong>
&nbsp;TUESDAY, 05 MAY 2020
<br>
<strong>Enquiries:</strong>
<br>
Contact Person: H MATTHEWS
<br>
Email:&nbsp;
</p>

HTML 圖像：

在此處輸入圖像描述

Answer 1

文本聯系人：H MATTHEWS位於文本節點內。 因此，要打印文本，您必須為visibility_of_element_located()誘導WebDriverWait ，並且您可以使用以下任一Locator Strategies ：

使用XPATH和childNodes ：

 print(driver.execute_script('return arguments[0].childNodes[9].textContent;', WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//p[./strong[text()='Date Published:']]")))).strip())

使用XPATH和splitlines() ：

 print(WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//p[./strong[text()='Date Published:']]"))).get_attribute("innerHTML").splitlines()[-3])

注意：您必須添加以下導入：

 from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC

如果您的用例僅提取文本H MATTHEWS您可以使用以下任一解決方案：

使用XPATH和childNodes ：

 print(re.split('[:]', driver.execute_script('return arguments[0].childNodes[9].textContent;', WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//p[./strong[text()='Date Published:']]")))).strip())[1])

使用XPATH和splitlines() ：

 print(re.split('[:]', WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//p[./strong[text()='Date Published:']]"))).get_attribute("innerHTML").splitlines()[-3])[1])

參考

您可以在以下位置找到詳細的相關討論：

如何使用 Selenium 和 Python 從 html 中提取文本 H MATTHEWS

問題描述

1 個解決方案

解決方案1
0 2020-07-21 21:08:17

參考

如何使用 Selenium 和 Python 從 html 中提取文本 H MATTHEWS

問題描述

1 個解決方案

解決方案1 0 2020-07-21 21:08:17

參考

解決方案1
0 2020-07-21 21:08:17