如何从Python的Google功能中提取文本？

Question

用Google功能，例如，当您输入Google时“我感到很好奇”，第一个结果是一个随机的事实，然后您得到了基本结果。 我想做的是在Python中提取随机事实的文本。 我尝试使用库requests和bs4 。 我注意到在requests库中找不到随机事实功能。

还有其他提取文字的方法吗？

Answer 1

可以使用Selenium WebDriver和Python通过UI提取文本。 但是，由于每次加载页面时更改的类名称，选择器将不稳定。 例如，用于获取问题文本的xpath类似于//*[@id="rso"]/div/div/div/div/div/div/div/div/div[1]/div 。

顺便说一句，有可能。 看下面的例子：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--disable-gpu")
chrome_options.add_experimental_option("prefs", {"profile.default_content_setting_values.notifications": 2})
browser = webdriver.Chrome(chrome_options=chrome_options)

browser.get("https://www.google.com")
search_box= browser.find_element_by_id("lst-ib")
search_box.send_keys("I'm feeling curious")
search_box.submit()
wait = WebDriverWait(browser, 5)
question = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="rso"]/div/div/div/div/div/div/div/div/div[1]/div')))
answer = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="rso"]/div/div/div/div/div/div/div/div/div[2]/div')))
from time import sleep
count = 3
while not answer.text:
    if not count: break
    sleep(1)
    answer = browser.find_element_by_xpath('//*[@id="rso"]/div/div/div/div/div/div/div/div/div[2]/div')
url = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="rso"]/div/div/div/div/div/div/div/div/div/p/a'))).get_attribute('href')

print('Question: {} \nAnswer: {}\nUrl: {}'.format(question.text, answer.text, url))

如果安装Selenium，则可以运行此代码，如果需要，还可以运行其他依赖项。

如何从Python的Google功能中提取文本？

问题描述

1 个解决方案

解决方案1
0 已采纳 2018-07-11 08:33:17

如何从Python的Google功能中提取文本？

问题描述

1 个解决方案

解决方案1 0 已采纳 2018-07-11 08:33:17

解决方案1
0 已采纳 2018-07-11 08:33:17