繁体   English   中英

使用Python从网站检索源代码

[英]Retrieving source code from a website with Python

我一直在尝试从网站中提取链接而没有运气。 从我所读的内容中可以很容易地做到这一点,但是链接带有网站内的弹出对话框。 我可以获取链接的唯一方法是ctrl-A并查看要复制的源。

是否有办法在获取全部内容之前全选?

感谢任何信息或指针!

编辑我想避免下载python已经没有的东西,例如BS / Scrapy等。

据检索链接而言,可以用做请求BS4由jonrsharpe的建议。 我很高兴回答这个问题,因为我在1或2天前写了其中一篇。

from sys import argv
import requests
from bs4 import BeautifulSoup
#from notify2 import notify2
from time import sleep
import notify2
def send_message(title, message):
    notify2.init("Init")
    notice = notify2.Notification(title, message)
    notice.show()
    return

url = "http://stackoverflow.com/feeds/tag?tagnames=%s&sort=newest" % argv[1]
while True:
    r = requests.get(url)
    while r.status_code is not 200:
            r = requests.get(url)
    soup = BeautifulSoup(r.text)
    data = soup.find_all("link")
    question = data[2].get('href')
    question = question[question.find('questions') + 19:]
    send_message("Question %s: " % argv[1].upper(), question)
    sleep(60)

基本上,该脚本可以每1分钟向您发送一次桌面通知。 显示的数据是指定的stackoverflow标签第一个问题 (在大多数情况下,它工作得很好,您必须在其他情况下检查网址是否正确)
在这里,您可以访问URL并使用bs4 requests.get()获取所有数据,并使用bs4提供的不同方法来解析这些数据
顺便说一句,此代码的存储库在此处 任何贡献将不胜感激。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM