簡體   English   中英

使用Python從網頁中選擇特定文本

[英]Selecting specific text from a webpage using Python

盡管我喜歡這個程序,但是我對Calibre每周更新的習慣感到非常厭倦。 為了解決該問題,我正在嘗試使用可自動執行該過程的python腳本。

我已經成功打開了文檔,但是在弄清楚如何為字符串捕獲特定片段方面遇到麻煩。 由於Calibre的下載鏈接取決於需要檢索的版本號。 當前,第218行包含以下內容:

  <a href="/projects/calibre/files/latest/download?source=files" title="/0.8.34/calibre-portable-0.8.34.zip: released on 2012-01-06 07:22:08 UTC"> 

我需要從該行中檢索“ calibre-ebook.0.8.34”。 關於如何進行這項工作有什么建議嗎?

import urllib2
print("Calibre is Updating")
url = urllib2.urlopen ( "http://sourceforge.net/projects/calibre/files" ).read()
print(url)

您的代碼的修正:

import urllib2
import re

print("Calibre is Updating")
url = urllib2.urlopen ( "http://sourceforge.net/projects/calibre/files" ).read()

result = re.search('title="/[0-9.]*/([a-zA-Z\-]*-[0-9\.]*)', url).groups()[0][:-1]
print(result)

我在這里使用的是re模塊,以搜索與您的請求匹配的字符串並將其保存為結果。

我最后刪除了最后一個字符,因為我的正則表達式節省了一個額外的點。 有了一些耐心,您就可以真正將其固定在所需的東西上。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM