簡體   English   中英

用於電子郵件捕獲的元編程Python腳本

[英]Metaprogramming Python Script for e-mail Capture

如何修改下面的代碼以捕獲所有電子郵件而不是圖像:

import urllib2
import re
from os.path import basename
from urlparse import urlsplit

url = "URL WITH IMAGES"
urlContent = urllib2.urlopen(url).read()
# HTML image tag: <img src="url" alt="some_text"/>
imgUrls = re.findall('img .*?src="(.*?)"', urlContent)

# download all images
for imgUrl in imgUrls:
    try:
        imgData = urllib2.urlopen(imgUrl).read()
        fileName = basename(urlsplit(imgUrl)[2])
        output = open(fileName,'wb')
        output.write(imgData)
        output.close()
    except:
        pass

需要從一系列網站獲取目錄。 我正在使用C ++通過多次調用.py文件然后每次將其附加到現有文件中來為Unix創建代碼。

解析/驗證電子郵件地址需要強大的正則表達式。 您可以在Google上查找這些內容。 我正在向您展示一個簡單的電子郵件地址解析正則表達式。

emails = re.findall('([a-zA-Z0-9\.]+@[a-zA-Z0-9]+\.[a-zA-Z]{2,3})', urlContent)

這只是一個簡單的例子。 您需要使用功能強大的軟件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM