[英]Improper Beautiful Soup Parsing
通過此代碼,我將從BS解析中獲取以下URL:
result, data = mail.uid('search', None, "(FROM 'tiffany@e.tiffany.com')") # search and return uids instead
latest_email_uid = data[0].split()[-1]
result, data = mail.uid('fetch', latest_email_uid, '(RFC822)')
raw_email = data[0][1]
html = raw_email
soup = BS(html)
urls=[]
for x in soup.find_all('a', href=True):
urls.append(x['href'])
print urls
產量
'3D"http://elink.tiffany.com/r/YB7DL5S/32FU1/5A6EIF/QFMQOO/6EN2U/52/h"='
如何刪除前4個和后3個字符? 我可以用漂亮的湯做些什么還是應該使用split()?
只需使用str.lstrip()
和rstrip()
。 這種方法的缺點是,您現在必須完全刪除要刪除的內容。
在這里,將所有URL剝離,然后將它們放入列表中:
urls.append(x['href'].lstrip("'3D\"").rstrip("\"=\'"))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.