[英]I am not able to parse using Beautiful Soup
<td>
<a name="corner"></a>
<div>
<div style="aaaaa">
<div class="class-a">My name is alis</div>
</div>
<div>
<span><span class="class-b " title="My title"><span>Very Good</span></span> </span>
<b>My Description</b><br />
My Name is Alis I am a python learner...
</div>
<div class="class-3" style="style-2 clear: both;">
alis
</div>
</div>
<br /></td>
刮完后我想要描述:
My Name is Alis I am a python learner...
我嘗試了很多事情,但是我找不到最好的方法。 你們可以為此提供一般解決方案嗎?
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup("Your sample html here")
soup.td.div('div')[2].contents[-1]
這將返回您要查找的字符串(unicode字符串,帶有任何適用的空格,應注意)。
通過解析html,抓取第一個td標簽及其內容,抓取第一個div標簽內的所有div標簽,選擇列表中的第3個項目(列表索引2)以及抓取其最后一個內容,可以進行此操作。
在BeautifulSoup中,有很多方法可以做到這一點,所以這個答案可能對您沒有太多的幫助,我真的建議您閱讀David建議的教程。
您是否嘗試閱讀文檔中提供的示例? 他們的快速入門位於此處http://www.crummy.com/software/BeautifulSoup/documentation.html#Quick Start
編輯:查找
您將通過加載HTML
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup("My html here")
myDiv = soup.find("div", { "class" : "class-a" })
還請記住,您可以通過python控制台執行大部分操作,然后將dir()與help()一起使用來完成您要嘗試執行的操作。 嘗試ipython或python IDLE可能會讓您的生活更輕松,這些工具對初學者來說非常友好。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.