簡體   English   中英

如何從a中提取href鏈接<li class="item">標簽?</li>

[英]How to extract href link from a <li class='item'> tag?

https://i.stack.imgur.com/VC02I.png

<li class="item">
  "*"
  <a title="test" href="/item/a test/948507/#viewPageContent">a test</a>
   ...

我有以下代碼,但它沒有完成這項工作。

entryLi = soup.findAll('li', attrs={'class': 'item'})
for entry in entryLi:
    text = entry.text     
    href = entry.find('a')['href']

我不想要所有其他的 href,而只想要 <li> 標簽下的 href。

Python 實現

soup = BeautifulSoup(html_doc, 'html.parser')
linkList = []
aList = []
for liNode in soup.find_all('li'):
    for aNode in liNode.find_all('a'):
       aList.append(aNode)
       linkList.append(aNode.get('href'))

所以在aNode里面你有完整的 HTML Object 而在linkList里面你只有鏈接。

@marlon 對於來自鏈接的 HTML object,您可以這樣做:

for link in linkList:
    with open(link) as fp:
        soup1 = BeautifulSoup(fp, 'html.parser')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM