如何從a中提取href鏈接<li class="item">標簽？</li>

Question

<li class="item">
  "*"
  <a title="test" href="/item/a test/948507/#viewPageContent">a test</a>
   ...

我有以下代碼，但它沒有完成這項工作。

entryLi = soup.findAll('li', attrs={'class': 'item'})
for entry in entryLi:
    text = entry.text     
    href = entry.find('a')['href']

我不想要所有其他的 href，而只想要 <li> 標簽下的 href。

Answer 1

Python 實現

soup = BeautifulSoup(html_doc, 'html.parser')
linkList = []
aList = []
for liNode in soup.find_all('li'):
    for aNode in liNode.find_all('a'):
       aList.append(aNode)
       linkList.append(aNode.get('href'))

所以在aNode里面你有完整的 HTML Object 而在linkList里面你只有鏈接。

@marlon 對於來自鏈接的 HTML object，您可以這樣做：

for link in linkList:
    with open(link) as fp:
        soup1 = BeautifulSoup(fp, 'html.parser')

如何從a中提取href鏈接<li class="item">標簽？</li>

問題描述

1 個解決方案

解決方案1
-1 2021-02-24 22:04:45

如何從a中提取href鏈接<li class="item">標簽？</li>

問題描述

1 個解決方案

解決方案1 -1 2021-02-24 22:04:45

解決方案1
-1 2021-02-24 22:04:45