簡體   English   中英

LinkedIn抓不到全部數據

[英]LinkedIn scraping not getting all data

從類似這樣的linkedin網站上: https ://www.linkedin.com/company/10073529?trk = tyah & trkInfo = clickedVertical%3Acompany%2CclickedEntityId%3A10073529%2Cidx%3A1-1-1%2CtarId%3A1461132316737%2Ctas%3Adastrong%20

我正在嘗試找回

與data-li-miniprofile-id關聯的鏈接

一個類=“ new-miniprofile-container” href =“ ...” data-li-url =“ ...” data-li-miniprofile-id =“ ...>

的上,下,下等的父項...

到目前為止,這是我的代碼:

import requests
from bs4 import beautifulsoup

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, "html.parser")
for link in soup.find_all("a"):
    print(link.get('href'))

我最初只是尋找一個class =“ new-miniprofile-container”,但它返回了一個空數組。 我認為原因是當我運行soup.prettify()(返回所有html抓取的數據)時,它在之后不包含任何子內容

我認為問題與LinkedIn工程師設置的安全塊有關,但我想知道是否有辦法獲取這些URL,或者是否有其他選擇獲取這些URL。

您應該改用LinkedIn REST API 有與公司簡介相關的端點,您可以在此處嘗試使用REST API資源管理器。 還有一個python-linkedin客戶端,其中也記錄了Company API部分。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM