繁体   English   中英

从 LinkedIn 抓取职位名称

[英]Scraping Job Title from LinkedIn

到目前为止,我的代码 - 如果我在 LinkedIn 中搜索职位 -(例如 - 网络分析师),将收集此职位发布/页面的所有链接

目标 - 我将这些链接放在一个列表中,并遍历它们(到目前为止代码有效)以打印每个职位发布/链接的标题

我的代码遍历每个链接,但没有获得帖子标题/职位标题文本。 这是目标。

import time

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
test1=[]

options = Options()
options.headless = True
driver = webdriver.Chrome(ChromeDriverManager().install())


url = "https://www.linkedin.com/jobs/search/?currentJobId=2213597199&geoId=103644278&keywords=cyber%20analyst&location=United%20States&start=0&redirect=false"
driver.get(url)
time.sleep(2)
elements = driver.find_elements_by_class_name("result-card__full-card-link")
job_links = [e.get_attribute("href") for e in elements]

for job_link in job_links:
    test1.append(job_link) #prints all links into test1

for b in test1:
    driver.get(b)
    time.sleep(3)
    element1=driver.find_elements_by_class_name("jobs-top-card__job-title t-24")
    title=[t.get_attribute("jobs-top-card__job-title t-24") for t in element1]
    print(title)

我在链接页面class 'obs-top-card__job-title t-24'不到class 'obs-top-card__job-title t-24' ,但这为您提供了每个href的职位

改变

element1=driver.find_elements_by_class_name("jobs-top-card__job-title t-24")
title=[t.get_attribute("jobs-top-card__job-title t-24") for t in element1]

element1=driver.find_elements_by_class_name("topcard__title")
title=[t.text for t in element1]


>>> ['Cyber Threat Intelligence Analyst']
>>> ['Jr. Python/Cyber Analyst (TS/SCI)']
>>> ['Cyber Security Analyst']
....ect

每次执行driver.get(b)都会获取一个新页面,因此 html 代码与driver.get(url)所以我认为t.get_attribute("jobs-top-card__job-title t-24")属于driver.get(url) html 代码,但正如我所说,当driver.get(b)此页面已关闭

此外, driver.get(b)每个页面都具有相同的结构,因此element1=driver.find_elements_by_class_name("topcard__title")将始终有效

例如,这是driver.get(b)的其中一页:

在此处输入图片说明

这是topcard_title位置

在此处输入图片说明

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM