簡體   English   中英

使用python代碼從IEEEXplore網站提取DOI

[英]Extract DOI from IEEEXplore website using python code

無法從網頁中提取字段數據,這不是常見的網頁抓取問題。 它也與 javascript 相關聯。 我也嘗試過 python-requests,但無法解決問題。

我正在嘗試從網頁中提取 doi。 doi 位於 javascript 中。 我能夠閱讀頁面並且代碼可以工作到{print(soup)}。 當我試圖提取 doi 值時(在給定的代碼中,對於示例網頁,doi 如下: "doi":"10.1109/LAWP.2014.2364296" )我想打印 "10.1109/LAWP.2014.2364296"從網頁中提取。

import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')        
print(soup)
soup.body.findAll(text='doi')

使用網頁“https://ieeexplore.ieee.org/document/6933872”時,輸出為 10.1109/LAWP.2014.2364296。 我怎么能?

跳過 Javascript 網頁抓取問題的可能解決方案是使用 IEEE API ( https://developer.ieee.org/ )。 雖然他們確實需要注冊和批准才能獲得 API 密鑰,但一旦您擁有它,發送一堆 IEEE 文章編號並以結構化的方式取回他們的 DOI 和其他元數據就會容易得多。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM