使用python代碼從IEEEXplore網站提取DOI

Question

無法從網頁中提取字段數據，這不是常見的網頁抓取問題。 它也與 javascript 相關聯。 我也嘗試過 python-requests，但無法解決問題。

我正在嘗試從網頁中提取 doi。 doi 位於 javascript 中。 我能夠閱讀頁面並且代碼可以工作到{print(soup)}。 當我試圖提取 doi 值時（在給定的代碼中，對於示例網頁，doi 如下： "doi":"10.1109/LAWP.2014.2364296" ）我想打印 "10.1109/LAWP.2014.2364296"從網頁中提取。

import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')        
print(soup)
soup.body.findAll(text='doi')

使用網頁“https://ieeexplore.ieee.org/document/6933872”時，輸出為 10.1109/LAWP.2014.2364296。 我怎么能？

Answer 1

跳過 Javascript 網頁抓取問題的可能解決方案是使用 IEEE API ( https://developer.ieee.org/ )。 雖然他們確實需要注冊和批准才能獲得 API 密鑰，但一旦您擁有它，發送一堆 IEEE 文章編號並以結構化的方式取回他們的 DOI 和其他元數據就會容易得多。

使用python代碼從IEEEXplore網站提取DOI

問題描述

1 個解決方案

解決方案1
1 2019-02-11 01:52:02

使用python代碼從IEEEXplore網站提取DOI

問題描述

1 個解決方案

解決方案1 1 2019-02-11 01:52:02

解決方案1
1 2019-02-11 01:52:02