使用urllib和BeautifulSoup從python 3中的HTML表中獲取數據

Question

我的磁盤上有一個HTML表。 我想先使用urllib然后使用BeautifulSoup。 但是，我收到一個錯誤。 這是我的代碼：

from bs4 import  BeautifulSoup
import urllib.request     
Data ="C:/Splits.html"
page = urllib.request.urlopen(splitData).read()
page=splitData
soup = BeautifulSoup(page)

Splits.html文件如下所示：

    A                   B      C       D
1 Company            Old FV  New FV  Split Date
2 Palred Tech          5       10    26-04-2016
3 ABM Knowledg        10       5     07-04-2016

我得到的錯誤如下：

  File "C:\Anaconda3\lib\urllib\request.py", line 1324, in unknown_open
    raise URLError('unknown url type: %s' % type)
urllib.error.URLError: <urlopen error unknown url type: c>

先謝謝您的幫助。

Answer 1

要讀取本地文件，請使用open()並將文件對象傳遞給BeautifulSoup構造函數：

with open("path/to/file") as f:
    soup = BeautifulSoup(f, "html.parser")

請注意，無需實際讀取文件 - BeautifulSoup會為您執行此操作。

Answer 2

要解析文檔，請將其傳遞給BeautifulSoup構造函數。 您可以傳入字符串或打開文件句柄：

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

使用urllib和BeautifulSoup從python 3中的HTML表中獲取數據

問題描述

2 個解決方案

解決方案1
0 2016-12-28 02:44:00

解決方案2
0 2016-12-28 12:17:48

使用urllib和BeautifulSoup從python 3中的HTML表中獲取數據

問題描述

2 個解決方案

解決方案1 0 2016-12-28 02:44:00

解決方案2 0 2016-12-28 12:17:48

解決方案1
0 2016-12-28 02:44:00

解決方案2
0 2016-12-28 12:17:48