簡體   English   中英

使用urllib和BeautifulSoup從python 3中的HTML表中獲取數據

[英]Get data from HTML table in python 3 using urllib and BeautifulSoup

我的磁盤上有一個HTML表。 我想先使用urllib然后使用BeautifulSoup。 但是,我收到一個錯誤。 這是我的代碼:

from bs4 import  BeautifulSoup
import urllib.request     
Data ="C:/Splits.html"
page = urllib.request.urlopen(splitData).read()
page=splitData
soup = BeautifulSoup(page)

Splits.html文件如下所示:

    A                   B      C       D
1 Company            Old FV  New FV  Split Date
2 Palred Tech          5       10    26-04-2016
3 ABM Knowledg        10       5     07-04-2016

我得到的錯誤如下:

  File "C:\Anaconda3\lib\urllib\request.py", line 1324, in unknown_open
    raise URLError('unknown url type: %s' % type)
urllib.error.URLError: <urlopen error unknown url type: c>

先謝謝您的幫助。

要讀取本地文件,請使用open()並將文件對象傳遞給BeautifulSoup構造函數:

with open("path/to/file") as f:
    soup = BeautifulSoup(f, "html.parser")

請注意,無需實際讀取文件 - BeautifulSoup會為您執行此操作。

要解析文檔,請將其傳遞給BeautifulSoup構造函數。 您可以傳入字符串或打開文件句柄:

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM