繁体   English   中英

pd.read_html 导入长字符串而不是表格

[英]pd.read_html importing a long string rather than a table

我使用 pd.read_html 来尝试导入一个表,但是当我运行它时却得到了一个长字符串。 是否有一种简单的方法可以更改结果的格式以获得每行 1 个单词而不是长字符串,或者我应该使用 pd.read_html 以外的函数? 谢谢!

这是我的代码:

import requests
import pandas as pd
url ='http://www.linfo.org/acronym_list.html'
dfs = pd.read_html(url, header =0)
df = pd.concat(dfs)
df

我也使用了这个并得到了相同的结果:

import pandas as pd
url ='http://www.linfo.org/acronym_list.html'
data = pd.read_html(url, header=0)
data[0]

出[1]:

ABCDEFGHIJKLMNOPQRSTUVWXYZ A AMD Advanced Micro Devices API 应用程序编程接口 ARP 地址解析协议 ARPANET 高级研究计划署网络 AS 自治系统 ASCII 美国信息交换标准代码 AT&T 美国电话电报公司 ATA 高级技术附件 ATM 异步传输模式 BB 字节 BELUG Bellevue Linux 用户组BGP边界网关协议...

问题是如何在此站点中创建表。

根据https://www.w3schools.com/html/html_tables.asp ,使用 <table> 标签定义 HTML 表格。 每个表格行都用 <tr> 标签定义。 表头用 < th > 标签定义。 默认情况下,表格标题为粗体且居中。 表格数据/单元格是用 <td> 标签定义的。

如果您按 CTRL+SHIFT+I,您可以检查您网站的 html 元素,您会发现该网站不符合此标准。 这就是为什么您没有使用 pandas.read_html 获得正确的数据框。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM