繁体   English   中英

使用python从网站提取数据

[英]extracing data from websites using python

我是Web开发的新手,我对我想探索的东西有个主意,我想就应该使用哪些工具提供一些建议。 我知道python,最近一直在学习django,因此理想情况下,我希望将它们合并。

我想做的事与我认为的一些基本html解析和正则表达式的使用有关。 基本上,我希望能够将来自多个网站的某些有用信息汇总到一个站点中。 例如,假设有十多所中学,我想知道其毕业日期,时间和地点。 如何显示每个高中站点上的信息大致相似,因此我想提取“位置”或“地点”,“时间”,“日期”等之后的单词数据,然后将其自动发布到我的网站,如果任何信息在高中网站上发生任何更改,我也希望它进行更新。

您将用什么来完成这项任务? 另外,如果您知道可以指向我使用的任何有用的教程,资源等,将不胜感激!

对于提取部分,我认为您最好的选择是美丽汤,主要是因为它易于使用,并且会尝试解析任何损坏的xml / html。

看看BeautifulSoup

更新:

如果要填写表格,可以使用机械化

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM