繁体   English   中英

IMDb HTML提取-精美汤

[英]IMDb HTML Extraction - With Beautiful Soup

使用Beautiful Soup4 ,我试图获得一些似乎没有被标记的文本。 (我可能是错的,我对HTML不太了解)

我需要从页面的IMDb代码中提取几个值; 特定电影的预算值和最新的全球总值。 影片的长度因胶片而异,因此,如果有一种使用Beautiful Soup4的方法来提取这些值而与行号无关,那将非常有帮助。 这是代码:

<div id="tn15content">
<h5>Budget</h5>
$165,000,000 (estimated)<br/>
<br/>

来自此页面的源代码: 《星际穿越》的IMDb票房页面

我需要提取“ $ 165,000,000”,以便我可以存储它等。

Gross代码更加令人困惑:

<h5>Gross</h5>
$188,020,017 (USA) (<a href="/date/03-19/">19 March</a> <a href="/year/2015/">2015</a>)<br/>$187,991,439 (USA) (<a href="/date/03-15/">15 March</a> <a href="/year/2015/">2015</a>)<br/>$187,930,551 (USA) (<a href="/date/03-14/">14 March</a> <a href="/year/2015/">2015</a>)<br/>$187,918,949 (USA) (<a href="/date/03-11/">11 March</a> <a href="/year/2015/">2015</a>)<br/>$187,888,097 (USA) (<a href="/date/03-08/">8 March</a> <a href="/year/2015/">2015</a>)<br/>

我所需要的是最新的(世界各地的数字都是通过大量代码,由于此处的间距,我决定省去了这些代码)。

我知道这里也解决了类似的问题,但是由于该网站是新手,所以我无法解决该问题,也无法发表评论以请用户提供我的特定解决方案的帮助。 我打算尝试使IMDbPY正常工作,但是我不确定如何将其与WinPython一起安装。

使用正则表达式

\$([0-9,]+) \(USA\)

\$([0-9,]+) \(Worldwide\)

http://pythex.org/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM