IMDb HTML提取-精美汤

Question

使用Beautiful Soup4 ，我试图获得一些似乎没有被标记的文本。 （我可能是错的，我对HTML不太了解）

我需要从页面的IMDb代码中提取几个值； 特定电影的预算值和最新的全球总值。 影片的长度因胶片而异，因此，如果有一种使用Beautiful Soup4的方法来提取这些值而与行号无关，那将非常有帮助。 这是代码：

<div id="tn15content">
<h5>Budget</h5>
$165,000,000 (estimated)<br/>
<br/>

来自此页面的源代码：《星际穿越》的IMDb票房页面

我需要提取“ $ 165,000,000”，以便我可以存储它等。

Gross代码更加令人困惑：

<h5>Gross</h5>
$188,020,017 (USA) (<a href="/date/03-19/">19 March</a> <a href="/year/2015/">2015</a>)<br/>$187,991,439 (USA) (<a href="/date/03-15/">15 March</a> <a href="/year/2015/">2015</a>)<br/>$187,930,551 (USA) (<a href="/date/03-14/">14 March</a> <a href="/year/2015/">2015</a>)<br/>$187,918,949 (USA) (<a href="/date/03-11/">11 March</a> <a href="/year/2015/">2015</a>)<br/>$187,888,097 (USA) (<a href="/date/03-08/">8 March</a> <a href="/year/2015/">2015</a>)<br/>

我所需要的是最新的（世界各地的数字都是通过大量代码，由于此处的间距，我决定省去了这些代码）。

我知道这里也解决了类似的问题，但是由于该网站是新手，所以我无法解决该问题，也无法发表评论以请用户提供我的特定解决方案的帮助。 我打算尝试使IMDbPY正常工作，但是我不确定如何将其与WinPython一起安装。

Answer 1

使用正则表达式

\$([0-9,]+) \(USA\)

\$([0-9,]+) \(Worldwide\)

http://pythex.org/

IMDb HTML提取-精美汤

问题描述

1 个解决方案

解决方案1
0 2015-07-30 09:01:43

IMDb HTML提取-精美汤

问题描述

1 个解决方案

解决方案1 0 2015-07-30 09:01:43

解决方案1
0 2015-07-30 09:01:43