如何使用简单的html dom解析器从抓取中抓取特定数据

Question

我正在尝试从亚马逊网页上的产品中抓取价格数据，但我不仅获得了变量中的价格数据，还获得了包括<span>等的其他元素。代码...

include 'simple_html_dom.php';
$html1 = file_get_html('http://www.amazon.co.uk/New-Apple-iPod-touch-Generation/dp/B0040GIZTI/ref=br_lf_m_1000333483_1_1_img?ie=UTF8&s=electronics&pf_rd_p=229345967&pf_rd_s=center-3&pf_rd_t=1401&pf_rd_i=1000333483&pf_rd_m=A3P5ROKL5A1OLE&pf_rd_r=1ZW9HJW2KN2C2MTRJH60');

$price_data1 = $html1->find('b[class=priceLarge]',0);

然后，该变量还包含诸如<b class="priceLarge">£163.00</b>

有没有办法修剪掉不需要的数据？ 我只需要163.00英镑。

我不确定是否在查找过程中执行此操作，或者不确定当我回显变量时，是否指定所需内容？

干杯

Answer 1

只是使用

$result=$price_data1->innertext;

你一定会得到欲望的输出。

Answer 2

更改XPath以选择<b>元素的text()子元素，而不是选择元素本身。

$price_data1 = $html1->find('b[class=priceLarge]/text()',0);

Answer 3

您可以尝试在线API，例如Synthetics Web 。 您可以以最少的编码工作量提取数据。

$url = urlencode('http://www.amazon.co.uk/New-Apple-iPod-touch-Generation/dp/B0040GIZTI/ref=br_lf_m_1000333483_1_1_img?ie=UTF8&s=electronics&pf_rd_p=229345967&pf_rd_s=center-3&pf_rd_t=1401&pf_rd_i=1000333483&pf_rd_m=A3P5ROKL5A1OLE&pf_rd_r=1ZW9HJW2KN2C2MTRJH60');
$wid = '160';

$data = json_decode(file_get_contents("http://www.syntheticsweb.com/resources/www.json?wid=$wid&url=$url"));

echo $data->price;

Answer 4

<b class="priceLarge">£163.00</b>

只需使用以下内容：

$p = "/b class=\"priceLarge\">(.*)<\/b>/";
preg_match($p, $html, $match)

如何使用简单的html dom解析器从抓取中抓取特定数据

问题描述

4 个解决方案

解决方案1
1 2012-11-24 08:28:44

解决方案2
1 2011-04-09 17:31:59

解决方案3
0 2012-09-17 07:03:14

解决方案4
-1 2012-05-01 23:04:24

如何使用简单的html dom解析器从抓取中抓取特定数据

问题描述

4 个解决方案

解决方案1 1 2012-11-24 08:28:44

解决方案2 1 2011-04-09 17:31:59

解决方案3 0 2012-09-17 07:03:14

解决方案4 -1 2012-05-01 23:04:24

解决方案1
1 2012-11-24 08:28:44

解决方案2
1 2011-04-09 17:31:59

解决方案3
0 2012-09-17 07:03:14

解决方案4
-1 2012-05-01 23:04:24