如何使用WGET或Perl下載使用PHP / JavaScript內容編碼的HTML

Question

我有一個我想下載和解析的URL：

http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996

問題是當我使用unix wget以下列方式下載時：

$ wget [the above url]

它給了我與瀏覽器中看到的內容不同的內容（即基因列表不存在）。

以編程方式執行此操作的正確方法是什么？

Answer 1

我剛剛使用PHP進行測試，並將它與基因列表拉得很好

<?php
echo file_get_contents('http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996');
?>

你有權訪問PHP嗎？

Answer 2

#/usr/bin/perl

use WWW::Mechanize;
use strict;
use warnings;

my $url = "http://diana.cslab.ece.ntua.gr/micro-CDS/index.php?r=search/results_mature&mir=hsa-miR-3131&kwd=MIMAT0014996";

my $mech = WWW::Mechanize->new();
$mech->agent_alias("Windows IE 6");

$mech->get($url);
#now you have access to the HTML code via $mech->content();

要處理HTML代碼，我強烈建議use HTML::TreeBuilder::XPath （或其他HTML解析模塊）

如何使用WGET或Perl下載使用PHP / JavaScript內容編碼的HTML

問題描述

2 個解決方案

解決方案1
1 2013-04-18 05:21:10

解決方案2
1 已采納 2013-04-18 05:21:29

如何使用WGET或Perl下載使用PHP / JavaScript內容編碼的HTML

問題描述

2 個解決方案

解決方案1 1 2013-04-18 05:21:10

解決方案2 1 已采納 2013-04-18 05:21:29

解決方案1
1 2013-04-18 05:21:10

解決方案2
1 已采納 2013-04-18 05:21:29