簡體   English   中英

PHP從網頁中提取文本

[英]PHP Extract Text from Webpage

是否可以使用PHP進行某些操作,在其中我可以建立與http://en.wikipedia.org/wiki/Wiki之類的URL的連接,並提取包含諸如“ Exa”和“ ins”之類的前綴的任何單詞,從而使生成的PHP頁面將打印出所有找到的單詞。 例如,對於“ Exa”,每次找到“ Example”的實例時,將打印出“ Example”一詞。 以“ ins”開頭的單詞也是如此。

$data = strip_tags(file_get_contents($url));
$matches = array();
preg_match('/\bExa|ins([^\b]+)/', $data, &$matches);
for ($i = 1; $i < count($matches); $i++) {
    echo "Match: '".$matches[$i]."'\r\n";
}

大概是這樣的,盡管我對正則表達式不是很確定,但是我還沒有對其進行測試...

編輯:我更改了它,現在應該可以使用...(\\ B => \\ b和strip_tags可以防止HTML類被匹配)。

我沒有給出示例的完整答案,但是,是的,您應該能夠將整個頁面讀入一個字符串變量,然后對它進行常規的字符串操作。 它會讀取所有HTML,因此,如果您不希望使用標簽,則可能需要進行大量的正則表達式來消除標簽。

使用file_get_contents將頁面讀取為字符串。 使用各種字符串函數之一來檢查頁面。

是的,這可能。 一種可能的方法是:

  1. 使用fopen之類的東西(如果啟用了allow_url_fopen-使用CURL失敗)來獲取外部網頁內容。

  2. 通過strip_tags刪除(可能不是必需的)HTML標簽。

  3. 使用strtok標記和迭代其余內容,檢查所需的條件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM