PHP從網頁中提取文本

Question

是否可以使用PHP進行某些操作，在其中我可以建立與http://en.wikipedia.org/wiki/Wiki之類的URL的連接，並提取包含諸如“ Exa”和“ ins”之類的前綴的任何單詞，從而使生成的PHP頁面將打印出所有找到的單詞。 例如，對於“ Exa”，每次找到“ Example”的實例時，將打印出“ Example”一詞。 以“ ins”開頭的單詞也是如此。

Answer 1

$data = strip_tags(file_get_contents($url));
$matches = array();
preg_match('/\bExa|ins([^\b]+)/', $data, &$matches);
for ($i = 1; $i < count($matches); $i++) {
    echo "Match: '".$matches[$i]."'\r\n";
}

大概是這樣的，盡管我對正則表達式不是很確定，但是我還沒有對其進行測試...

編輯：我更改了它，現在應該可以使用...（\\ B => \\ b和strip_tags可以防止HTML類被匹配）。

Answer 2

我沒有給出示例的完整答案，但是，是的，您應該能夠將整個頁面讀入一個字符串變量，然后對它進行常規的字符串操作。 它會讀取所有HTML，因此，如果您不希望使用標簽，則可能需要進行大量的正則表達式來消除標簽。

Answer 3

使用file_get_contents將頁面讀取為字符串。 使用各種字符串函數之一來檢查頁面。

Answer 4

是的，這可能。 一種可能的方法是：

使用fopen之類的東西（如果啟用了allow_url_fopen-使用CURL失敗）來獲取外部網頁內容。
通過strip_tags刪除（可能不是必需的）HTML標簽。
使用strtok標記和迭代其余內容，檢查所需的條件。

PHP從網頁中提取文本

問題描述

4 個解決方案

解決方案1
2 2011-05-09 18:13:24

解決方案2
1 2011-05-09 18:11:16

解決方案3
0 2011-05-09 18:09:17

解決方案4
0 2011-05-09 18:17:06

PHP從網頁中提取文本

問題描述

4 個解決方案

解決方案1 2 2011-05-09 18:13:24

解決方案2 1 2011-05-09 18:11:16

解決方案3 0 2011-05-09 18:09:17

解決方案4 0 2011-05-09 18:17:06

解決方案1
2 2011-05-09 18:13:24

解決方案2
1 2011-05-09 18:11:16

解決方案3
0 2011-05-09 18:09:17

解決方案4
0 2011-05-09 18:17:06