[英]PHP Extract Text from Webpage
是否可以使用PHP進行某些操作,在其中我可以建立與http://en.wikipedia.org/wiki/Wiki之類的URL的連接,並提取包含諸如“ Exa”和“ ins”之類的前綴的任何單詞,從而使生成的PHP頁面將打印出所有找到的單詞。 例如,對於“ Exa”,每次找到“ Example”的實例時,將打印出“ Example”一詞。 以“ ins”開頭的單詞也是如此。
$data = strip_tags(file_get_contents($url));
$matches = array();
preg_match('/\bExa|ins([^\b]+)/', $data, &$matches);
for ($i = 1; $i < count($matches); $i++) {
echo "Match: '".$matches[$i]."'\r\n";
}
大概是這樣的,盡管我對正則表達式不是很確定,但是我還沒有對其進行測試...
編輯:我更改了它,現在應該可以使用...(\\ B => \\ b和strip_tags
可以防止HTML類被匹配)。
我沒有給出示例的完整答案,但是,是的,您應該能夠將整個頁面讀入一個字符串變量,然后對它進行常規的字符串操作。 它會讀取所有HTML,因此,如果您不希望使用標簽,則可能需要進行大量的正則表達式來消除標簽。
使用file_get_contents將頁面讀取為字符串。 使用各種字符串函數之一來檢查頁面。
是的,這可能。 一種可能的方法是:
通過strip_tags刪除(可能不是必需的)HTML標簽。
使用strtok標記和迭代其余內容,檢查所需的條件。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.