繁体   English   中英

使用php解析网页

[英]Parsing a webpage using php

我正在寻找一种简单的方法来抓取任何存在某些关键字的网页。 我有一个单词列表,例如{Apple,Banana,Pear,Pineapple},并且有一个链接列表。 我需要在每个页面上搜索是否存在单词列表,并返回每个链接上存在的单词列表。 例如一个链接:

http://www.xyz.com

我应该搜索该页面并返回二进制变量0 1 1 0的向量,其中每个相应的二进制变量都对应于列表中每个相应搜索关键字的存在与否。 由于我是php新手,因此我无法找到一种搜索网页的方法。 刮取网页以仅获取页面上相关文本的最佳方法是什么(即没有html标记,css或javascript元数据等)? 我尝试了curl和get_file_contents,但是它们返回了网页的非常难看的表示形式。 任何人都可以提供在页面上返回文本的代码段,以便我可以搜索返回的文本吗?

提前致谢!

卷发不起作用的主要示例之一是针对https://plus.google.com/107630561301274451844/about?gl=us&hl=zh-CN的页面

我正在尝试在其上找到关键字IL,它返回非相关文本供我搜索。

研究使用预建的东西

这将满足您的需求: http : //simplehtmldom.sourceforge.net/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM