繁体   English   中英

在网页中找到“文章”的算法?

algorithm to find 'article' in webpage?

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

一些浏览器插件(如可读性)可以从网页中提取“文章”。 有谁知道如何做? 真实文章与广告或评论之间有什么区别?

1 个回复

好吧,这取决于您要如何定义“真实文章” ...

考虑到HTML5,网页由语义标记构成。 页面不再需要使用<div>这样完全没有语义含义的元素来构建。 在HTML5中,您可以使用<section><article><header> 等等 这些元素可以使应用程序很好地了解网页的主要内容(例如,print <article>而跳过<nav> ...)。

当然,还没有很多页面使用这些标签。 此外,标签可能会被滥用并失去其含义。 在那种情况下,我会坚持一些统计数据,例如选择HTML文档中最大的元素。 此外,如果您必须抓取网页,则可以使用某些模式匹配算法的修改,例如DIPRE。

1 在网页中找到文本并单击 - Eclipse Selenium

我想在网页中找到一些文本。 此文本位于列表中,对于此列表的每个值,我需要在网页中找到该文本并单击属于该值的按钮。 这是我的代码: 基本上我是说,如果该列表的值存在于网页中,请单击按钮。 list 的所有值都有不同的按钮,并且所有按钮都有相同的类名,但是当它单击按钮时没有任何反应。 按钮的 HT ...

3 我应该如何在网页中找到脚本

我正在使用Java和JQuery等某些Web技术开发ASP MVC Web应用程序。 由于我的项目中大量使用脚本,因此我的代码中这些脚本的正确位置和顺序使我面临许多问题。 确实,我的浏览器总是出现错误。 例如,当我按以下顺序在我的Head标签中找到这些脚本时: 我将得到 ...

6 Scrapy xpath无法在网页中找到某个div

我用Scrapy shell加载这个网页: 并希望找到: 但是,它返回[]。 如果我在这个网页的chrome检查中使用find,我可以找到3个"//div[@class='inline']" 。 这是一个错误吗? ...

7 Selenium 无法在网页中找到元素

我在尝试自动化某些 Web 输入时遇到了一些麻烦,但首先我需要单击一些按钮,但我无法做到。 我尝试了很多东西,但我无法完成它:'( 网页: https : //vacunacovid.catsalut.gencat.cat/ 我无法通过我拥有的代码的图像: 它没有找到任何抛出这个 # ...

9 我的Selenium Python代码无法在网页中找到链接

我的selenium python代码无法在网页中找到链接。 我有两个与以下代码有关的问题- 如果我在self.base_url没有提到login:password ,我什至无法登录该网页(请参阅admin:admin)。 要注意的是,该网页弹出了用户名和密码弹出窗口。 我 ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM