cost 274 ms
使用Perl刮取HTML文件,仅按顺序返回内容 - Scrape HTML files with Perl, returning content only, in order

使用HTML :: TreeBuilder - 或Mojo :: DOM - 我想抓取内容但保持顺序,这样我就可以将文本值放入一个数组中(然后用一个变量替换文本值)模板用途) 但这在TreeBuilder中 不返回订单 - 当然哈希没有订购。 那么,如何从root访问树并保持返回 ...

通过将网页另存为“完整的网页”来进行静态更改 - Static changes by saving of web page as “web page complete”

我将使用Firefox 33.0的网站保存为“完整的网页”。 问题是,主要html文件的html树是静态更改的。 在保存之前,有这样的事情: 保存后,外观如下: 我尝试了谷歌浏览器和IE。 一样的东西。 如果我将其另存为“网页,仅HTML页”,则html树将正确保 ...

HTML :: Tree:无法在未定义的值上调用方法“as_text” - HTML::Tree: Can't call method “as_text” on an undefined value

我正在使用HTML :: TreeBuilder解析一个房地产网页,并具有以下代码: 某些页面不包含城市或州,并且解析器退出并显示错误: 为了解决这个问题,我使用了以下方法: 它工作,但现在而不是1行我有9.而且因为我有很多像这样的地方代码将变得相当大。 有什么方法 ...

如何使用HTML :: Tree获取HTML标签的值? - How to fetch the value of a HTML tag using HTML::Tree?

可以说我有一个数组,该数组保存body标签的内容,如下所示:print Dumper(\\ @ array); 可以说,我想从@array的内容中获取“ div”标签的ID: 我这样做是: 对于属性具有单个值的情况,此方法很好用。 但是我如何从@array的脚本标签中获取 ...

结合使用RegEx和HTML :: TreeBuilder匹配多个“ id”值 - Matching Multiple 'id' Values Using RegEx in Combination with HTML::TreeBuilder

我在数组中有一个URL列表: 让我们查看第一页的内容,即doc1.html: 现在,让我们查看第二页的内容,即doc2.html: doc3.html将具有相同的abc123.....xyz789其图案型ìd值,等会我在数组中的其他页面。 我想捕获每个文本内容。 具有 ...

具有哈希枚举的Suckerupper - Suckerupper With Hash Enumeration

我有一个我的朋友帮助创建的代码: 我在了解第33和45行的功能时遇到了麻烦。 我认为大部分情况下我都会做其他事情,也就是说, @selects将所有两个select标记中包含的所有内容都放在正在考虑的网站的主.aspx文件中-我认为@selects的大小为2从这一点上,我还得到@sel ...

在Perl中,如何将URL列表从文件流式传输到数组中,然后以递归方式在单个文件中获取其所有HTML数据? - How does one — in Perl — stream a list of URLs from a file into an array to then recursively acquire all of their HTML data in a single file?

另一个麻烦的标题...对不起...总之,我有一个名为mash.txt的文件, mash.txt包含许多这样的URL: http://www... http://www... http://www... . . . 因此,在这一点上,我想将这些(URL)馈 ...

如何将look_down树数组的HTML标记中的值放入Perl中的常规数组? - How to put values from a look_down tree array's HTML tag into a regular array in Perl?

这是我得到的代码片段: 我知道有更简单的方法可以做到这一点 - 随意谈谈这些方法,但我现在就是这样做的。 我想将所有value条目放入一个数组中,所以例如,如果我的(我正在调用的)look_down树数组元素之一是以下 <option value="YIDDSH">Y ...

使用Html :: TreeBuilder :: XPath打印表内容 - Printing table contents using Html::TreeBuilder::XPath

我想从html文件中提取所有表并按以下方式打印它们的内容:每个单元格由\\t分隔,每行由\\n分隔,每个表由\\n\\n分隔。 以下是我的脚本,当我将它更改为tr上的findvalues然后整个tr作为一个元素插入,我甚至尝试了其他方法,如findnodes_as_strings($ path ...

perl html treebuilder如何处理错误情况 - perl html treebuilder how to handle error condition

任务非常简单:访问URL并根据结果进行解析。 如果出现错误(404、500等),请采取适当的措施。 最后一块是我遇到的问题。 我列出了当前使用的两段代码。 较长的(LWP + TreeBuilder)在两种情况下均可工作; 较短的(TreeBuilder)适用于第一个条件,但不适用于 ...

使用HTML :: TreeBuilder更新HTML文件中的列值 - Update column values in an HTML file using HTML::TreeBuilder

我有一个包含多个表的HTML文件(所有表具有相同的列数和相同的列名)。 这些表由其他HTML标记分隔。 对于每个表中的每一行,我想更改单元格1和3的值。 这是我到目前为止(感谢@depesz)的内容: 它非常适合遍历HTML文件中的所有行。 我只是不确定如何更改第1列和第 ...

使用HTML :: TreeBuilder在不属于标记的正文中提取文本 - Extracting Text in body that is not part of tag with HTML::TreeBuilder

我有一些难看的html通过电子邮件发送到我的程序,如下所示: ...为简洁起见,其余部分均已删掉。 我可以使用HTML :: TreeBuilder提取表元素,但无法弄清楚如何从上方提取“名称:”和“查询字词”,而无需借助其他手段。 上面的$ root-> dump看起 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM