標簽[html-treebuilder] - 堆棧內存溢出

使用 Perl 中的 HTML::TreeBuilder 提取特定跨度 class 的所有實例

[英]Use HTML::TreeBuilder in Perl to extract all instances of a specific span class

嘗試制作 Perl 腳本來打開 HTML 文件並提取<span class="postertrip">標簽中包含的任何內容。樣品 HTML：所需的 output：當前腳本：腳本的錯誤 output： ...

bs4.FeatureNotFound：找不到具有您請求的功能的樹構建器：html 解析器。你需要安裝解析器庫嗎？

[英]bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: html-parser. Do you need to install a parser library?

我試圖通過以下代碼進行網頁抓取： from bs4 import BeautifulSoup import requests import pandas as pd page = requests.get('https://www.google.com/search?q=phagwara+weat ...

Perl HTML::Element 如何在匹配標記后向下查找以提取下一個標記

[英]Perl HTML::Element how to look_down to extract next tag after a matching tag

我正在使用 HTML::TreeBuilder 來處理 HTML 文件。在這些文件中，我可以有定義列表，其中有術語“數據庫”和定義“數據庫名稱”。模擬的 html 如下所示：我需要確定文件來自哪個數據庫並返回值。我希望能夠說一些諸如say $dlist->right()-> ...

如何使用HTML :: TreeBuilder :: XPath從findnodes（）循環結果

[英]How to loop the result from findnodes() with HTML::TreeBuilder::XPath

我有腳本來監視一些Facebook頁面。由於Facebook API在2019年9月4日禁止頁面公共訪問權限。我需要通過xpath方法解析內容。每個Facebook帖子都由div[contains(@class,"userContentWrapper")]包裝。我想一遍一遍地 ...

XPath節點文本由br連接

[英]XPath nodes text joined by br

如何通過br重新連接br標簽之間的文本節點。這是XML代碼我需要通過br標簽或\\ n \\ n將所有文本節點text2轉換為textxx。我可以使用// div / text（）[position（）> 1]來獲取所有但沒有任何分隔符的文本，但是結果如下： ...

為什么HTML :: Element中的look_down方法找不到 <section> 元素？

[英]Why does look_down method in HTML::Element fail to find <section> elements?

下面的代碼顯示TreeBuilder方法look_down找不到“ section”元素。為什么？輸出：找到的div元素數量= 1找到的截面元素數量= 0 ...

無法從HTML :: TreeBuilder獲取輸出

[英]Not getting output from HTML::TreeBuilder

我正在嘗試從大約3,000個HTML文件中獲取一堆值，並將它們保存到電子表格中。我正在使用HTML::TreeBuilder處理HTML並使用Spreadsheet::WriteExcel創建電子Spreadsheet::WriteExcel 。但是我的腳本無法成功獲取值。我 ...

TreeBuilder獲取嵌入式節點

[英]TreeBuilder Get embedded nodes

基本上，我需要在HTML代碼中獲得所有這些人的姓名和電子郵件。我知道如何將Treebuilder與節點等配合使用，並且在某些腳本中使用了此代碼。我將為此功能使用相同的代碼，但是我意識到我搜索的內容並不多，因為<td>標簽在腳本中的其他很多地方。我敢肯定有更好的 ...

HTML :: TreeBuilder :: XPath findvalue返回值的串聯

[英]HTML::TreeBuilder::XPath findvalue returns concatenation of values

HTML :: TreeBuilder :: XPath中的findvalue函數返回由xpath查詢找到的任何值的串聯。為什么這樣做，將值的串聯對任何人都有用嗎？ ...

HTML :: TreeBuilder :: XPath缺少結果中的最后一個標記

[英]HTML::TreeBuilder::XPath missing last tag in result

上面的代碼顯示了搜索到的HTML元素，但是缺少最后一個</p>標簽。為什么？這是故意的還是模塊中的錯誤？ ...

循環內的HTML :: TreeBuilder

[英]HTML::TreeBuilder inside a loop

我正在嘗試從幾個HTML文件中刪除所有表格元素。以下代碼可在單個文件上完美運行，但是在嘗試使流程自動化時會返回錯誤無法在未定義的值上調用方法“ look_down” 請問您有什么解決辦法嗎？這是代碼： ...

Perl在字符實體參考處拆分字符串

[英]Perl split string at character entity reference  

快速Perl問題，希望有一個簡單的答案。我正在嘗試對包含不間斷空格（ &nbsp; ）的字符串執行拆分。這是在使用HTML::TreeBuilder::XPath讀取html頁面並檢索$titleString = $tree->findvalue('/html/head/t ...

Unicode文本的Tree Builder問題

[英]Tree Builder issue with unicode text

我正在使用HTML::TreeBuilder通過使用tree->lookdown提取URL的內容，然后從lookdown方法返回的字符串中提取文本部分。我的問題是，當我閱讀該文本並將其寫入文件時，顯示為垃圾。我無法在這方面取得進展。我的示例代碼：我已經嘗試將bin ...

使用TreeBuilder在Perl中提取鏈接

[英]Extracting Links in Perl using TreeBuilder

我正在研究將大量信息提取到一個HTML文件中的腳本。但是，我在從相關頁面僅提取一組特定的鏈接時遇到了一些困難。這是該站點的粗略結構。在innercontent div和下面顯示的內容之間還有其他一些標題和段落。現在，在div ID“ innercontent”中找到了多 ...

使用Perl刮取HTML文件，僅按順序返回內容

[英]Scrape HTML files with Perl, returning content only, in order

使用HTML :: TreeBuilder - 或Mojo :: DOM - 我想抓取內容但保持順序，這樣我就可以將文本值放入一個數組中（然后用一個變量替換文本值）模板用途）但這在TreeBuilder中不返回訂單 - 當然哈希沒有訂購。那么，如何從root訪問樹並保持返回 ...

WWW ::機械化提取幫助 - PERL

[英]WWW::Mechanize Extraction Help - PERL

我試圖自動提取網站上的成績單。整個記錄在dl標簽之間找到，因為該網站在描述列表中格式化了訪談。我在下面的腳本允許我搜索網站並以純文本格式提取文本，但我實際上正在尋找它包括dl標簽之間的所有內容，這意味着dd，dt等。這將允許我們為面試開發我們自己的CSS。有關該頁面的注意事項是在 ...

如何使用HTML :: TreeBuilder解析html？

[英]How to parse html with HTML::TreeBuilder?

這是我想解析的代碼這是我的算法：它獲得模式<key> : <value>並修剪<script>或<a>...</a>類的垃圾。我想對其進行改進以獲取<h2>...</h2>標頭和所有&lt ...

Perl HTML：TreeBuilder標記不等於

[英]Perl HTML:TreeBuilder tag not equal to

我使用HTML::TreeBuilder以便從html文件提取數據。我需要做的是：所以我正在搜索一個不等於'index.html'和另一個標簽的href，但是顯然!=>對於HTML::TreeBuilder不是正確的命令。我該如何實現這樣的目標？我可以使用正則表達式嗎 ...

試圖弄清楚如何將單獨的鏈接列表的每個鏈接中包含的特定鏈接推入數組

[英]Trying to figure out how to push specific links contained in each link of separate list of links into an array

大概的概念這是我正在使用的代碼段：希望很明顯，我無可救葯地試圖將每個鏈接列表中找到的鏈接結尾推送到名為@temp_stuff的數組中。因此， @blarg_links的第一個鏈接在@blarg_links訪問時具有大於或等於1個foo標簽以及一個關聯的bar類，當由as ...

或匹配HTML :: TreeBuilder的look_down功能

[英]OR match for HTML::TreeBuilder's look_down feature

試圖匹配tr有一個項目class有任何開始的前三個字母eve或day 。這是我的嘗試：好奇， @stuff有哪些對象？這個可以嗎？見下文： ...