簡體 English 中英

如何從原始HTML文件提取數據？

[英]How to extract data from a raw HTML file?

原文 2009-11-30 17:13:41 7 5 php/ html/ parsing/ html-content-extraction

有沒有一種方法可以從原始的HTML中提取所需的數據，而這些原始HTML是沒有IDs和classes ，因此無法正確編寫？ 我的意思是，假設存在網頁（配置文件）的已保存html文件，並且我想提取諸如“愛好”之類的數據。 是否可以使用PHP做到這一點？

5 個解決方案

BeautifulSoup http://www.crummy.com/software/BeautifulSoup/ ，也許嗎？

聽起來您正在尋找PHP DOM解析器，例如this 。 如果HTML確實沒有語義結構，那么提取所需的數據可能會有些棘手，但是DOM解析器是起點。

是的，該技術被稱為刮網。 如果DOM有效，則可以使用DOM。 如果頁面是動態生成的，則生成器將使用某種結構，根據我的經驗，您始終可以隔離感興趣的元素。

如果DOM對您不起作用，則可以使用正則表達式（這就是編寫Web蜘蛛時我經常使用的表達式）。 與針對DOM層次結構編寫抓取邏輯相比，正則表達式更有效，更快捷。 因此，您需要打開一些配置文件頁面並分析靜態結構。 然后只需編寫一個正則表達式即可隔離感興趣的字段。

使用正則表達式！ 我開玩笑，我開玩笑。 如果您知道同一頁面的狀態，並且可以保證格式足夠相似，則可以嘗試編寫手動解析器。 另外，也有很多庫可以解析html。 我對PHP不太熟悉，無法推薦一個，但是我敢肯定，某些Googleing可以帶給您很多幫助。 之前，我對John Resig的純JavaScript HTML解析器很幸運。

歸根結底，如果您需要從不是以語義方式構建的html頁面中獲取語義信息，那么您可能會在編程上注定要失敗，並且最好的選擇可能是機械特克。

PHP有兩種方法。 首先是使用整潔的擴展名清理文檔，以便它是有效的XHTML，因此是格式正確的XML，因此可以使用XML工具進行解析。

第二種是使用PHP版本的html5lib解析器，該解析器試圖將HTML5研究實施到當前的瀏覽器解析例程中。 如果它顯示在瀏覽器中，則html5lib可以對其進行解析。

使用這兩種方法，您最終都會得到一個DOM對象，您可以使用xpath表達式進行查詢。 由於您的理論文檔缺乏語義結構，因此您將需要從“ 3rd p內的第5跨度”的思維方式來查看文檔部分。

此處有更多信息（自鏈接警告）。

如何使用 simplehtmldom 提取原始 html 代碼

[英]how to extract raw html code using simplehtmldom

如何使用PHP / HTML從xml提取數據

[英]how to extract data from an xml with PHP/HTML

如何從源文件中提取HTML元素

[英]How to extract HTML element from a source file

如何從PHP中的HTML字符串中提取數據

[英]How to extract data from an HTML string in PHP

PHP從html文件中的特定標簽之間提取數據

[英]PHP Extract data between specific tags from an html file

如何在PHP中從csv文件中提取數據

[英]How to extract data from csv file in PHP

從HTML標簽提取數據

[英]Extract data from HTML tag

從HTML內容中提取數據

[英]Extract the data from content of HTML

如何從gmail API的郵件中提取PHP中的html中的數據？

[英]How to extract data in html in PHP from a mail from gmail API?

如何在RAW HTML文件上使用DOM檢查器？

[英]How to use DOM inspector on RAW HTML file?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何使用 simplehtmldom 提取原始 html 代碼如何使用PHP / HTML從xml提取數據如何從源文件中提取HTML元素如何從PHP中的HTML字符串中提取數據 PHP從html文件中的特定標簽之間提取數據如何在PHP中從csv文件中提取數據從HTML標簽提取數據從HTML內容中提取數據如何從gmail API的郵件中提取PHP中的html中的數據？如何在RAW HTML文件上使用DOM檢查器？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM