[英]R: Webscraping: XML content does not seem to be XML: Using HTMLParse
[英]Prevent adding first line when using htmlParse() from 'XML' package
在XHTML文檔上執行htmlParse()
時遇到問題。
當它作為“ externalptr”加載到R中時,我可以看到在文件頂部添加了一行:
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
我不想使此行出現,因為它破壞了我的應用程序。 我想在htmlParse()
函數中刪除它,而不必為我擁有的每個XHTML手動刪除此行。
有什么建議么? 我嘗試更改傳遞給函數htmlParse()
某些參數,但是目前,在嘗試使用它之后,我還沒有找到它。
如果有幫助,這是我解析的XHTML的第一行:
<?xml version="1.0" encoding="utf-8" ?>
<html dir="ltr" xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops" xml:lang="es">
<head>
<meta charset="utf-8" />
我嘗試使用xmlRoot()
,然后使用saveXML()
保存,包括前綴<?xml version="1.0" encoding="utf-8" ?>
作為參數<?xml version="1.0" encoding="utf-8" ?>
還有一個編碼問題,但這是另一個故事。 在Windows中不起作用,在Ubuntu中終於起作用。
謝謝你們。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.