簡體   English   中英

在Java中解析非xml文件

[英]parsing a non xml file in java

我想解析不是純xml的文檔。 例如

my name is <j> <b> mike</b>  </j>

例子2

 my name is  <mytag1 attribute="val" >mike</mytag1> and yours is <mytag2> john</mytag2>

表示我的輸入不是純xml。 IT類似於html,但標記不是html。 如何在Java中解析?

您的示例是有效的XML,但缺少document元素。 如果您知道情況總是如此,那么您可以將整個虛擬包裝一組偽標簽,然后使用標准解析器(SAX,DOM ...)

另一方面,如果您發現一些較丑陋的內容(例如,標簽不匹配或以重疊的方式隔開),則必須做一些自定義操作,其中涉及許多規則,您必須對此做出決定對於您的應用程序將是唯一的。 (例如,我如何處理沒有關閉的開始標簽?如果關閉標簽在父標簽之外怎么辦?)

很少有解析器采用格式不正確的html並將其轉換為格式良好的xml,這里與示例進行一些比較 ,其中包括最受歡迎的示例 ,但HTMLParser除外。 可能正是您所需要的。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM