[英]parsing a non xml file in java
我想解析不是純xml的文檔。 例如
my name is <j> <b> mike</b> </j>
例子2
my name is <mytag1 attribute="val" >mike</mytag1> and yours is <mytag2> john</mytag2>
表示我的輸入不是純xml。 IT類似於html,但標記不是html。 如何在Java中解析?
您的示例是有效的XML,但缺少document元素。 如果您知道情況總是如此,那么您可以將整個虛擬包裝一組偽標簽,然后使用標准解析器(SAX,DOM ...)
另一方面,如果您發現一些較丑陋的內容(例如,標簽不匹配或以重疊的方式隔開),則必須做一些自定義操作,其中涉及許多規則,您必須對此做出決定對於您的應用程序將是唯一的。 (例如,我如何處理沒有關閉的開始標簽?如果關閉標簽在父標簽之外怎么辦?)
很少有解析器采用格式不正確的html並將其轉換為格式良好的xml,這里與示例進行一些比較 ,其中包括最受歡迎的示例 ,但HTMLParser除外。 可能正是您所需要的。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.