簡體   English   中英

HTML解析與Regex

[英]Html Parsing vs. Regex

我有一個固定的結構良好的html源,傳入的數據清晰細小,僅包含一些div列表。 我知道使用html解析器進行html解析,但這看起來很特殊,我不確定應該使用哪個解析器。 下面的問題條件

  • 數據清晰且結構合理
  • 數據小
  • 性能很重要,應用程序必須能夠獲取盡可能多的數據
  • 應用程序將數據寫入MongoDB數據庫
  • 實現編程語言將為Scala或Python

任何意見都是有價值的,那我該怎么辦?

我仍然會堅持使用HTML解析器,因為至少有一個特定的數據格式和一個了解該格式的專用工具。

如果這里的性能很重要,那么會有一個非常快的lxml包。 對於HTML,請使用lxml.html

您還可以使用一個很棒的BeautifulSoup軟件包,並lxml使用lxml解析器 此外,如果您需要解析的數據在HTML文檔的特定部分中,則可以通過請求BeautifulSoup僅解析HTML文檔的相關部分來提高性能,請參見: 僅解析文檔的一部分

並且,為了遵循HTML + regex線程的傳統,這里是對著名主題的引用,涵蓋了您不應該使用regex解析HTML的原因:

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM