解析HTML以獲取元素內的文本

Question

我需要將兩個元素中的文本轉換為字符串：

source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>"""

>>> text
'Martin Elias'

我怎么能實現這個目標？

Answer 1

我搜索了“python parse html”，這是第一個結果： https ： //docs.python.org/2/library/htmlparser.html

此代碼取自python docs

from HTMLParser import HTMLParser

    # create a subclass and override the handler methods
    class MyHTMLParser(HTMLParser):
        def handle_starttag(self, tag, attrs):
            print "Encountered a start tag:", tag
        def handle_endtag(self, tag):
            print "Encountered an end tag :", tag
        def handle_data(self, data):
            print "Encountered some data  :", data

    # instantiate the parser and fed it some HTML
    parser = MyHTMLParser()
    parser.feed('<html><head><title>Test</title></head>'
                '<body><h1>Parse me!</h1></body></html>')

結果如下：

Encountered a start tag: html
Encountered a start tag: head
Encountered a start tag: title
Encountered some data  : Test
Encountered an end tag : title
Encountered an end tag : head
Encountered a start tag: body
Encountered a start tag: h1
Encountered some data  : Parse me!
Encountered an end tag : h1
Encountered an end tag : body
Encountered an end tag : html

使用它並查看HTMLParser中的代碼我想出了這個：

class myhtmlparser(HTMLParser):
    def __init__(self):
        self.reset()
        self.NEWTAGS = []
        self.NEWATTRS = []
        self.HTMLDATA = []
    def handle_starttag(self, tag, attrs):
        self.NEWTAGS.append(tag)
        self.NEWATTRS.append(attrs)
    def handle_data(self, data):
        self.HTMLDATA.append(data)
    def clean(self):
        self.NEWTAGS = []
        self.NEWATTRS = []
        self.HTMLDATA = []

你可以像這樣使用它：

from HTMLParser import HTMLParser

pstring = source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>"""


class myhtmlparser(HTMLParser):
    def __init__(self):
        self.reset()
        self.NEWTAGS = []
        self.NEWATTRS = []
        self.HTMLDATA = []
    def handle_starttag(self, tag, attrs):
        self.NEWTAGS.append(tag)
        self.NEWATTRS.append(attrs)
    def handle_data(self, data):
        self.HTMLDATA.append(data)
    def clean(self):
        self.NEWTAGS = []
        self.NEWATTRS = []
        self.HTMLDATA = []

parser = myhtmlparser()
parser.feed(pstring)

# Extract data from parser
tags  = parser.NEWTAGS
attrs = parser.NEWATTRS
data  = parser.HTMLDATA

# Clean the parser
parser.clean()

# Print out our data
print tags
print attrs
print data

現在，您應該能夠輕松地從這些列表中提取數據。 我希望這有幫助！

Answer 2

我建議使用Python Beautiful Soup 4庫。

pip install beautifulsoup4

它使HTML解析非常簡單。

from bs4 import BeautifulSoup
source_code = """<span class="UserName"><a href="#">Martin Elias</a></span>"""
soup = BeautifulSoup(source_code)
print soup.a.string
>>> 'Martin Elias'

Answer 3

安裝beautifulsoup，您可以這樣做：

from BeautifulSoup import  BeautifulSoup
source_code = '"""<span class="UserName"><a href="#">Martin Elias</a></span>"""'
soup = BeautifulSoup(source_code)
print soup.find('span',{'class':'UserName'}).text

Answer 4

您也可以嘗試使用html5lib和XPath，這里有一個很好的問題，該答案有一個重要的細節（ namespaceHTMLElements ），以記住使html5lib按預期運行。 我浪費了太多時間試圖讓它發揮作用，因為我忽略了我需要改變它。

解析HTML以獲取元素內的文本

問題描述

4 個解決方案

解決方案1
35 已采納 2012-08-03 23:37:35

解決方案2
26 2012-08-03 23:46:52

解決方案3
3 2012-08-04 09:26:12

解決方案4
1 2012-08-04 09:22:29

解析HTML以獲取元素內的文本

問題描述

4 個解決方案

解決方案1 35 已采納 2012-08-03 23:37:35

解決方案2 26 2012-08-03 23:46:52

解決方案3 3 2012-08-04 09:26:12

解決方案4 1 2012-08-04 09:22:29

解決方案1
35 已采納 2012-08-03 23:37:35

解決方案2
26 2012-08-03 23:46:52

解決方案3
3 2012-08-04 09:26:12

解決方案4
1 2012-08-04 09:22:29