簡體   English   中英

Python 2.7.3 BeautifulSoup-從字符串中刪除u2019和u2122

[英]Python 2.7.3 BeautifulSoup- Remove u2019 and u2122 from string

我想修改以下代碼,以用空格替換u2019和u2122,除了逗號以外,它已經用空格替換。 我應該如何進行? 謝謝!

if(link != None):
    items.put([link.text,link['href']])
    f.write((link.text).encode("utf-8").replace(',','')+","+link['href'].encode("utf-8").split('&')[0]+newlinechar)

您需要多次使用replace ,如下所示:

f.write((link.text).encode("utf-8").replace(',','').replace(u"\u2019", '').replace(u"\u2122", '')+","+link['href'].encode("utf-8").split('&')[0]+newlinechar)

但是,這是無效的,因為需要多次重新創建一個新的String(Python中的String是不可變的)。 因此,請考慮使用正則表達式來一次匹配並替換所有3個。

>>> import re
>>> s = u"xdu\u2019sfs,"
>>> print s
xdu’sfs,
>>> print re.sub(u'[,\u2019\u2122]', '', s)
xdusfs

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM