替换字符串Python中的所有字符串实例

Question

现在我的输出到文件就像：

<b>Nov 22Â–24</b>   <b>Nov 29Â–Dec 1</b>    <b>Dec 6Â–8</b> <b>Dec 13Â–15</b>   <b>Dec 20Â–22</b>   <b>Dec 27Â–29</b>   <b>Jan 3Â–5</b> <b>Jan 10Â–12</b>   <b>Jan 17Â–19</b>   <b><i>Jan 17Â–20</i></b>    <b>Jan 24Â–26</b>   <b>Jan 31Â–Feb 2</b>    <b>Feb 7Â–9</b> <b>Feb 14Â–16</b>   <b><i>Feb 14Â–17</i></b>    <b>Feb 21Â–23</b>   <b>Feb 28Â–Mar 2</b>    <b>Mar 7Â–9</b> <b>Mar 14Â–16</b>   <b>Mar 21Â–23</b>   <b>Mar 28Â–30</b>

我想删除所有的“Â”和css标签（<b>，</ b>）。 我尝试使用.remove和.replace函数，但出现错误：

SyntaxError: Non-ASCII character '\xc2' in file -- FILE NAME-- on line 70, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

上面的输出在一个列表中，该列表是从Webcrawling函数获得的：

def getWeekend(item_url):
    dates = []
    href = item_url[:37]+"page=weekend&" + item_url[37:]
    response = requests.get(href)
    soup = BeautifulSoup(response.content, "lxml")  # or BeautifulSoup(response.content, "html5lib")
    date= soup.select('table.chart-wide > tr > td > nobr > font > a > b')
    return date

我将其写到这样的文件中：

for item in listOfDate:
    wr.writerow(item)

如何删除所有标签，以便仅保留日期？

Answer 1

我不确定，但是我认为aString.regex_replace（'toFind'，'toReplace'）应该可以工作。 要么将其写入文件，然后在其上运行sed，例如：sed -i's / toFind / toReplace / g'

Answer 2

问题是您没有网站上的ASCII字符串。 您需要先将非ASCII文本转换为Python可以理解的文本。

如果有机会，Python将使用Unicode。 如果您只是看看，那里有很多信息。 例如，您可以从本网站上的其他问题中找到更多帮助：

Python：从ISO-8859-1 / latin1转换为UTF-8

Python：在Windows终端中使用unicode，使用编码吗？

编码/解码有什么区别？

Answer 3

您已经有了一个可行的解决方案，但是为了将来：

使用get_text()摆脱标签

date = soup.select('table.chart-wide > tr > td > nobr > font > a > b').get_text()

使用.replace(u'\\xc2',u'')摆脱Â 。 u将u'\\xc2' unicode字符串。 （这可能需要花一些时间来编码，但是对我来说get_Text()已经返回了unicode对象。）

（另外，可能考虑使用.replace(u'\–',u'-')因为现在，您有一个破折号：P。）

date = date.replace(u'\\xc2',u'').replace(u'\–',u'-')

Answer 4

如果您的Python 2源代码具有文字非ASCII字符（例如Â ，则应按照错误消息中的说明声明源代码编码。 将其放在Python文件的顶部：

# -*- coding: utf-8 -*-

确保使用utf-8编码保存文件，并使用Unicode字符串处理文本。

替换字符串Python中的所有字符串实例

问题描述

4 个解决方案

解决方案1
1 2015-06-27 21:48:25

解决方案2
1 2015-06-27 22:15:00

解决方案3
1 已采纳 2015-06-27 22:45:43

解决方案4
0 2015-06-27 23:04:53

替换字符串Python中的所有字符串实例

问题描述

4 个解决方案

解决方案1 1 2015-06-27 21:48:25

解决方案2 1 2015-06-27 22:15:00

解决方案3 1 已采纳 2015-06-27 22:45:43

解决方案4 0 2015-06-27 23:04:53

解决方案1
1 2015-06-27 21:48:25

解决方案2
1 2015-06-27 22:15:00

解决方案3
1 已采纳 2015-06-27 22:45:43

解决方案4
0 2015-06-27 23:04:53