[英]How to get a clear output of html2text in python?
我有以下python程序:
import urllib.request as urllib2
import html2text
html = urllib2.urlopen("http://www.stern.de/")
page_source = html.read()
h = html2text.HTML2Text()
h.ignore_links = True
h.ignore_images = True
text = h.handle(str(page_source))
print (text)
輸出為:
\n \n\n
* \n Anmelden
\n\n
* \n
Sie haben noch keinen Account?
\n Kostenlos neu registrieren
\n \n
\n
如何過濾出“ \\ n”?
我以這種方式嘗試了例如,但它不起作用:
wordList = text.split()
for word in wordList:
if word != "\n":
print (word)
這是拆分后的輸出:
\n\n
*
\n
Anmelden
\n\n
*
\n
Sie
haben
noch
keinen
Account?
\n
Kostenlos
neu
registrieren
\n
\n
\n
因此我的支票無效。 如何檢查\\ n換行符?
好的,我這樣解決了,因為我調試了它,發現\\ n處於調試模式\\ n。
text = text.replace('\\n', '')
您嘗試過用replace
嗎?
text.replace('\n', '')
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.