簡體   English   中英

在python中將文本拆分為單詞

[英]Splitting the text into words in python

在准備數據(文本文件)進行預處理時。 我無法將文本文件拆分為單詞。

import io
f = io.open("pg5200.txt", mode="r", encoding="utf-8")
text = f.read()
f.close()

import re
words = re.split(r'\W+', text)
print(words[:100])

使用上面的代碼后:問題是我開始時得到了一個額外的空格(“”)。

我可以知道為什么會出現此多余的空間嗎,如何刪除它?

謝謝

您可以使用strip功能。

檢查此答案如何修剪空白?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM