使用python代碼根據單詞拆分文本

Question

我有一個像下面這樣的長文本。 我需要根據一些詞來拆分（“在”，“在”，“這些”）

下面是示例數據：

另一方面，我們義憤填膺地譴責那些被一時享樂的魅力所迷惑和意志消沉，被欲望蒙蔽了雙眼，無法預見必然會發生的痛苦和麻煩的人； 因意志軟弱而未能履行職責的人，也應受到同等的責備，這與逃避勞苦和痛苦是一樣的。 這些情況非常簡單且易於區分。 在空閑的時間里，當我們的選擇權不受限制，當沒有什么能阻止我們做自己最喜歡的事情時，每一種快樂都應該受到歡迎，每一種痛苦都應該避免。 但是在某些情況下，由於義務或商業義務的要求，經常會發生必須拒絕享樂和接受煩惱的情況。 因此，智者在這些事情上總是堅持選擇的原則：他拒絕快樂以獲得其他更大的快樂，或者忍受痛苦以避免更嚴重的痛苦。

這個問題可以用代碼解決嗎，因為我在 csv 文件中有 1000 行。

Answer 1

根據我的評論，我認為一個不錯的選擇是將正則表達式與模式一起使用：

 re.split(r'(?<!^)\b(?=(?:On|In|These)\b)', YourStringVariable)

Answer 2

是的，這可以在 python 中完成。 您可以將文本加載到變量中，並使用內置的 Split 函數來處理字符串。 例如：

with open(filename, 'r') as file:
    lines = file.read()
    lines = lines.split('These')
    # lines is now a list of strings split whenever 'These' string was encountered

Answer 3

要查找不屬於較大單詞的整個單詞，我喜歡使用正則表達式： [^\\w]word[^\\w]

示例 Python 代碼，假設文本位於名為text的變量中：

import re
exp = re.compile(r'[^\w]in[^\w]', flags=re.IGNORECASE)
all_occurrences = list(exp.finditer(text))

使用python代碼根據單詞拆分文本

問題描述

3 個解決方案

解決方案1
1 已采納 2020-03-30 19:11:59

解決方案2
0 2020-03-30 12:35:03

解決方案3
0 2020-03-30 12:37:47

使用python代碼根據單詞拆分文本

問題描述

3 個解決方案

解決方案1 1 已采納 2020-03-30 19:11:59

解決方案2 0 2020-03-30 12:35:03

解決方案3 0 2020-03-30 12:37:47

解決方案1
1 已采納 2020-03-30 19:11:59

解決方案2
0 2020-03-30 12:35:03

解決方案3
0 2020-03-30 12:37:47