簡體   English   中英

使用python代碼根據單詞拆分文本

[英]To Split text based on words using python code

我有一個像下面這樣的長文本。 我需要根據一些詞來拆分(“在”,“在”,“這些”)

下面是示例數據:

另一方面,我們義憤填膺地譴責那些被一時享樂的魅力所迷惑和意志消沉,被欲望蒙蔽了雙眼,無法預見必然會發生的痛苦和麻煩的人; 因意志軟弱而未能履行職責的人,也應受到同等的責備,這與逃避勞苦和痛苦是一樣的。 這些情況非常簡單且易於區分。 在空閑的時間里,當我們的選擇權不受限制,當沒有什么能阻止我們做自己最喜歡的事情時,每一種快樂都應該受到歡迎,每一種痛苦都應該避免。 但是在某些情況下,由於義務或商業義務的要求,經常會發生必須拒絕享樂和接受煩惱的情況。 因此,智者在這些事情上總是堅持選擇的原則:他拒絕快樂以獲得其他更大的快樂,或者忍受痛苦以避免更嚴重的痛苦。

這個問題可以用代碼解決嗎,因為我在 csv 文件中有 1000 行。

根據我的評論,我認為一個不錯的選擇是將正則表達式與模式一起使用:

 re.split(r'(?<!^)\b(?=(?:On|In|These)\b)', YourStringVariable)

是的,這可以在 python 中完成。 您可以將文本加載到變量中,並使用內置的 Split 函數來處理字符串。 例如:

with open(filename, 'r') as file:
    lines = file.read()
    lines = lines.split('These')
    # lines is now a list of strings split whenever 'These' string was encountered

要查找不屬於較大單詞的整個單詞,我喜歡使用正則表達式: [^\\w]word[^\\w]

示例 Python 代碼,假設文本位於名為text的變量中:

import re
exp = re.compile(r'[^\w]in[^\w]', flags=re.IGNORECASE)
all_occurrences = list(exp.finditer(text))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM