在 Pandas 中迭代分配唯一 ID

Question

我遇到了遍歷 Pandas DataFrame 的問題，它由 200.000 行組成。 每行由不同長度的句子組成，我希望將其拆分為特殊字符，如 re.split 方法所示。

我想做的是通過為它們分配一個唯一的 ID 來跟蹤哪些句子被分成了多少個子句子。

我現在擁有的是：

lengths = []
reviews = []
for sentence in corpus:
    subsentence = re.split(r'[.|,|?|!]', str(sentence))
    for i in review:
        lengths.append(len(review))
        reviews.append(i)

df = pd.DataFrame({'review':reviews,'length': lengths})

生成的 dataframe 的圖片

我想要的是拆分成多個子句的句子共享一個唯一的 ID，這樣我就可以再次將它們粘合在一起。

Answer 1

lengths = []
reviews = []
unique_ids = []
unique_id = 0
for sentence in corpus:
    review = re.split(r'[.|,|?|!]', str(sentence)) #assuming here that subsentences == review
    for i in review:
        lengths.append(len(review))
        reviews.append(i)
        unique_ids.append(unique_id)
    unique_id += 1

df = pd.DataFrame({'review':reviews,'length': lengths, 'unique_ids': unique_ids})

在 Pandas 中迭代分配唯一 ID

問題描述

1 個解決方案

解決方案1
0 已采納 2020-04-26 10:34:03

在 Pandas 中迭代分配唯一 ID

問題描述

1 個解決方案

解決方案1 0 已采納 2020-04-26 10:34:03

解決方案1
0 已采納 2020-04-26 10:34:03