簡體   English   中英

在 Pandas 中迭代分配唯一 ID

[英]Iteratively assigning unique ID in Pandas

我遇到了遍歷 Pandas DataFrame 的問題,它由 200.000 行組成。 每行由不同長度的句子組成,我希望將其拆分為特殊字符,如 re.split 方法所示。

我想做的是通過為它們分配一個唯一的 ID 來跟蹤哪些句子被分成了多少個子句子。

我現在擁有的是:

lengths = []
reviews = []
for sentence in corpus:
    subsentence = re.split(r'[.|,|?|!]', str(sentence))
    for i in review:
        lengths.append(len(review))
        reviews.append(i)

df = pd.DataFrame({'review':reviews,'length': lengths})

生成的 dataframe 的圖片

我想要的是拆分成多個子句的句子共享一個唯一的 ID,這樣我就可以再次將它們粘合在一起。

lengths = []
reviews = []
unique_ids = []
unique_id = 0
for sentence in corpus:
    review = re.split(r'[.|,|?|!]', str(sentence)) #assuming here that subsentences == review
    for i in review:
        lengths.append(len(review))
        reviews.append(i)
        unique_ids.append(unique_id)
    unique_id += 1

df = pd.DataFrame({'review':reviews,'length': lengths, 'unique_ids': unique_ids})

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM