[英]Iteratively assigning unique ID in Pandas
我遇到了遍歷 Pandas DataFrame 的問題,它由 200.000 行組成。 每行由不同長度的句子組成,我希望將其拆分為特殊字符,如 re.split 方法所示。
我想做的是通過為它們分配一個唯一的 ID 來跟蹤哪些句子被分成了多少個子句子。
我現在擁有的是:
lengths = []
reviews = []
for sentence in corpus:
subsentence = re.split(r'[.|,|?|!]', str(sentence))
for i in review:
lengths.append(len(review))
reviews.append(i)
df = pd.DataFrame({'review':reviews,'length': lengths})
我想要的是拆分成多個子句的句子共享一個唯一的 ID,這樣我就可以再次將它們粘合在一起。
lengths = []
reviews = []
unique_ids = []
unique_id = 0
for sentence in corpus:
review = re.split(r'[.|,|?|!]', str(sentence)) #assuming here that subsentences == review
for i in review:
lengths.append(len(review))
reviews.append(i)
unique_ids.append(unique_id)
unique_id += 1
df = pd.DataFrame({'review':reviews,'length': lengths, 'unique_ids': unique_ids})
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.