簡體   English   中英

如何在保留 alignment 的同時拆分並行語料庫?

[英]How to split parallel corpora while keeping alignment?

我有兩個文本文件,其中包含兩種語言的並行文本(可能有數百萬行)。 我正在嘗試從該單個文件生成隨機訓練/驗證/測試文件,就像train_test_splitsklearn中所做的那樣。 但是,當我嘗試使用read_csv將其導入 pandas 時,由於其中的數據錯誤,我從許多行中收到錯誤,嘗試修復斷線的工作量太大。 如果我嘗試設置error_bad_lines=false ,那么它將跳過其中一個文件中的一些行,而可能不會跳過另一個文件,這會破壞alignment。 如果我使用 unix 手動split它,它可以很好地滿足我的需要,所以我不關心清理它,但返回的數據不是隨機的。
我應該如何 go 將此數據集拆分為訓練/驗證/測試集?
我正在使用 python 但如果這樣更容易,我也可以使用 linux 命令。

我發現我可以在帶有random-source參數的文件上使用shuf命令,例如shuf tgt-full.txt -o tgt-fullshuf.txt --random-source=tgt-full.txt

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM