繁体   English   中英

如何在保留 alignment 的同时拆分并行语料库?

[英]How to split parallel corpora while keeping alignment?

我有两个文本文件,其中包含两种语言的并行文本(可能有数百万行)。 我正在尝试从该单个文件生成随机训练/验证/测试文件,就像train_test_splitsklearn中所做的那样。 但是,当我尝试使用read_csv将其导入 pandas 时,由于其中的数据错误,我从许多行中收到错误,尝试修复断线的工作量太大。 如果我尝试设置error_bad_lines=false ,那么它将跳过其中一个文件中的一些行,而可能不会跳过另一个文件,这会破坏alignment。 如果我使用 unix 手动split它,它可以很好地满足我的需要,所以我不关心清理它,但返回的数据不是随机的。
我应该如何 go 将此数据集拆分为训练/验证/测试集?
我正在使用 python 但如果这样更容易,我也可以使用 linux 命令。

我发现我可以在带有random-source参数的文件上使用shuf命令,例如shuf tgt-full.txt -o tgt-fullshuf.txt --random-source=tgt-full.txt

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM