[英]How to use multiple corpora files to use as parallel corpora in Watson Language Translator in Python
[英]How to split parallel corpora while keeping alignment?
我有两个文本文件,其中包含两种语言的并行文本(可能有数百万行)。 我正在尝试从该单个文件生成随机训练/验证/测试文件,就像train_test_split
在sklearn
中所做的那样。 但是,当我尝试使用read_csv
将其导入 pandas 时,由于其中的数据错误,我从许多行中收到错误,尝试修复断线的工作量太大。 如果我尝试设置error_bad_lines=false
,那么它将跳过其中一个文件中的一些行,而可能不会跳过另一个文件,这会破坏alignment。 如果我使用 unix 手动split
它,它可以很好地满足我的需要,所以我不关心清理它,但返回的数据不是随机的。
我应该如何 go 将此数据集拆分为训练/验证/测试集?
我正在使用 python 但如果这样更容易,我也可以使用 linux 命令。
我发现我可以在带有random-source
参数的文件上使用shuf
命令,例如shuf tgt-full.txt -o tgt-fullshuf.txt --random-source=tgt-full.txt
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.