繁体 English 中英

如何在保留 alignment 的同时拆分并行语料库？

[英]How to split parallel corpora while keeping alignment?

原文 2019-11-13 15:15:20 3 1 python/ pandas/ unix/ scikit-learn/ dataset

我有两个文本文件，其中包含两种语言的并行文本（可能有数百万行）。 我正在尝试从该单个文件生成随机训练/验证/测试文件，就像train_test_split在sklearn中所做的那样。 但是，当我尝试使用read_csv将其导入 pandas 时，由于其中的数据错误，我从许多行中收到错误，尝试修复断线的工作量太大。 如果我尝试设置error_bad_lines=false ，那么它将跳过其中一个文件中的一些行，而可能不会跳过另一个文件，这会破坏alignment。 如果我使用 unix 手动split它，它可以很好地满足我的需要，所以我不关心清理它，但返回的数据不是随机的。
我应该如何 go 将此数据集拆分为训练/验证/测试集？
我正在使用 python 但如果这样更容易，我也可以使用 linux 命令。

1 个解决方案

我发现我可以在带有random-source参数的文件上使用shuf命令，例如shuf tgt-full.txt -o tgt-fullshuf.txt --random-source=tgt-full.txt 。

如何使用多个语料库文件在Python中的Watson语言翻译器中用作并行语料库

[英]How to use multiple corpora files to use as parallel corpora in Watson Language Translator in Python

如何在保持空白的同时拆分？

[英]How to split while keeping the empty line?

如何在保持 \\n 的同时拆分字符串

[英]How to split string while keeping \n

拆分.csv，同时将描述保留为第一行

[英]Split .csv while keeping description first row

在保留分隔符的同时拆分列表中的元素

[英]Split element in list while keeping delimiter

Pandas - 在保留索引的同时将列拆分为行

[英]Pandas - Split columns into rows while keeping indices

调整对齐树状图和matplotlib pcolor子图的大小，同时保持对齐

[英]Resizing scipy dendrogram and matplotlib pcolor subplots while keeping alignment

如何拆分字符串并保持模式

[英]How to split a string and keeping the pattern

如何通过没有空格的 substring 分割字符串，同时保留其原始空格？

[英]How to split a string by a substring without white spaces, while keeping its original white spaces?

Python 3 - 如何将字符串中的每个字符拆分为列表，同时保持十进制数字不变？

[英]Python 3 - How to split every character in a string into a list while keeping decimal numbers intact?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用多个语料库文件在Python中的Watson语言翻译器中用作并行语料库如何在保持空白的同时拆分？如何在保持 \\n 的同时拆分字符串拆分.csv，同时将描述保留为第一行在保留分隔符的同时拆分列表中的元素 Pandas - 在保留索引的同时将列拆分为行调整对齐树状图和matplotlib pcolor子图的大小，同时保持对齐如何拆分字符串并保持模式如何通过没有空格的 substring 分割字符串，同时保留其原始空格？ Python 3 - 如何将字符串中的每个字符拆分为列表，同时保持十进制数字不变？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM