[英]Sort huge JSON file using bash or python
要求:我有一个.gz格式的Json文件。 因此,当它被压缩时,它的大小约为 500 MB。 当我提取它时,json 文件几乎变成了 ~10 GB。 提取的 JSON 文件逐行包含各个 JSON 对象。我想要的是使用任何 bash 脚本或 python 程序根据字段ps
对文件进行排序。
因为文件太大,不建议加载到内存中。 因此,我使用 gzcat 和 cat bash 命令来流式传输 JSON 数据,然后将它们通过管道传输到 jq 以进行排序。 但是要么系统在此过程中没有响应,要么我在 output.json 中得到空文件
>cat sth2.json | parallel --pipe --group --block 1000M --recend '\n}\n' "jq -s -c 'sort_by(.ps) | .[]'" > "output.json"
>gzcat sth2.json.gz | parallel --pipe --group --block 1000M --recend '\n}\n' "jq -s -c 'sort_by(.ps) | .[]'" > "output.json"
硬件:16GB 内存,酷睿 i5 处理器
示例 JSON 数据:-
{
"ps":"abc"
....
}
{
"ps":"def"
......
}
{
"ps":"abc"
....
}
预期输出:
{
"ps":"abc"
....
}
{
"ps":"abc"
....
}
{
"ps":"def"
....
}
我不明白我做错了什么。 谁能建议如何对如此巨大的 JSON 文件进行排序? 我关注的链接: https ://github.com/joelpurra/jq-hopkok/tree/master/src/parallelism
另外,有什么方法可以在没有 Hadoop 的情况下通过任何 Map reduce 来做?
方法 1:将数据流式传输到本地 Sqlite 数据库。
import sqlite3
import fileinput
PATH=".../sqlite-snapshot-201904101324/testDB.db"
insert_query="INSERT INTO feeds (data) VALUES (?)"
def db_connect(db_path=PATH):
con = sqlite3.connect(db_path)
return con
con = db_connect() # connect to the database
cur = con.cursor() # instantiate a cursor obj
record_count = 0
for line in fileinput.input():
cur.execute(insert_query,(line,))
命令行:
>gzcat sth.json.gz | python insert.py
这是基于其中一条评论中的建议的解决方案:
例如,如果您可以在行前加上排序键,以便可以将它们作为文本而不是 JSON 进行排序,那么 GNU sort 可以轻松地对 10GB 以上的文件进行排序,而无需将它们加载到内存中。 – 另一个人
您可以使用 jq 按照以下几行执行此操作:
jq -cr '"\(.ps)\t\(.)"'
这将生成具有制表符分隔值的行,如下所示:
abc {"ps":"abc","x":0}
abc {"ps":"abc","x":1}
使用 -c 选项可确保将每一对(即排序键和对象)写入一行。
现在您可以轻松地对行进行排序,例如使用sort
; 然后使用例如cut
去除 .ps 字段。
最后,如果你真的想要格式化输出,你可以再次使用jq
(例如jq.
),关键是 jq 默认是面向流的。
以上假定 .ps 值是无制表符的。 如果不是这种情况,那么您可以使用不同的字段分隔符,或者:
jq -cr '([.ps] | @tsv) + "\t" + tostring'
您不必担心不同类型的边缘情况,而是可以使用 base64 编码和解码。
此方法创建两个制表符分隔的列。 第一列包含用于排序的值。 第二个是 base64 格式的完整 JSON。
排序后我们得到第二列和 base64 解码。
gzcat sth.json.gz | \
| jq -cr '[(. | .ps | @text), (. | @base64)] | @tsv' \ # Create a TSV where the first column contains the value that should be sorted on.
| sort -t$'\t' -k1,1 \ # Sort only on first column.
| cut -f 2 \ # Get the base64 encoded JSON from seconds column.
| base64 -d \ # Decode the base64 encoded JSON. (Ignores newlines)
| jq -c . # Required to place each JSON on separate line.
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.