[英]Delta lake transaction logs adding records in bulk and deleting any record
假设我在空增量表中插入了一条记录,然后创建了一个 parquet 文件,并且将创建一个 transaction00.json 日志。 transaction00.json 将包含,
transaction00.json -- {add- parquet1 file name}
我又插入了一条记录,然后将创建一个新的镶木地板文件,而 transaction01.json 将包含 -
{add - parquet2 file name}
现在我从增量表中删除第二条记录,然后 transaction02.json 将创建并且它包含
{remove- parquet2 file name}
{add- parquet3 file name}
如果我一次插入 20 条记录,然后我删除了 5 条记录怎么办? 我知道只会为 20 条记录和一个事务创建一个镶木地板文件。json 日志文件但不确定删除操作。
如果您删除 5 条记录,您能否解释一下事务日志将包含哪些内容?
当您从 Delta 中删除数据时,它会执行以下操作:
结果,事务日志将包含对包含符合您条件的记录的所有文件的remove
操作,以及对新生成的文件的add
操作。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.