[英]Registered Coder does not work on Dataflow
使用Apache Beam SDK,注冊的編碼器不起作用。
我想將SimpleFunction
與BigQuery的TableSchema
一起使用,但需要對其進行序列化。 我將TableSchemaCoder
添加到CodeRegistry
但似乎未使用它。
我該如何解決?
// Coder
import com.google.api.services.bigquery.model.TableFieldSchema;
import com.google.api.services.bigquery.model.TableSchema;
import org.apache.beam.sdk.coders.AtomicCoder;
import org.apache.beam.sdk.coders.StringUtf8Coder;
import org.json.JSONArray;
import org.json.JSONObject;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.util.ArrayList;
import java.util.List;
public class TableSchemaCoder extends AtomicCoder<TableSchema> {
public static class FieldSchema {
private String name;
private String type;
private String mode;
public FieldSchema(String name, String type, String mode) {
this.name = name;
this.type = type;
this.mode = mode;
}
/* setter / getter */
}
private final StringUtf8Coder stringCoder = StringUtf8Coder.of();
@Override
public TableSchema decode(InputStream inStream) throws IOException {
return new SchemaBuilder().build(stringCoder.decode(inStream));
}
@Override
public void encode(TableSchema value, OutputStream outStream) throws IOException {
List<JSONObject> fields = new ArrayList<>();
for (TableFieldSchema s : value.getFields()) {
fields.add(new JSONObject(new FieldSchema(s.getName(), s.getType(), s.getMode())));
}
String json = new JSONArray(fields).toString();
stringCoder.encode(json, outStream);
}
}
// Pipeline
// ...
CodeRegistry cr = pipeline.getCodeRegistry
cr.registerCoderForClass(TableSchema.class, TableSchemaCoder())
// ...
TableSchema schema = getSchema()
pipeline.apply(MapElements.via(RowParser(schema)))
錯誤訊息:
Exception in thread "main" java.lang.IllegalArgumentException: unable to serialize org.apache.beam.sdk.transforms.MapElements$1@7ac2e39b
at org.apache.beam.sdk.util.SerializableUtils.serializeToByteArray(SerializableUtils.java:53)
at org.apache.beam.sdk.util.SerializableUtils.clone(SerializableUtils.java:90)
at org.apache.beam.sdk.transforms.ParDo$SingleOutput.<init>(ParDo.java:591)
at org.apache.beam.sdk.transforms.ParDo.of(ParDo.java:435)
at org.apache.beam.sdk.transforms.MapElements.expand(MapElements.java:118)
at org.apache.beam.sdk.transforms.MapElements.expand(MapElements.java:30)
at org.apache.beam.sdk.Pipeline.applyInternal(Pipeline.java:514)
at org.apache.beam.sdk.Pipeline.applyTransform(Pipeline.java:454)
at org.apache.beam.sdk.values.PCollection.apply(PCollection.java:284)
Caused by: java.io.NotSerializableException: com.google.api.services.bigquery.model.TableSchema
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1184)
at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.java:1548)
at java.io.ObjectOutputStream.writeSerialData(ObjectOutputStream.java:1509)
at java.io.ObjectOutputStream.writeOrdinaryObject(ObjectOutputStream.java:1432)
at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1178)
at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348)
at org.apache.beam.sdk.util.SerializableUtils.serializeToByteArray(SerializableUtils.java:49)
... 9 more
您沒有共享RowParser
的代碼,但是我猜它有一個TableSchema作為字段。 Coder
器僅用於對管道中的數據進行編碼。 諸如RowParser
功能必須使用Java序列化,而不使用已注冊的編碼器。
根據生成表模式的方式,有幾種選擇:
讓RowParser將其存儲為字符串或其他某種可序列化的格式。 它可以具有用於實際TableSchema對象的臨時字段,並從可序列化格式初始化該字段(如果為null)。
實現用於序列化RowParser的Java序列化掛鈎,以避免序列化TableSchema。 這可能類似於上面的內容。
首次使用RowParser時,請計算架構。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.