[英]MongoDB & Spark: difference between mongo-hadoop and mongo-spark
[英]mongo-hadoop. not to handle mongodb document deletion
我想同步mongodb和hadoop,但是當我從mongodb中刪除文檔時,這個文檔一定不能在hadoop中刪除。
我嘗試使用 mongo-hadoop 和 hive。 這是蜂巢查詢:
CREATE EXTERNAL TABLE SubComponentSubmission
(
id STRING,
status INT,
providerId STRING,
dateCreated TIMESTAMP,
subComponentId STRING,
packageName STRING
)
STORED BY 'com.mongodb.hadoop.hive.MongoStorageHandler'
WITH SERDEPROPERTIES('mongo.columns.mapping'=
'{"id":"_id", "status":"Status",
"providerId":"ProviderId",
"dateCreated":"DateCreated",
"subComponentId":"SubComponentPackage.SubComponentId",
"packageName":"SubComponentPackage.PackageName"}'
)
TBLPROPERTIES('mongo.uri'='mongodb://<host>:27017/<db name>.<collection name>');
此查詢創建與相應 mongodb 集合同步的表。 通過這個查詢 mongo-hadoop 也處理文檔刪除。
mongo-hadoop 是否有任何選擇,不處理文檔刪除? 或者,有沒有其他工具可以解決這個問題?
提前致謝。
如果您像現在一樣直接查詢 mongo,是的,您將看到 mongo 中發生的所有文檔更改。 這就是像這樣查詢 mongo 的全部意義所在。 如果你想要你的 mongo 數據的快照視圖,你需要做一些類似 mongodump 的事情,並將 bson 文件放在磁盤上的某個地方(比如 HDFS)。 否則,您將始終查詢實時的、不斷變化的數據。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.