[英]how to read all row from very huge table in cassandra?
我有一個Cassandra群集,在同一數據中心中有兩個節點,replicate_factor = 2。 我需要每天讀取一次表並更新Cassandra中的相應行,這在約1.5億個表中並不斷增加。
有沒有更好的方法可以做到這一點?
有什么方法可以將並行塊中的所有行和每個塊過程中的某個線程划分嗎?
Cassandra版本:2.2.1
Java版本:openjdk 1.7
您應該看看Spark。 使用Spark Cassandra Connector可以從多個Spark節點讀取Cassandra的數據,這些數據可以另外部署在Cassandra節點上或單獨的集群中。 通過運行Spark作業,可以並行讀取,處理和寫回數據,該作業也可以安排為每天執行。
隨着數據大小的不斷增長,研究Spark Streaming可能也很有意義,它使您可以僅基於傳入的新數據來不斷處理和更新數據。這將防止一遍又一遍地重新處理相同的數據,但這當然取決於您的用例。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.