簡體   English   中英

Object 存儲(例如 S3)和基於列的技術之間有什么區別

[英]What are the differences between Object Storages for example S3 and a columnar based Technology

我在考慮這兩種方法之間的區別。

想象一下,您必須處理有關模式調用的信息,這些信息稍后應該顯示給用戶。 模式調用是一個元組,由唯一的 integer 標識符(“id”)、用戶定義的名稱(“name”)、所謂的模式文件(“patternFile”)的項目相對路徑和便利標志組成,它聲明模式應該被調用還是不被調用。並且元組的數量之前是未知的,初始化后也不會被修改。

我認為在這種情況下,例如基於列的大查詢方法在 I/O 和性能以及模式的演變方面會更好。 但實際上我不明白為什么。 我將不勝感激任何幫助。

Amazon S3 就像一個大型鍵值存儲。 Key是文件名(帶有完整路徑), Value是文件的內容。 這只是一團數據。

列式數據存儲以特定數據可以“跳轉到”的方式組織數據,並且只需要從磁盤讀取所需的值。

如果要對數據執行搜索,則需要對數據執行某種形式的邏輯。 這可以通過將數據存儲在數據庫中(通常是專有格式)或使用列式存儲格式(例如 Parquet 和 ORC 以及理解這種格式的查詢引擎(例如 Amazon Athena))來完成。

S3 和列式數據存儲之間的區別就像磁盤驅動器和 Oracle 數據庫之間的區別一樣。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM