資料湖泊以非階層式格式儲存大量資料。
閱讀本文後,您將能夠:
複製文章連結
資料湖泊是一種以其自然(或原始)格式儲存資料的存放庫。資料湖泊也稱為「資料集區」,是物件儲存體的一項功能,物件儲存體是一種基於雲端的儲存系統,設計用於處理大量結構化和非結構化資料。
與更傳統的檔案型儲存系統相比,資料湖泊的非階層結構使其成為一種靈活且可擴展的選項。但是由於其組織設計和復雜的資料輸出定價,從資料湖泊組織和擷取資料可能既緩慢又昂貴。
要瞭解資料湖泊如何儲存資料,重要的是先瞭解物件儲存體的運作方式。傳統的檔案型儲存體將資料儲存在資料夾和檔案的階層中,與此不同的是,物件儲存體在同一位置收集單個資料(或多個物件),並使用可自訂的中繼資料進行標記。
這些中繼資料是指用於識別檔案的資訊(例如名稱、類型、大小或唯一識別碼),可協助使用者或應用程式定位和擷取資料,而無需遵循資料夾之間的特定路徑。由於資料湖泊設計用於包含大量資料,因此指派給每個物件的中繼資料可以非常詳細,這有助於加快擷取速度。
為了說明階層式和非階層式資料儲存之間的區別,我們假設 Bob 想要儲存數千張黑膠唱片。使用階層式儲存系統,他可以將唱片整理到按音樂類型分類的大儲存箱(或資料夾)中。這讓他能夠快速找到任何唱片,但是如果他獲得了更多該類型的唱片,他可能會用完儲存箱中的空間。這種方法類似於檔案型儲存體,在這種儲存體中,必須對資料進行整理分類並將其儲存在特定位置。
相比之下,非階層式儲存系統允許 Bob 以他想要的任何順序將他的所有唱片放在一個房間(或資料湖泊)內。每張唱片都將貼上顯示其類型的標籤。採用這種方法,將無法快速識別單張唱片,但允許 Bob 將更多唱片新增到他的集合中,而無需將它們儲存在特定的儲存箱中。這種方法類似於物件儲存體,在這種儲存體中,可以將大量資料儲存在同一位置。
如需此過程的深入說明,請閱讀什麼是物件儲存體?
資料湖泊架構是指用於在資料湖泊中儲存、轉換、存取和保護資料的流程和工具。雖然此架構可能位於雲端也可能位於內部,但它通常都具有以下幾個元件:
資料湖泊可用於多種用途,包括資料分析和探索、物聯網 (IoT) 管理、個人化消費者體驗、進階機器學習等等。資料湖泊也有助於訓練人工智慧 (AI) 模型,此類訓練通常需要非常大的資料集才能產生有效的輸出。
例如,假設一家旅遊公司想要向他們的客戶提供量身定制的自動化旅行建議。利用資料湖泊,他們可以攝取與常見旅行模式、熱門目的地、停留時間、住宿類型和活動相關的大量客戶資料。然後,他們可以使用這些資料來訓練 AI 模型,以編寫更進階的建議,並在理想情況下確保更高的客戶滿意度。
資料湖泊是結構化和非結構化資料的大型存放庫。它們的主要優勢是能夠經濟高效地大規模運作,但與其他類型的資料處理和儲存體相比,它們的規模和分類系統的複雜性可能使其效率低下。
與資料湖泊一樣,資料倉儲也是大型資料存放庫。與資料湖泊不同的是,它們僅儲存結構化資料,並使用傳統的檔案階層來組織、儲存和擷取資料。這種架構可實現更快的資料擷取和效能,但它的擴展成本可能比資料湖泊高得多。
一些雲端廠商提供一種稱為資料湖倉 (data lakehouse) 的混合方法,它結合了資料湖泊與倉儲的核心功能和優勢。組織不必將結構化和非結構化資料分開存放在單獨的系統中,而是可以使用資料湖倉來處理和儲存所有類型的資料,它具有資料倉儲的組織功能和高效能以及資料湖泊經濟高效的可擴展性。這種方法還讓組織能透過自動化資料治理和合規性工具,確保更高的資料完整性和可靠性。
Cloudflare R2 是一種無輸出費用的物件儲存解決方案,可讓組織開發自己的資料湖泊。以 Cloudflare 的全球網路作為後盾,R2 透過多次複製物件來協助確保最佳的資料持久性和可靠性,進而使它們易於存取,並對區域故障和資料遺失具有高度抵抗性。