데이터 레이크는 방대한 양의 데이터를 비계층적 형식으로 저장합니다.
이 글을 읽은 후에 다음을 할 수 있습니다:
글 링크 복사
데이터 레이크는 데이터를 자연(또는 원시) 형식으로 저장하는 리포지토리 유형입니다. "데이터 풀"이라고도 하는 데이터 레이크는 대량의 정형 및 비정형 데이터를 처리하도록 설계된 클라우드기반 스토리지 시스템인 개체 스토리지의 기능입니다.
데이터 레이크는 비계층적 구조이므로 보다 전통적인 파일 기반 스토리지 시스템에 비해 유연하고 확장 가능한 옵션이 있습니다. 그러나 데이터 레이크에서 데이터를 구성하고 검색하면 조직 설계와 복잡한 데이터 송신 가격으로 인해 느리고 비용이 많이 들 수 있습니다.
데이터 레이크가 데이터를 저장하는 방식을 이해하려면 먼저 개체 스토리지의 작동 방식을 이해하는 것이 중요합니다. 데이터가 폴더와 파일의 계층 구조에 저장되는 기존 파일 기반 스토리지와 달리, 개체 스토리지는 동일한 위치에서 개별 데이터(또는 개체)를 수집하고 사용자 지정 가능한 메타데이터로 태그를 지정합니다.
이 메타데이터(파일을 식별하는 데 사용되는 정보(예: 이름, 유형, 크기 또는 고유 식별자))는 사용자 또는 앱이 폴더 간에 특정 경로를 사용할 필요 없이 데이터를 찾고 검색하는 데 도움을 줍니다. 데이터 레이크는 방대한 양의 데이터를 포함하도록 설계되었으므로 각 개체에 할당된 메타데이터는 매우 상세할 수 있으며, 이는 검색 속도를 높이는 데 도움이 됩니다.
계층적 데이터 스토리지와 비계층적 데이터 스토리지의 차이점을 설명하기 위해 Bob이 수천 장의 레코드판 레코드를 저장하려고 한다고 가정해 보겠습니다. 계층적 스토리지 시스템을 사용하면 레코드를 음악 장르별로 범주화된 큰 저장소(또는 폴더)로 분류할 수 있었습니다. 이렇게 하면 어떤 앨범이든 빠르게 찾을 수 있지만, 해당 장르에서 더 많은 앨범을 수집하면 저장소 공간이 부족할 수 있습니다. 이 방법은 데이터를 특정 위치에서 구성하고 저장해야 하는 파일 기반 스토리지와 유사합니다.
반면, 비계층적 스토리지 시스템에서는 Bob이 모든 레코드를 룸(또는 데이터 레이크)에 원하는 순서로 배치할 수 있습니다. 각 레코드에는 장르를 표시하는 레이블이 태그됩니다. 이 방법을 사용하면 단일 레코드를 식별하는 프로세스가 느려지지만, Bob이 특정 저장소에 레코드를 저장할 필요 없이 더 많은 레코드를 컬렉션에 추가할 수 있습니다. 이 방법은 더 많은 양의 데이터를 동일한 위치에 저장할 수 있는 개체 스토리지와 유사합니다.
이 프로세스에 대한 자세한 설명은 개체 스토리지란?을 읽어보세요.
데이터 레이크 아키텍처는 데이터 레이크 내에서 데이터를 저장, 변환, 액세스, 보호하는 데 사용되는 프로세스와 도구를 말합니다. 이 아키텍처는 클라우드 또는 온프레미스에 위치할 수 있지만, 다음 구성 요소 중 몇 가지를 공유하는 경우가 많습니다.
데이터 레이크는 데이터 분석 및 탐색, 사물 인터넷(IoT) 관리, 개인화된 소비자 경험, 고급 머신 러닝 등 다양한 목적으로 사용할 수 있습니다. 데이터 레이크는 효과적인 결과물을 생성하기 위해 매우 큰 데이터 세트가 필요한 경우가 많은 인공 지능(AI) 모델을 학습시키는 데도 유용합니다.
예를 들어, 여행 회사에서 고객에게 맞춤형 자동 여행 추천을 제공하려고 한다고 가정해 보겠습니다. 일반적인 여행 패턴, 인기 있는 목적지, 체류 기간, 숙박 시설 유형, 활동과 관련된 대량의 고객 데이터를 데이터 레이크를 통해 수집할 수 있습니다. 그런 다음 해당 데이터를 사용하여 AI 모델이 고급 권장 사항을 개발하도록 학습시킬 수 있으며, 이상적으로는 고객 만족도도 높일 수 있습니다.
데이터 레이크는 정형 및 비정형 데이터의 대규모 리포지토리입니다. 주요 장점은 대규모로 비용 효과적으로 운영할 수 있다는 것이지만, 크기와 범주 시스템의 복잡성으로 인해 다른 유형의 데이터 처리 및 저장에 비해 비효율적일 수 있습니다.
데이터 레이크와 마찬가지로 데이터 웨어하우스도 데이터의 대규모 리포지토리입니다. 이 스토리지는 데이터 레이크와 달리 정형 데이터만 저장하며 기존 파일 계층 구조를 사용하여 데이터를 구성하고 저장하며 검색합니다. 이 아키텍처로 인해 데이터 검색과 성능이 더욱 빨라지지만, 데이터 레이크보다 확장하는 비용은 훨씬 더 많이 들 수 있습니다.
일부 클라우드 벤더는 데이터 레이크와 웨어하우스의 핵심 기능과 이점을 결합한 데이터 레이크하우스라는 하이브리드 접근 방식을 제공합니다. 조직에서는 정형 데이터와 비정형 데이터를 별도의 시스템에 따로 격리하는 대신, 데이터 웨어하우스의 정리 기능 및 고성능, 데이터 레이크의 비용 효율적인 확장성을 이용해 모든 유형의 데이터를 처리하고 저장할 수 있는 데이터 레이크하우스를 이용할 수 있습니다. 또한 이 접근 방식을 통해 조직에서는 자동화된 데이터 거버넌스 및 규제 준수 도구를 통해 더 뛰어난 데이터 무결성과 안정성을 보장할 수 있습니다.
Cloudflare R2는 조직에서 자체 데이터 레이크를 개발할 수 있는 송신료 없는 개체 스토리지 솔루션입니다. Cloudflare의 전역 네트워크에서 지원하는 R2는 개체를 여러 번 복제하여 최적의 데이터 내구성과 안정성을 보장하여 쉽게 액세스할 수 있고 지역적 장애 및 데이터 손실에 잘 대처할 수 있도록 지원합니다.
R2에 대해 자세히 알아보세요. 그리고 클라우드 간에 데이터를 이동시킬 때 클라우드 연결성으로 송신료를 낮추는 방법을 알아봅니다.