728x90
반응형

안녕하세요, 수염난아이티 입니다.

이번 페이지에서는 데이터웨어하우스, 데이터마트, 데이터레이크에 대해서 알아보겠습니다.

이 3가지는 데이터 관리 시스템이지만 각각 용도가 다릅니다.

 

출처 : https://hongcana.tistory.com/67

 

1. 데이터 웨어하우스 (Data Warehouse)

 데이터웨어하우스의 사전적 의미는 사용자의 의사결정에 도움을 주기 위하여, 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스를 말합니다.

 즉, 각종 시스템에 연결되어 있는 데이터베이스에서 특정 형태로 사용할 수 있게 가공된 데이터를 모아두는 장소라고 보시면 됩니다. 

 

2. 데이터 웨어하우스의 필요성

데이터가 필요하면 각 데이터베이스에서 데이터를 추출한 뒤 필요에 맞게 변환하여 사용하면 되는거 아닌가? 라는 의문이 들 수 있습니다. 위와 같이 각 DB에서 데이터를 추출하여 사용하는 건 소규모 및 배치성 시스템에서는 가능하겠지만, 대규모 및 실시간 시스템에서는 각 DB에서 데이터를 필요할 때마다 추출하여 사용하는건 적절하지 않습니다.

 

아래와 그림과 같이 24시간 인터넷 주문이 가능한 쇼핑몰 시스템 구성도가 있다고 가정해보겠습니다.

 

위 4개의 운영중인 시스템에 각각 연계된 DB에서 쿼리를 작성하여 데이터분석을 한다면 운영중인 시스템에 부하가 발생하여 시스템에 장애가 발생할 확률이 높습니다. 만일 한 개의 시스템에서 장애가 발생하여 복구 시간이 길어지게 된다면, 매출감소로 이어지는 큰 타격을 입게 됩니다.

 

 허나 위와 같이 데이터웨어하우스를 구축해놓으면 시스템 운영에 영향 없이 데이터 분석을 실행할 수 있습니다.

위와 같은 시스템의 데이터 분석의 예시는 6개월 동안 가입한 회원이 가장 많이 주문한 제품 또는 가장 많이 취소한 제품 등이 되겠네요.

 

3. 데이터마트 (Data Mart)

 데이터마트는 "필요에 따라 만들어지는 작은 데이터 웨어하우스" 라고 생각하시면 됩니다.

중견기업 이상의 큰 회사 안에 여러 금융, 마케팅 등 여러 부서가 있다고 가정하면 각 부서에서는 요구하는 데이터 속성이 다를 겁니다.

 여러 부서가 필요한 데이터 분석을 위해 만일 하나의 데이터 웨어하우스에 접근하여 데이터를 조작한다면, 데이터 웨어하우스 입장에서는 상당한 부하가 걸릴 겁니다. 최악의 상황은 데이터 웨어하우스가 뻑나는 경우가 되겠죠?

 이런 문제를 해결하게 위한 것이 데이터 마트 입니다.

 

4. 데이터레이크 (Data Lake)

 데이터 레이크는 여러 DB에서 데이터를 축적하는 결로 보면 데이터 웨어하우스와 유사하지만,

데이터 웨어하우스와 큰 차이점은 미가공된 원시 데이터를 그대로 저장하는 점에서 차이가 있다.

그렇다면 데이터를 원시 그대로 저장하는 필요성은 어디에 있을까? 최근 데이터는 가공되지 않은 형태가 효율적으로 사용되는 분야가 있다. 바로 머신러닝 분야다. 머신러닝은 기계가 최대한 수많은 데이터, 수많은 경우의 수를 학습해야 하기 때문에 가공되지 않은 데이터가 필요하다. 이런 경우 데이터 레이크가 적합하다고 볼 수 있다.

 

읽어주셔서 감사합니다.

728x90
반응형

'▶IT World◀ > IT Basic' 카테고리의 다른 글

클론코딩(Clone coding)이란?  (0) 2025.02.19
BPM(Business Process Management)란?  (0) 2025.02.17
자동차 FoD 란?  (0) 2025.02.10
url, uri 란? 차이점 및 특징  (1) 2025.01.20
GSLB란? (Global Server Load Balancing)  (14) 2025.01.18

+ Recent posts