15. 빅데이터 및 NoSQL

2021. 3. 17. 21:57Topcit 정리/기술 영역 - 데이터베이스 구축과 운영

반응형

 

 

빅데이터의 개요

 

빅데이터의 특징

크기 : 데이터의 수집, 저장, 처리에 있어 크기가 큰 데이터

속도 : 매우 빠른 속도로 생성되고 실시간 처리

다양성 : 정형, 반정형, 비정형 데이터로 구분된다.

 

빅데이터 라이프사이클별 세부기술

수집 : 모든 디바이스 및 시스템에서 나오는 데이터를 수집하는 기술 -> 크롤링, ETL

저장, 처리 : 대용량 데이터를 저장하며 처리하는 기술 -> NoSQL, 분산파일시스템

분석 : 빅데이터를 이용해 실생활에 도움을 주는 기술 -> 머신러닝, 자연어처리 등

표현 : 분석된 결과를 효과적으로 표현하는 기술 -> R, 그래프, 도면 등

 

 

 

빅데이터 관련 기술

 

분산파일시스템

대용량, 비정형 데이터를 분산 환경에 저장하기 위한 파일 시스템 아키텍처

 

MapReduce

저렴한 머신을 이용하여 빅데이터를 병렬로 분산 처리하기 위한 프로그래밍 모델

 

 

NoSQL

기존의 관계형 데이터베이스의 한계를 벗어나 비정형, 고용량 데이터 처리를 위해 만들어진 데이터베이스

 

특징

대용량 데이터 처리 : 페타바이트 수준의 느슨한 데이터 구조 제공

유연한 스키마 사용 : Key-Value 및 Graph 등 구조의 단순화 형태로 저장

저렴한 클러스터 구성 : pc 수준의 상용 하드웨어를 활용하고 다수 서버를 사용

단순한 CLI 제공 : 기존의 관계형 데이터베이스 SQL을 제공하지 않음 API Call 등 단순 접근 인터페이스 사용

높은 가용성 제공 : 데이터 항목을 클러스터 환경에 자동적으로 분할 적재

필요한 만큼 무결성 : 무결성을 응용헤서 일부 처리함

 

 

 

BASE 속성

 

Basically Available

가용성을 중시, 다수 실패에도 가용성을 보장하기 위해 다수 스토리지에 저장

 

Soft-State

노드 상태는 외부에서 전송된 정보를 통해 결정, 노드 도달한 시점에 갱신

 

Eventually Consistent

일시적으로 비일관적인 상태가 되어도 최적으로는 일관적으로 되는 성질

반응형