본문 바로가기

학습/CS

빅데이터(Big Data)에 대해서

Ⅰ. 빅데이터 개념

빅데이터(big data)란, 방대한 양의 데이터를 뜻한다. 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 비정형 데이터로부터 가치를 추출하고 결과를 분석하는 기술이라고도 설명할 수 있다. 

더 자세하게 설명했을 때, 빅데이터는 넓은 의미의 빅데이터좁은 의미의 빅데이터로 나눌 수 있다.

좁은 의미의 빅데이터는 정형 데이터와 비정형 데이터를 포함한다.
넓은 의미지의 빅데이터는 좁은 의미의 빅데이터 + 데이터 관리 조직 + 데이터 관리 기술을 의미한다.

빅데이터의 특징

3V : Volume(규모), Variety(다양성), Velocity(속도)

빅데이터의 특징은 이렇게 3V로 나뉘지만, 기술의 발전에 따라 5V, 6V, 7V도 제시된 바가 있다. 

  • 5V : 규모(Volume), 다양성(Variety), 속도(Velocity), 신뢰성(Veracity), 가치(Value)
  • 6V : 규모(Volume), 다양성(Variety), 속도(Velocity), 신뢰성(Veracity), 가치(Value), 시각화(Visualization)
  • 7V : 규모(Volume), 다양성(Variety), 속도(Velocity), 신뢰성(Veracity), 가치(Value), 정확성(Validity), 휘발성(Volatility)

 

데이터의 유형 분류

빅데이터를 형태별로 분류하면, 정형 데이터와 반정형 데이터, 비정형 데이터 3가지로 구분이 가능하다. 

  • 정형 데이터( Structured Data ): 정리된 표처럼 깔끔하게 정돈된 데이터(SQL 데이터베이스, CSV 파일)
  • 반정형 데이터( Semi-structured Data ): 어느 정도 구조가 있지만 정형 데이터처럼 완전히 정리되지 않은 데이터, JSON이나 XML 파일처럼 태그나 키-값 쌍으로 데이터가 저장되어 있음(json, xml, yaml)
  • 비정형 데이터(Unstructured Data): 일정한 형식이 없는 데이터 (오디오, 비디오, 문서)

 

데이터의 분석 절차

데이터 분석은 데이터 생성 -> 데이터 수집 및 통합 -> 데이터 저장 및 처리 -> 시각화 분석과  같이 진행된다. 

1. 데이터 생성 (Data Generation)

데이터는 구조화된 데이터(데이터베이스, 엑셀 시트 등), 반구조화된 데이터(JSON, XML 등), 비구조화된 데이터(텍스트 파일, 이미지, 동영상 등) 등 여러 형태로 존재할 수 있다.

예시:

  • 센서에서 수집된 온도 데이터
  • 웹사이트 로그 파일
  • 고객 설문조사 응답
  • 소셜 미디어 포스트

2. 데이터 수집 및 통합 (Data Collection and Integration)

데이터 생성 후, 해당 데이터를 수집하고 통합하는 과정이다. 데이터는 여러 소스에서 수집될 수 있으며, 데이터를 통합하여 일관된 데이터 세트를 만든다.

예시:

  • 웹 크롤러를 사용하여 웹사이트에서 데이터를 수집
  • API를 통해 외부 서비스로부터 데이터 가져오기
  • 데이터베이스에서 쿼리를 통해 데이터 추출

3. 데이터 저장 및 처리 (Data Storage and Processing)

수집된 데이터는 분석을 위해 적절한 형태로 저장되고 처리된다. 이 단계에서는 데이터 정제, 변환, 필터링, 요약 등 다양한 처리가 이루어진다. 데이터는 관계형 데이터베이스, NoSQL 데이터베이스, 데이터 웨어하우스, 데이터 레이크 등 다양한 저장소에 저장될 수 있다.

예시:

  • 결측치 처리, 중복 데이터 제거 등 데이터 정제 작업
  • 데이터를 분석에 적합한 형식으로 변환
  • 대용량 데이터를 처리하기 위한 분산 처리 시스템 사용 (예: Hadoop, Spark)

4. 데이터 분석 및 모델링 (Data Analysis and Modeling)

이 단계에서는 데이터를 탐색하고 분석하여 유의미한 인사이트를 도출한다. 통계 분석, 머신러닝 모델링, 패턴 인식 등 다양한 기법을 사용하여 데이터를 분석한다.

예시:

  • 데이터 분포를 확인하기 위한 기초 통계 분석
  • 회귀 분석, 분류, 군집화 등 머신러닝 알고리즘 적용
  • 시계열 분석을 통해 트렌드와 패턴 탐지

5. 데이터 시각화 (Data Visualization)

분석 결과를 이해하기 쉽도록 시각화한다. 데이터 시각화는 데이터를 그래프, 차트, 대시보드 등의 형태로 표현하여 인사이트를 효과적으로 전달할 수 있다.

예시:

  • 매출 데이터를 시계열 그래프로 시각화
  • 고객 세그먼트를 파이 차트로 표시
  • 대시보드를 통해 실시간 데이터 모니터링

6. 데이터 기반 의사결정 (Data-Driven Decision Making)

최종적으로, 분석 결과를 바탕으로 의사 결정을 내린다.

예시:

  • 마케팅 캠페인의 효과를 분석하고 최적화 전략 수립
  • 재고 관리 최적화를 위한 수요 예측
  • 고객 이탈을 방지하기 위한 맞춤형 서비스 제공

Ⅱ. 빅데이터 분석

빅데이터 분석 방법

1. 정형 분석

  • 그룹화
    -군집분석: 개별 개체 중에서 서로 유사한 특성이 있는 데이터를 집단응로 그룹화(K-means)
  • 분류
    - 분류 분석: 사전에 정해진 분류 기준으로 데이터 분류(KNN)
    - 의사결정 나무: 여러가지 조건을 통한 데이터 분류 방법 사용
  • 상관관계
    - 상관 분석: 두 변수 간의 상호 연관성을 설명(관계 방향과 정도)
    - 교차 분석: 두 범주 간 관계가 독립 관계인지, 상호 연관성을 맺는지 검증
  • 연관관계
    - 연관 분석: 두 변수 간의 상호 연관성을 설명(동시에 발생할 확률)
  • 인과관계
    - 회귀 분석: 현상에 영향을 주는 원인과 영향을 받는 결과가 있을 때, 변수들 사이의 인과 관계를 규명
    - 로지스틱 회귀 분석: 범주형 데이터를 대상으로 하는 회귀 분석

2. 비정형 분석

  • 텍스트 분석
    - Text Mining: 고객 불만 분석
    - Opinion Mining: 기업/상품 평판 분석

빅데이터와 통계는 왜 깊은 관련이 있을까?

빅데이터 분석의 첫 단계는 데이터의 분포, 중앙값, 평균, 표준편차 등 기본적인 통계량을 이해하는 것이기 때문
데이터의 유의미한 패턴을 파악하고 미래를 예측하기 위해서는 통계적 기법이 필수적이다. 
방대한 양의 데이터를 모두 분석하기 어려운 경우, 표본을 추출하여 분석한다. 이때 통계적 표본 추출 방법과 가설 검정이 사용된다. 

 

AI 분석 알고리즘은 빅데이터에 어떻게 사용될까?

 

  • 데이터 전처리 (Data Preprocessing):
    • 빅데이터는 종종 정제되지 않고 결측치나 이상치가 포함되어 있다. AI 알고리즘은 데이터 전처리 과정에서 이를 탐지하고 정제한다.
  • 패턴 인식 및 분류 (Pattern Recognition and Classification):
    • AI 알고리즘은 빅데이터에서 패턴을 인식하고 데이터를 분류하는 데 사용된다.
    • 예: 이미지 분류, 텍스트 분류, 음성 인식 등.
  • 예측 모델링 (Predictive Modeling):
    • 머신 러닝 알고리즘은 빅데이터를 사용하여 미래를 예측하는 모델을 만든다.
    • 예: 회귀 분석, 의사결정 나무, 랜덤 포레스트, 딥러닝 모델 등.
  • 클러스터링 (Clustering):
    • 비지도 학습 알고리즘은 데이터를 군집화하여 유사한 특성을 가진 데이터를 그룹화한다.
    • 예: K-평균 클러스터링, DBSCAN 등.
  • 차원 축소 (Dimensionality Reduction):
    • 고차원 데이터를 분석하기 쉽게 차원을 축소한다. 이는 데이터 시각화와 계산 효율성을 높인다.
    • 예: PCA (주성분 분석), t-SNE 등.
  • 자연어 처리 (Natural Language Processing, NLP):
    • 텍스트 데이터를 분석하고 처리하는 데 사용된다.
    • 예: 텍스트 분류, 감정 분석, 기계 번역, 챗봇 등.
  • 딥러닝 (Deep Learning):
    • 복잡한 비정형 데이터 (이미지, 음성, 텍스트 등)를 분석한다.
    • 예: CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), LSTM (Long Short-Term Memory) 등.

 

'학습 > CS' 카테고리의 다른 글

About OAuth  (2) 2025.07.14
인증과 인가, 어떻게 다를까?  (0) 2024.07.19