[ Data Analysis Process ]
1. 분석 주제 정의
2. 데이터 수집
3. 데이터 전처리
4. 데이터 분석 및 모델링
1) 데이터 분할
2) 분석 모델 설정
3) 분석 모형 정의
4) 모델 검증/테스트
5. 결과 해석 및 시각화
분석 모델 설정
2. 데이터마이닝 기반 분석 모형
: 데이터 내의 패턴, 관계, 규칙 등을 탐색하여 유용한 정보를 추출
1. 분류
1) 통계적 기법
2) 트리 기반 방법
3) 최적화 기법
4) 기계학습
2. 예측
1) 회귀분석
2) 의사결정나무
3) 시계열 분석
4) 인공신경망
3. 군집화
1) 응집 / 분할분석법
2) K-평균 군집
4. 연관 분석
1) 장바구니 분석
1) 분류(Classification)
: 데이터에서 패턴을 찾아내 새로운 데이터를 분류하고, 새로운 관측값을 올바른 범주로 예측하여 분류
(1) 통계적 기법
(a) 로지스틱 회귀분석(Logistic Regression)
(b) 판별분석(Discriminant Analysis)
* 3), 6) 참고
DA) Process _ 4-1) 통계 기반 분석 모형
더보기[ DA Process ]1. 분석 주제 정의2. 데이터 수집3. 데이터 정제4. 데이터 분석 1) 데이터 분할 2) 분석 모델 설정 3) 분석 모형 정의 4) 모델 검증/테스트5. 데이터 시각화 분석 모델
datasly9-9.tistory.com
(c) 나이브 베이즈(Naive Bayes)
: 베이즈 정리를 기반으로 한 분류 기법
→ 독립변수들이 서로 조건부 독립이라고 가정
(2) 트리 기반 기법
(a) CART(Classification and Regression Tress) 알고리즘
: 데이터의 이분화를 반복해 이진트리 형태를 형성해 분류, 예측을 실시
- 분할 기준
- 분류 트리 : Gini 불순도(Gini impurity), 엔트로피를 최소화하는 분할
- 회귀 트리 : 분산(variance) 감소를 최대화하는 분할
(3) 최적화 기법(Optimization)
(a) SVM(서포트 벡터 머신)
: 클래스 간의 마진을 최대화해 데이터를 분리하는 초평면(=경계, Hyplane)을 찾는 분류 기법
(b) K-NN(K-최근접 이웃; K-Nearest Neighbors)
: 새로운 데이터 포인트를 기존 데이터 포인트와 비교하여 가장 가까운 K개의 이웃 데이터 포인트로 분류
(4) 기계학습(ML; Machine Learning)
(a) 역전파 알고리즘(Backpropagation Algorithm)
: 출력층에서 입력층으로 오차를 역방향으로 전파해 가중치를 갱신하는 방법
2) 예측(Prediction)
: 과거 데이터를 분석하여 미래의 결과를 예측
(1) 회귀분석(Regression Analysis)
: 독립변수와 종속 변수 간의 관계를 모델링하여 예측
* 3) 참고
DA) Process _ 4-1) 통계 기반 분석 모형
더보기[ DA Process ]1. 분석 주제 정의2. 데이터 수집3. 데이터 정제4. 데이터 분석 1) 데이터 분할 2) 분석 모델 설정 3) 분석 모형 정의 4) 모델 검증/테스트5. 데이터 시각화 분석 모델
datasly9-9.tistory.com
(2) 의사결정나무(Decision Tree)
: 데이터의 특징을 기준으로 여러 분기로 나누어 예측
(3) 시계열 분석(Time-Series Analysis)
: 시간에 따라 변화하는 데이터를 분석해 미래의 값을 예측
(4) 인공신경망(Artificial Neural Networks)
: 생물학적 뉴런을 모방한 모델, 여러 층(layer)으로 구성된 신경망으로 복잡한 패턴을 학습하고 예측
* 딥러닝은 인공신경망의 한 종류로, 단순 신경망을 확장하여 더 많은 은닉층을 추가한 형태
3) 군집화(Clustering)
: 데이터 패턴을 이해해 이질적 집단을 동질적인 소집단으로 세분화
(1) 계층적 군집화(Hierarchical Clustering)
: 데이터들을 계층 구조로 묶는 방식
(a) 상향식 계층적 군집화(Agglomerative Clustering)
: 각 데이터를 개별 군집으로 시작해 가장 가까운 군집을 반복적으로 병합
(b) 하향식 계층적 군집화(Divisive Clustering)
: 모든 데이터를 하나의 군집으로 시작해 군집을 반복적으로 분할
(2) 비계층적 군집화
: 미리 정해진 수의 군집으로 분할
(a) K-평균 군집화(K-Means Clustering)
: K개의 중심에 가까운 데이터를 군집에 할당하여 분할
→ K개의 무작위로 선택 후 각 데이터를 가까운 중심에 할당하고 중심을 반복해서 계산
(b) DBSCAN(Density-Based Spatial Clustering of Applications with Noise, 밀도 기반 군집화 알고리즘)
: 데이터가 밀집된 영역을 군집으로 식별하며 노이즈 데이터는 제외
(c) 평균 이동 군집화
: 데이터 밀도가 높은 영역을 중심으로 군집을 형성
(d) 가우시안 혼합 모델(GMM, Gaussian Mixture Model)
: 가우시안 분포를 여러 개 혼합해 데이터의 복잡한 분포를 근사
- 데이터가 다양한 형태의 분포를 가질 때 유연하게 적용 가능
4) 연관 분석(Association Analysis)
: 데이터 항목들 간의 유용한 패턴(연관규칙)을 발견
(1) 장바구니 분석
: 고객의 소비 데이터를 분석해, 구매자가 구매한 상품들의 연관성을 확인
'Data Analysis > Process' 카테고리의 다른 글
1. 분석 주제 정의 (0) | 2024.06.19 |
---|---|
4. 데이터 분석 및 모델링 _ (2-4) 데이터 유형에 따른 분석 모형 (0) | 2024.06.13 |
4. 데이터 분석 및 모델링 _ (2-3) 머신러닝 기반 분석 모형 (0) | 2024.06.13 |
4. 데이터 분석 및 모델링 _ (2-1) 통계 기반 분석 모형 (2) | 2024.06.10 |
4. 데이터 분석 및 모델링 _ (1) 데이터 분할 (0) | 2024.06.05 |