본문 바로가기

Data Analysis9

3. 데이터 전처리 _ (2) 분석 변수 처리 더보기[  Data Analysis Process  ]1. 분석 주제 정의2. 데이터 수집3. 데이터 전처리   1) 데이터 정제   2) 분석 변수 처리4. 데이터 분석 및 모델링5. 결과 해석 및 시각화 데이터 전처리2. 분석 변수 처리 1) 변수 선택: 적절한 변수를 선택하는 것은 계산의 효율성을 향상하고 과적합을 방지해, 모델의 성능을 향상하고 해석의 용이성을 높임 (1) 변수 유형 ① 독립 변수(x) : 설명/예측/원인 변수, 위험인자, 공변량(연속형), 요인(범주형)  ② 종속 변수(Y) : 반응/결과/표적 변수  (2) 변수 선택 방법 ① 도메인 지식 활용 : 도메인에 대한 전문지식을 참고해 중요한 변수를 선택  ② 필터 기법 : 데이터의 통계적 특성을 이용, 빠르고 간단하게 적용 가능상관분.. 2024. 6. 19.
3. 데이터 전처리_(1) 데이터 정제 더보기[  Data Analysis Process  ]1. 분석 주제 정의2. 데이터 수집3. 데이터 전처리   1) 데이터 정제   2) 분석 변수 처리4. 데이터 분석 및 모델링5. 결과 해석 및 시각화 데이터 전처리: 분석 결과의 오류를 방지하고 신뢰도를 높이기 위해 수행하며, 반복적인 전처리 수행이 필요 1. 데이터 정제(Data Cleansing) 1) 결측값 처리 (1) 결측값(Missing Value): 데이터의 값이 누락된 것으로 NaN, NA, Null로 표기  (2) 결측값 종류MCAR(완전무작위 결측)결측치가 발생한 변수의 값에 상관없이 전체에 걸쳐 무작위로 발생⇒ 결측치의 영향 없음MAR(무작위 결측) 결측치가 발생한 변수의 값이 다른 변수와 관련이 있으나 결과와는 상관없는 경우⇒ .. 2024. 6. 19.
2. 데이터 수집 더보기[  Data Analysis Process  ]1. 분석 주제 정의2. 데이터 수집   1) 데이터 수집   2) 데이터 품질 평가3. 데이터 전처리4. 데이터 분석 및 모델링5. 결과 해석 및 시각화 데이터 수집: 분석의 품질 향상을 위해 고품질의 데이터를 수집해야 함 1. 데이터 수집 1) 데이터 수집 프로세스① 수집 데이터 도출② 목록 작성③ 데이터 소유 기관 파악 및 협의④ 데이터 유형 분류 및 확인⑤ 포맷에 따른 수집 기술 선정⑥ 수집 계획서 작성   2) 수집 데이터내부 데이터 확인 : 내부(조직)에서 분석과 관련된 항목 중 사용 가능한 데이터 소스 확인외부 데이터 조사 : 활용 가능한 외부 데이터 소스 확인 2. 데이터 품질 평가 1) 데이터 품질 요소정확성유효성완전성정합성유일성유용성.. 2024. 6. 19.
1. 분석 주제 정의 더보기[  Data Analysis Process  ]1. 분석 주제 정의   1) 분석 목표 설정   2) 분석 과제 발굴   3) 분석 기획2. 데이터 수집3. 데이터 전처리4. 데이터 분석 및 모델링5. 결과 해석 및 시각화 분석 주제 정의: 분석 목표를 명확히 하고, 해결하고자 하는 문제를 구체적으로 정의해 비즈니스 가치 창출을 목표로 함   1. 분석 목표 설정달성하고자 하는 구체적인 비즈니스 목표, 성과 지표(KPI)를 설정현재 조직이나 비즈니스에서 해결해야 할 문제를 인식해 핵심 질문을 도출2. 분석 과제 발굴 : 업무 요구 파악, 이슈 및 쟁점 사항을 도출  1) 분석 과제 발굴 방법 (1) Gap 분석 : 현재 상태(현상, As-Is)와 기대 상태(목표, To-Be)의 차이(Gap)를 해.. 2024. 6. 19.
4. 데이터 분석 및 모델링 _ (2-4) 데이터 유형에 따른 분석 모형 더보기[  Data Analysis Process  ]1. 분석 주제 정의2. 데이터 수집3. 데이터 전처리4. 데이터 분석 및 모델링   1) 데이터 분할   2) 분석 모델 설정   3) 분석 모형 정의   4) 모델 검증/테스트5. 결과 해석 및 시각화 분석 모델 설정 4. 데이터 유형에 따른 분석 모형 더보기1. 변수 개수에 따른 분석 방법 2. 독립변수, 종속변수의 데이터 유형에 따른 분석 방법   * 대표적 분석 방법 위주로 작성 1) 변수 개수에 따른 분석 방법단변량변수연속형기술 통계량, 히스토그램, 박스플롯범주형빈도표, 그래프이변량변수모두 연속형산점도, 상관분석, 단순 회귀 분석 연속형/범주형T-Test, ANOVA, 박스플롯모두 범주형카이제곱 검정, Crosstab(교차표)다변량변수 회귀.. 2024. 6. 13.
4. 데이터 분석 및 모델링 _ (2-3) 머신러닝 기반 분석 모형 더보기[  Data Analysis Process  ]1. 분석 주제 정의2. 데이터 수집3. 데이터 전처리4. 데이터 분석 및 모델링   1) 데이터 분할   2) 분석 모델 설정   3) 분석 모형 정의   4) 모델 검증/테스트5. 결과 해석 및 시각화 분석 모델 설정 3. 머신러닝 기반 분석 모형: 데이터의 패턴을 학습해, 이를 바탕으로 예측/분류 수행 더보기1. 지도학습   1) 회귀   2) 분류   2. 비지도학습   1) 군집화   2) 차원 축소   3) 밀도 추정   4) 연관 규칙 3. 강화학습 1) 지도학습(Supervised Learning): 정답이 있는 데이터(labelled data)로 모델을 학습해 예측/분류 작업을 수행 (1) 회귀(Regression)선형회귀(Linear.. 2024. 6. 13.
4. 데이터 분석 및 모델링 _ (2-2) 데이터마이닝 기반 분석 모형 더보기[  Data Analysis Process  ]1. 분석 주제 정의2. 데이터 수집3. 데이터 전처리4. 데이터 분석 및 모델링   1) 데이터 분할   2) 분석 모델 설정   3) 분석 모형 정의   4) 모델 검증/테스트5. 결과 해석 및 시각화 분석 모델 설정 2. 데이터마이닝 기반 분석 모형: 데이터 내의 패턴, 관계, 규칙 등을 탐색하여 유용한 정보를 추출 더보기1. 분류   1) 통계적 기법   2) 트리 기반 방법   3) 최적화 기법   4) 기계학습 2. 예측   1) 회귀분석   2) 의사결정나무   3) 시계열 분석   4) 인공신경망 3. 군집화   1) 응집 / 분할분석법   2) K-평균 군집 4. 연관 분석  1) 장바구니 분석 1) 분류(Classification):.. 2024. 6. 11.
4. 데이터 분석 및 모델링 _ (2-1) 통계 기반 분석 모형 더보기[  Data Analysis Process  ]1. 분석 주제 정의2. 데이터 수집3. 데이터 전처리4. 데이터 분석 및 모델링   1) 데이터 분할   2) 분석 모델 설정   3) 분석 모형 정의   4) 모델 검증/테스트5. 결과 해석 및 시각화 분석 모델 설정: 모델링 결과 중 가장 우수한 알고리즘 선정  1. 통계 기반 분석 모형: 수집한 데이터를 이용해 유용한 정보를 뽑아내는 것 더보기1. 기술통계 분석   1) 중심경향성   2) 데이터 산포   3) 데이터 분포 2. 상관분석 3. 회귀분석   1) 단순회귀   2) 다중회귀   3) 다항회귀   4) 곡선회귀   5) 로지스틱회귀   6) 비선형회귀 4. 분산분석   1) 일원분산분석   2) 이원분산분석   3) 다변량 분산분석 .. 2024. 6. 10.
4. 데이터 분석 및 모델링 _ (1) 데이터 분할 더보기[  Data Analysis Process  ]1. 분석 주제 정의2. 데이터 수집3. 데이터 전처리4. 데이터 분석 및 모델링   1) 데이터 분할   2) 분석 모델 설정   3) 분석 모형 정의   4) 모델 검증/테스트5. 결과 해석 및 시각화 데이터 분할: 모델의 성능 향상과 과적합 문제의 방지를 위해 적절한 데이터 분할이 필요  1. 과적합- 과적합은 모델의 복잡도와 학습 데이터의 양에 영향을 받음  1) 과대적합(Overfitting): 모델이 훈련 데이터에 지나치게 최적화되어 일반화된 성능을 나타내지 못하는 문제 (high bias)→ 모델이 훈련 데이터에 대해서는 높은 정확도를 보이지만, 새로운 데이터에 대해서는 성능이 낮아짐💡해결 방법- 데이터 수 늘리기- 파라미터 수가 적은 .. 2024. 6. 5.