본문 바로가기

데이터 전처리2

3. 데이터 전처리 _ (2) 분석 변수 처리 더보기[  Data Analysis Process  ]1. 분석 주제 정의2. 데이터 수집3. 데이터 전처리   1) 데이터 정제   2) 분석 변수 처리4. 데이터 분석 및 모델링5. 결과 해석 및 시각화 데이터 전처리2. 분석 변수 처리 1) 변수 선택: 적절한 변수를 선택하는 것은 계산의 효율성을 향상하고 과적합을 방지해, 모델의 성능을 향상하고 해석의 용이성을 높임 (1) 변수 유형 ① 독립 변수(x) : 설명/예측/원인 변수, 위험인자, 공변량(연속형), 요인(범주형)  ② 종속 변수(Y) : 반응/결과/표적 변수  (2) 변수 선택 방법 ① 도메인 지식 활용 : 도메인에 대한 전문지식을 참고해 중요한 변수를 선택  ② 필터 기법 : 데이터의 통계적 특성을 이용, 빠르고 간단하게 적용 가능상관분.. 2024. 6. 19.
3. 데이터 전처리_(1) 데이터 정제 더보기[  Data Analysis Process  ]1. 분석 주제 정의2. 데이터 수집3. 데이터 전처리   1) 데이터 정제   2) 분석 변수 처리4. 데이터 분석 및 모델링5. 결과 해석 및 시각화 데이터 전처리: 분석 결과의 오류를 방지하고 신뢰도를 높이기 위해 수행하며, 반복적인 전처리 수행이 필요 1. 데이터 정제(Data Cleansing) 1) 결측값 처리 (1) 결측값(Missing Value): 데이터의 값이 누락된 것으로 NaN, NA, Null로 표기  (2) 결측값 종류MCAR(완전무작위 결측)결측치가 발생한 변수의 값에 상관없이 전체에 걸쳐 무작위로 발생⇒ 결측치의 영향 없음MAR(무작위 결측) 결측치가 발생한 변수의 값이 다른 변수와 관련이 있으나 결과와는 상관없는 경우⇒ .. 2024. 6. 19.