본문 바로가기
Challange

패스트캠퍼스 환급챌린지 34일차 미션 (3월 5일) : 데이터 분석 Master Class 강의 후기

by @0-0 2024. 3. 5.
반응형

 

35일차

 

데이터 전처리의 두 번째 파트인 데이터 집계에 대한 강의를 수강하였다.

데이터 집계는 크게 두 파트로 나누어져 있는데

통계량을 확인하는 파트와 그룹핑에 대한 파트이다.

통계량을 확인하는 파트의 경우

엑셀이나 SQL과 sum, mean과 같이 통계량을 확인하는 함수는 동일하다.

하지만 파이썬은 숫자형 데이터의 전체적인 통계량을 관찰할 수 있는

describe라는 함수를 제공하고 있는데

숫자형 데이터를 확인할 때 이 함수를 유용하게 사용할 수 있다.

describe를 통해 숫자형 데이터의 전체적인 분포를 파악하고,

미리 가설을 세우고 EDA를 들어갈 수 있기 때문이다.

특히 분포에 맞춰 데이터를 관찰할 그래프 모양을 미리 생각해 볼 수 있다!

파이썬을 상관관계 분석을 하는 것도 Excel을 활용하는 것도 모두 간단하지만

시각화를 함에 있어 파이썬이 훨씬 쉬운 것 같다!

Excel은 일일이 셀의 사이즈나 폰트 등을 지정해야 했기 때문이다ㅎ

Group by의 그룹핑에 대한 내용도 SQL에서 배웠기 때문에 어렵지 않았는데

파이썬은 코드가 더 직관적이어서 코딩하기가 더 쉬운 것 같다!

 

 

 


 

Part 3. PYTHON _ 데이터 전처리

 

 

 

 

 

03. 파이썬을 이용한 데이터 분석 - 데이터 전처리

 

5. 데이터 집계

 

1) 분포와 통계량

 

(1) 분포 및 요약 통계

- describe() : 숫자형인 컬럼의 컬럼별 값의 갯수, 평균, 표준편차, 최솟값, 최댓값, 사분위수

 

 

(2) 대푯값

- min() : 최솟값

- max() : 최댓값

- mean() : 평균

- median() : 중간값

- std() : 표준편차

- var() : 분산

- quantile() : 분위수

 

+ numeric_only=True를 활용해 숫자형 데이터만 계산할 수 있음

 

 

(3) 상관관계

- 상관관계 분석: 두 변수의 관련성을 구하는 분석

- 상관계수(r) = 두 변수가 함께 변하는 정도 / 두 변수가 각각 변하는 정도(-1 ≤ r ≤ 1)

 

- 데이터명.corr()

 

+ 시각화 라이브러리와 함께 쓰면 엑셀에서 구현했던 상관관계 표를 구할 수 있

 

 

 

2) group by

: 같은 값을 한 그룹으로 묶어 연산, 통계 구할 수 있음

데이터.groupby(컬럼명).연산및통계함수

 

(1) 단일 그룹

- count() : 행의 갯수

- nunique() : 행의 유니크한 갯수

- sum() : 합

- mean() : 평균

- min() : 최솟값

- max() : 최댓값

- std() : 표준편차

- var() : 분산

 

- 'Pclass'로 그룹화 한 데이터의 통계치

 

- 특정 컬럼을 'Pclass'로 그룹화 한 데이터의 통계치를 가져오기

 

 

 

 

(2) 다중 그룹

 

- 여러 컬럼을 기준으로 그룹화한 데이터의 통계치 확인

 

+ 다중 그룹을 그룹화해 여러 연산 수행: numpy 라이브러리의 .aggregate()

 

 

 

 

 

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

 

 

 

 

:: https://bit.ly/48sS29N

 

패스트캠퍼스 [직장인 실무교육]

프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.

fastcampus.co.kr

 

반응형