35일차

데이터 전처리의 두 번째 파트인 데이터 집계에 대한 강의를 수강하였다.
데이터 집계는 크게 두 파트로 나누어져 있는데
통계량을 확인하는 파트와 그룹핑에 대한 파트이다.
통계량을 확인하는 파트의 경우
엑셀이나 SQL과 sum, mean과 같이 통계량을 확인하는 함수는 동일하다.
하지만 파이썬은 숫자형 데이터의 전체적인 통계량을 관찰할 수 있는
describe라는 함수를 제공하고 있는데
숫자형 데이터를 확인할 때 이 함수를 유용하게 사용할 수 있다.
describe를 통해 숫자형 데이터의 전체적인 분포를 파악하고,
미리 가설을 세우고 EDA를 들어갈 수 있기 때문이다.
특히 분포에 맞춰 데이터를 관찰할 그래프 모양을 미리 생각해 볼 수 있다!
파이썬을 상관관계 분석을 하는 것도 Excel을 활용하는 것도 모두 간단하지만
시각화를 함에 있어 파이썬이 훨씬 쉬운 것 같다!
Excel은 일일이 셀의 사이즈나 폰트 등을 지정해야 했기 때문이다ㅎ
Group by의 그룹핑에 대한 내용도 SQL에서 배웠기 때문에 어렵지 않았는데
파이썬은 코드가 더 직관적이어서 코딩하기가 더 쉬운 것 같다!
Part 3. PYTHON _ 데이터 전처리
03. 파이썬을 이용한 데이터 분석 - 데이터 전처리
5. 데이터 집계
1) 분포와 통계량
(1) 분포 및 요약 통계
- describe() : 숫자형인 컬럼의 컬럼별 값의 갯수, 평균, 표준편차, 최솟값, 최댓값, 사분위수
(2) 대푯값
- min() : 최솟값
- max() : 최댓값
- mean() : 평균
- median() : 중간값
- std() : 표준편차
- var() : 분산
- quantile() : 분위수
+ numeric_only=True를 활용해 숫자형 데이터만 계산할 수 있음
(3) 상관관계
- 상관관계 분석: 두 변수의 관련성을 구하는 분석
- 상관계수(r) = 두 변수가 함께 변하는 정도 / 두 변수가 각각 변하는 정도(-1 ≤ r ≤ 1)
- 데이터명.corr()
+ 시각화 라이브러리와 함께 쓰면 엑셀에서 구현했던 상관관계 표를 구할 수 있
2) group by
: 같은 값을 한 그룹으로 묶어 연산, 통계 구할 수 있음
데이터.groupby(컬럼명).연산및통계함수
(1) 단일 그룹
- count() : 행의 갯수
- nunique() : 행의 유니크한 갯수
- sum() : 합
- mean() : 평균
- min() : 최솟값
- max() : 최댓값
- std() : 표준편차
- var() : 분산
- 'Pclass'로 그룹화 한 데이터의 통계치
- 특정 컬럼을 'Pclass'로 그룹화 한 데이터의 통계치를 가져오기
(2) 다중 그룹
- 여러 컬럼을 기준으로 그룹화한 데이터의 통계치 확인
+ 다중 그룹을 그룹화해 여러 연산 수행: numpy 라이브러리의 .aggregate()
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
패스트캠퍼스 [직장인 실무교육]
프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.
fastcampus.co.kr
'Challange' 카테고리의 다른 글
패스트캠퍼스 환급챌린지 36일차 미션 (3월 7일) : 데이터 분석 Master Class 강의 후기 (0) | 2024.03.07 |
---|---|
패스트캠퍼스 환급챌린지 35일차 미션 (3월 6일) : 데이터 분석 Master Class 강의 후기 (0) | 2024.03.06 |
패스트캠퍼스 환급챌린지 33일차 미션 (3월 4일) : 데이터 분석 Master Class 강의 후기 (0) | 2024.03.04 |
패스트캠퍼스 환급챌린지 32일차 미션 (3월 3일) : 데이터 분석 Master Class 강의 후기 (0) | 2024.03.03 |
패스트캠퍼스 환급챌린지 31일차 미션 (3월 2일) : 데이터 분석 Master Class 강의 후기 (0) | 2024.03.02 |