본문 바로가기
Challange

패스트캠퍼스 환급챌린지 35일차 미션 (3월 6일) : 데이터 분석 Master Class 강의 후기

by @0-0 2024. 3. 6.
반응형

35일차!!

오늘은 파이썬을 사용한 데이터 전처리 파트의 마지막 시간이었다!

이번 파트를 통해 데이터를 불러오고, 내가 원하는 형식으로 데이터를 변경하는

데이터 전처리의 과정에 대해 배울 수 있었다=)

 

특히 마지막 시간은 엑셀 강의와 비슷한 내용이 많았다.

crosstab 함수는 범주형 데이터를 관찰할 때 유용할 것 같다!

피벗 테이블은 엑셀과 동일하다.

엑셀도 한 눈에 잘 들어오는 구조로 구성되어 있지만

파이썬에서도 한 식에서 지정할  수 있어 쉽고 편한 것 같다=)

또한 엑셀에서 배웠던 wide data와 long data를 변환할 때

파이썬에서는 일일이 해야하나?라고 생각했었는데

파이썬에서도 한 번에 변환이 가능한 함수가 있었다!

처음 보는 함수였는데 엑셀에서 배웠던 기억이 생각나 쉽게 할 수 있었다=)

또한 stack도 중요한 개념 중 하난데 알아듣기 쉽게 설명해주셔서

잘 배울 수 있었던 것 같다!

 

 

 

 


 

Part 3. PYTHON _ 데이터 전처리

 

 

 

 

 

03. 파이썬을 이용한 데이터 분석 - 데이터 전처리

 

6. 데이터 재구조화

1)  crosstab

: 범주형 데이터를 비교분석할 때 유용

pd.crosstab(index=행, columns=열, margins=True/False, normalize=True/False)

 

 

(1) 범주별 갯수

: 행과 열을 지정해서 교차표를 생성하여 갯수 확인

pd.crosstab(행, 열)

 

- Pclass에 따른 Survived 갯수

 

 

(2) 범주별 비율

- nomalize = 'all' : 전체 합이 100%

- nomalize = 'index' : 행별 합이 100%

- nomalize = 'columns' : 열별 합이 100%

- margins 옵션을 통해 행과 열의 합을 구할 수 있음 ⇒ 어떤 걸 기준으로 100%인지 확인할 수 있음

 

 

(3) 다중 인덱스, 다중 컬럼의 범주표

 

 

 

2) 피벗테이블

: 엑셀의 피벗 테이블과 동일, 익덱스/컬럼별 값의 연산 가능

pd.pivot_table(데이터명, index=, columns=, values=, aggfunc=)

 

- 식에서 지정해주는 걸 보면 엑셀의 피벗 테이블 필드와 동일하다!

 

- crosstab vs pivot table

   · crosstab: 각 범주별 행의 갯수 확인

   · pivot table: 값에 연산도 가능

 

(1) 단일 인덱스, 단일 컬럼, 단일 값

- margins 옵션으로 행과 열의 합을 구할 수 있음

- aggfunc으로 여러 연산을 지정할 수 있음

 

 

(2) 다중 인덱스, 다중 컬럼, 다중 값

- 리스트를 사용하여 여러 값을 설정할 수 있음

 

 

 

3) 데이터의 구조 변경

 

(1) stack, unstack

: 다중 레벨인 데이터의 컬럼, 인덱스를 마음대로 변환

 

stack   ↔   unstack

- stack: 컬럼 레벨에서 인덱스 레벨로 데이터프레임을 변경

- unstack: 인덱스 레벨에서 컬럼 레벨로 데이터프레임을 변경

 

- 인덱스 레벨 2개, 컬럼 레벨 2개

 

- 첫번째 레벨을 stack

   : 첫번째 레벨(컬럼)이 인덱스로 내려옴

 

- 첫번째 레벨을 unstack

   : 첫번째 레벨(인덱스)가 컬럼으로 변경

 

 

(2) melt

: wide 데이터를 long 데이터로 바꾸는 함수

pd.melt(데이터명, id_vars=기준 컬럼)

 

- 엑셀 강의에서 배웠던 내용과 동일. 데이터를 다루기 편한 형태로 바꾸는 것!

 

 

 

 

 

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

 

 

 

 

:: https://bit.ly/48sS29N

 

패스트캠퍼스 [직장인 실무교육]

프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.

fastcampus.co.kr

 

반응형