35일차!!
오늘은 파이썬을 사용한 데이터 전처리 파트의 마지막 시간이었다!
이번 파트를 통해 데이터를 불러오고, 내가 원하는 형식으로 데이터를 변경하는
데이터 전처리의 과정에 대해 배울 수 있었다=)
특히 마지막 시간은 엑셀 강의와 비슷한 내용이 많았다.
crosstab 함수는 범주형 데이터를 관찰할 때 유용할 것 같다!
피벗 테이블은 엑셀과 동일하다.
엑셀도 한 눈에 잘 들어오는 구조로 구성되어 있지만
파이썬에서도 한 식에서 지정할 수 있어 쉽고 편한 것 같다=)
또한 엑셀에서 배웠던 wide data와 long data를 변환할 때
파이썬에서는 일일이 해야하나?라고 생각했었는데
파이썬에서도 한 번에 변환이 가능한 함수가 있었다!
처음 보는 함수였는데 엑셀에서 배웠던 기억이 생각나 쉽게 할 수 있었다=)
또한 stack도 중요한 개념 중 하난데 알아듣기 쉽게 설명해주셔서
잘 배울 수 있었던 것 같다!
Part 3. PYTHON _ 데이터 전처리
03. 파이썬을 이용한 데이터 분석 - 데이터 전처리
6. 데이터 재구조화
1) crosstab
: 범주형 데이터를 비교분석할 때 유용
pd.crosstab(index=행, columns=열, margins=True/False, normalize=True/False)
(1) 범주별 갯수
: 행과 열을 지정해서 교차표를 생성하여 갯수 확인
pd.crosstab(행, 열)
- Pclass에 따른 Survived 갯수
(2) 범주별 비율
- nomalize = 'all' : 전체 합이 100%
- nomalize = 'index' : 행별 합이 100%
- nomalize = 'columns' : 열별 합이 100%
- margins 옵션을 통해 행과 열의 합을 구할 수 있음 ⇒ 어떤 걸 기준으로 100%인지 확인할 수 있음
(3) 다중 인덱스, 다중 컬럼의 범주표
2) 피벗테이블
: 엑셀의 피벗 테이블과 동일, 익덱스/컬럼별 값의 연산 가능
pd.pivot_table(데이터명, index=, columns=, values=, aggfunc=)
- 식에서 지정해주는 걸 보면 엑셀의 피벗 테이블 필드와 동일하다!
- crosstab vs pivot table
· crosstab: 각 범주별 행의 갯수 확인
· pivot table: 값에 연산도 가능
(1) 단일 인덱스, 단일 컬럼, 단일 값
- margins 옵션으로 행과 열의 합을 구할 수 있음
- aggfunc으로 여러 연산을 지정할 수 있음
(2) 다중 인덱스, 다중 컬럼, 다중 값
- 리스트를 사용하여 여러 값을 설정할 수 있음
3) 데이터의 구조 변경
(1) stack, unstack
: 다중 레벨인 데이터의 컬럼, 인덱스를 마음대로 변환
stack ↔ unstack
- stack: 컬럼 레벨에서 인덱스 레벨로 데이터프레임을 변경
- unstack: 인덱스 레벨에서 컬럼 레벨로 데이터프레임을 변경
- 인덱스 레벨 2개, 컬럼 레벨 2개
- 첫번째 레벨을 stack
: 첫번째 레벨(컬럼)이 인덱스로 내려옴
- 첫번째 레벨을 unstack
: 첫번째 레벨(인덱스)가 컬럼으로 변경
(2) melt
: wide 데이터를 long 데이터로 바꾸는 함수
pd.melt(데이터명, id_vars=기준 컬럼)
- 엑셀 강의에서 배웠던 내용과 동일. 데이터를 다루기 편한 형태로 바꾸는 것!
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
패스트캠퍼스 [직장인 실무교육]
프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.
fastcampus.co.kr
'Challange' 카테고리의 다른 글
패스트캠퍼스 환급챌린지 37일차 미션 (3월 8일) : 데이터 분석 Master Class 강의 후기 (0) | 2024.03.08 |
---|---|
패스트캠퍼스 환급챌린지 36일차 미션 (3월 7일) : 데이터 분석 Master Class 강의 후기 (0) | 2024.03.07 |
패스트캠퍼스 환급챌린지 34일차 미션 (3월 5일) : 데이터 분석 Master Class 강의 후기 (3) | 2024.03.05 |
패스트캠퍼스 환급챌린지 33일차 미션 (3월 4일) : 데이터 분석 Master Class 강의 후기 (0) | 2024.03.04 |
패스트캠퍼스 환급챌린지 32일차 미션 (3월 3일) : 데이터 분석 Master Class 강의 후기 (0) | 2024.03.03 |