Moonie

[빅데이터 분석기사 실기] 데이터 전처리 python 100 - 2 본문

공부/자격증

[빅데이터 분석기사 실기] 데이터 전처리 python 100 - 2

Moonie' 2024. 10. 12. 23:01
반응형

https://www.datamanim.com/dataset/99_pandas/pandasMain.html

 

판다스 연습 튜토리얼 — DataManim

판다스 연습 튜토리얼 9회 빅분기 실기 대비 강의, 블로그만으로는 도저히 안되겠다ㅠ 하시는분들에게 추천합니다. 아 제발 광고 한번씩만 눌러주세요 ㅠㅠ 두번은 더 좋구요 빅분기, adp 정보공

www.datamanim.com

 

 

아래 게시글에 이어서 진행한다.

https://moonie.tistory.com/32

 

[빅데이터 분석기사 실기] 데이터 전처리 python 100

https://www.datamanim.com/dataset/99_pandas/pandasMain.html 판다스 연습 튜토리얼 — DataManim판다스 연습 튜토리얼 9회 빅분기 실기 대비 강의, 블로그만으로는 도저히 안되겠다ㅠ 하시는분들에게 추천합니다

moonie.tistory.com

 

Question 12 범주형 변수를 가진 컬럼을 출력하라

 

df.select_dtypes(include=object).columns

 

df.dtypes  기본 사용법
* include 및 exclude는 비어있거나 겹치면 안되며(에러발생), 스칼라나 list형태의 입력값이 가능합니다.
자료형
1. 숫자형(numeric)은 np.number 또는 'number'
2. 문자형(str)은 'object'
3. 날짜,시간(datetimes)을 선택하려면 np.datetime64, 'datetime' 또는 'datetime64'
4. timedeltas는 np.timedelta64, 'timedelta' or 'timedelta64'
5. Pandas의 categorical 타입은 'category'

 

Question 13 각 컬럼의 결측치 숫자를 파악하라

df.isnull().sum()

 

null값을 평균값, 0 등으로 처리할때는 fillna(0, inplace=True)을 사용하여 대체

null값을 제거할 때는 dropna(subset=["특정컬럼명'], inplace=True)을 사용하여 제거

 

Question 14 각 컬럼의 데이터수, 데이터타입을 한번에 확인하라

df.info()

 

 

Question 15 각 수치형 변수의 분포(사분위, 평균, 표준편차, 최대 , 최소)를 확인하라

df.describe()

 

Question 16 거주인구 컬럼의 값들을 출력하라

df['거주인구']

 

Question 17 평균 속도 컬럼의 4분위 범위(IQR) 값을 구하여라

df['평균 속도'].quantile(0.75) -df['평균 속도'].quantile(0.25)

 

Question 18 읍면동명 컬럼의 유일값 갯수를 출력하라

nunique()는 데이터에 고유값들의 수를 출력해주는 함수.

df['읍면동명'].nunique()

nunique()는 데이터에 고유값들의 수를 출력해주는 함수.

 

value_counts()는 값별로 데이터의 수를 출력해주는 함수.

 

Question 19 읍면동명 컬럼의 유일값을 모두 출력하라

unique()는 데이터에 고유값들이 어떠한 종류들이 있는지 알고 싶을때 사용하는 함수.

df['읍면동명'].unique()

 

 

반응형
Comments