세조목

Python 정리(데이터 카운팅 - count, size, value_counts, unique, nunique)(24.02.07) 본문

데이터 분석 공부/Python

Python 정리(데이터 카운팅 - count, size, value_counts, unique, nunique)(24.02.07)

세조목 2024. 2. 7. 20:43

위와 같은 시리즈 a가 있다.

 

1. 테이블명.count()

count는 데이터의 전체 개수를 세아리는 함수다.

시리즈 a에 속해있는 전체 데이터의 개수는 4개이므로

숫자 4가 출력된다.

 

데이터프레임의 경우 아래와 같이 코드를 입력하면

해당 컬럼에 속한 속성값들의 개수만을 counting할 수 있다.

테이블명['컬럼명'].count()

 

2. 테이블명 .Size

count와 size모두 속성값의 개수를 세아린다는 점에서는 동일하지만

count는 결측치를 제외하고서, size는 결측치를 포함하고서 counting한다는 차이점과

count는 뒤에 소괄호를 넣고, size는 소괄호를 넣지 않는다는 차이점을 가진다.

 

3. 테이블명.value_counts()

지정한 열이나 행의 개수(빈도수)를 구해주는 메소드다.

만약 아래와 같은 시리즈가 있다고했을때

value_counts()를 하면 'Max'와 'Tom', 그리고 'Sarah'가

몇 번 나오는지를 확인할 수 있다.

 

판다스 시리즈와 데이터프레임에서 모두 사용 가능하다.

 

4. 테이블명.unique()

unique는 고유값으로 어떠한 데이터들이 있는지를 확인할 수 있는 함수다.

a 시리즈의 고유한 값은 Max, Tom, Sarah였기때문에

해당 값들이 출력되는 것을 확인할 수 있다.

 

5. 테이블명.nunique()

nunique는 고유값의 '개수'를 확인할 수 있는 함수다.

시리즈 a의 경우 고유값이 Max, Tom, Sarah 세가지이기때문에

3이 출력되는 것을 확인할 수 있다.

 

value_counts()와 nunique()의 차이점이라고한다면

value_counts()는 중복값을 포함하여 특정 행, 열의 개수를 count하는 것이고,

nunique()는 중복값을 제외한 고유값의 개수만을 count하는 것이다.