일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- cross join
- 프로젝트
- 전처리
- lambda
- 팀프로젝트
- 히트맵
- 군집화
- 데이터분석
- 클러스터링
- pandas
- 기초프로젝트
- jd
- streamlit
- 시각화
- GA4
- 크롤링
- 머신러닝
- Python
- Chat GPT
- If
- SQL
- SQLD
- 프롬프트 엔지니어링
- 기초통계
- da
- 데이터 분석
- data analyst
- 서브쿼리
- 최종 프로젝트
- 태블로
- Today
- Total
세조목
Python 정리(데이터 카운팅 - count, size, value_counts, unique, nunique)(24.02.07) 본문
Python 정리(데이터 카운팅 - count, size, value_counts, unique, nunique)(24.02.07)
세조목 2024. 2. 7. 20:43
위와 같은 시리즈 a가 있다.
1. 테이블명.count()
count는 데이터의 전체 개수를 세아리는 함수다.
시리즈 a에 속해있는 전체 데이터의 개수는 4개이므로
숫자 4가 출력된다.
데이터프레임의 경우 아래와 같이 코드를 입력하면
해당 컬럼에 속한 속성값들의 개수만을 counting할 수 있다.
테이블명['컬럼명'].count()
2. 테이블명 .Size
count와 size모두 속성값의 개수를 세아린다는 점에서는 동일하지만
count는 결측치를 제외하고서, size는 결측치를 포함하고서 counting한다는 차이점과
count는 뒤에 소괄호를 넣고, size는 소괄호를 넣지 않는다는 차이점을 가진다.
3. 테이블명.value_counts()
지정한 열이나 행의 개수(빈도수)를 구해주는 메소드다.
만약 아래와 같은 시리즈가 있다고했을때
value_counts()를 하면 'Max'와 'Tom', 그리고 'Sarah'가
몇 번 나오는지를 확인할 수 있다.
판다스 시리즈와 데이터프레임에서 모두 사용 가능하다.
4. 테이블명.unique()
unique는 고유값으로 어떠한 데이터들이 있는지를 확인할 수 있는 함수다.
a 시리즈의 고유한 값은 Max, Tom, Sarah였기때문에
해당 값들이 출력되는 것을 확인할 수 있다.
5. 테이블명.nunique()
nunique는 고유값의 '개수'를 확인할 수 있는 함수다.
시리즈 a의 경우 고유값이 Max, Tom, Sarah 세가지이기때문에
3이 출력되는 것을 확인할 수 있다.
※ value_counts()와 nunique()의 차이점이라고한다면
value_counts()는 중복값을 포함하여 특정 행, 열의 개수를 count하는 것이고,
nunique()는 중복값을 제외한 고유값의 개수만을 count하는 것이다.
'데이터 분석 공부 > Python' 카테고리의 다른 글
Python - shape속성 & loc와 iloc의 차이 (0) | 2024.03.11 |
---|---|
Python 예제(3진법 뒤집기) (0) | 2024.02.26 |
Python 정리(replace, shape, enumerate)(24.02.03) (0) | 2024.02.03 |
Python 정리(데이터 시각화)(24.01.25) (1) | 2024.01.25 |
Python 정리(새로운 컬럼 만들기 = assign, 날짜 타입으로 변경 = pd.to_datetime, 요일을 숫자로 추출 = dt.weekday)(24.01.25) (1) | 2024.01.25 |