일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 데이터 분석
- SQLD
- GA4
- 프롬프트 엔지니어링
- 기초통계
- 시각화
- SQL
- 전처리
- da
- Chat GPT
- 머신러닝
- data analyst
- 팀프로젝트
- 히트맵
- pandas
- 서브쿼리
- streamlit
- 군집화
- 최종 프로젝트
- jd
- 크롤링
- cross join
- 태블로
- 데이터분석
- lambda
- Python
- If
- 프로젝트
- 클러스터링
- 기초프로젝트
Archives
- Today
- Total
세조목
머신러닝 심화 복습(데이터 구조, EDA 시각화, 기술 통계, 이상치)(24.05.06) 본문
DATA ARCHITECTURES
※ ETL(Extract Transform Load / 추출, 변환, 로드)
EDA 시각화
1. countplot
범주형 데이터의 빈도 수 시각화
sns.countplot(x='day', data=tips)
x축 : 범주형 데이터
범주형 데이터 → day
2. barplot
sns.barplot(x='sex', y='tip', data=tips)
x축 : 범주형 데이터
y축 : 수치형 데이터
범주형 데이터 → sex
수치형 데이터 → tip
※ 수치형 데이터의 평균을 비교함
3. boxplot
sns.boxplot(x='time', y='total_bill', data=tips)
x축 : 범주형, 수치형 데이터
y축 : 수치형 데이터
범주형 데이터 → time
수치형 데이터 → total_bill
4. histogram
수치형 데이터의 빈도 수 시각화
sns.histplot(data=tips, x='total_bill')
x축 : 수치형
수치형 데이터 → total_bill
5. scatter plot
sns.scatterplot(x='total_bill', y='tip', data=tips)
x축 : 수치형 데이터
y축 : 수치형 데이터
6. pair plot
sns.pairplot(data=tips)
전체 숫자형 데이터(범주, 수치 모두 포함)에 대한 시각화(범주형 데이터는 없음)
기술 통계
※ top : 최빈값
전처리
1. 이상치
■ ESD 활용
ESD(Extreme Studentized Deviation)
- ESD : 데이터가 정규분포를 따른다고 했을 때 평균에서 표준편차의 3배 이상 떨어진 값
mean = np.mean(tips_df['total_bill'])
std = np.std(tips_df['total_bill'])
upper_limit = mean + 3*std
lower_limit = mean - 3*std
■ IQR 활용
IQR(Inter Quantile Range)
- IQR : 3분위수에서 1분위수를 뺀 값
- 1분위, 3분위수에서 각각 1.5IQR만큼 작고 큰 지점이 이상치 기준이 됨
mean = np.mean(tips_df['total_bill'])
std = np.std(tips_df['total_bill'])
q1 = tips_df['total_bill'].quantile(0.25)
q3 = tips_df['total_bill'].quantile(0.75)
iqr = q3-q1
upper_limit = q3 + 1.5iqr
lower_limit = q1 - 1.5iqr
'데이터 분석 공부 > 머신러닝' 카테고리의 다른 글
머신러닝 심화 복습(과적합)(24.05.07) (0) | 2024.05.07 |
---|---|
머신러닝 심화 복습(결측치, 인코딩&스케일링)(24.05.07) (0) | 2024.05.07 |
머신러닝 기초 복습(로지스틱 회귀)(24.05.03) (0) | 2024.05.03 |
머신러닝 기초 복습(선형 회귀)(24.05.02) (1) | 2024.05.02 |
머신러닝 - 클러스터링(계층적 군집화) (0) | 2024.04.02 |