일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- streamlit
- 기초통계
- 프롬프트 엔지니어링
- pandas
- jd
- 프로젝트
- 군집화
- 전처리
- 데이터분석
- data analyst
- 서브쿼리
- SQLD
- 크롤링
- Python
- 클러스터링
- 기초프로젝트
- da
- lambda
- cross join
- 히트맵
- 태블로
- SQL
- 팀프로젝트
- 시각화
- 최종 프로젝트
- GA4
- If
- 데이터 분석
- Chat GPT
- 머신러닝
- Today
- Total
목록데이터 분석 공부 (325)
세조목

1. 과(대)적합과대적합이란 데이터를 너무 과도하게 학습한 나머지 해당 문제만 잘 맞추고 새로운 데이터를 제대로 예측 혹은 분류하지 못하는 현상 을 의미한다.위 이미지의 첫번째 경우가 과(대)적합의 예시인데 주어진 데이터를 너무 과도하게 학습한 결과 위 예시와 같은 경우의 문제는 잘 맞추지만 나머지 문제들은 예측(or 분류)할 수 없게된다. 과(대)적합이 있다면 과(소)적합도 있을텐데 위 이미지의 가장 오른쪽 예시가 과(소)적합에 해당한다. 과(대)적합이 주어진 데이터를 너무 과도하게 학습한 결과라면 과(소)적합은 반대로 주어진 데이터를 충분히 학습하지 못함에 따른 결과다. 데이터가 충분하지 않거나, 모형이 지나치게 단수할 때 이런 과(소)적합이 발생한다. 2. 데이터 분할어떻게 이 문제를 해결할 수 있..

전처리(인코딩 & 스케일링) 인코딩이란 모델이 처리하기 쉬운 값으로 기존 값을 바꾸는 것을 의미한다. 범주형 데이터(Encoding) 레이블 인코딩(Label Encoding) One-Hot Encoding 수치형 데이터(Scaling) 표준화(Standardization) 정규화(Normalization) 로버스트 스케일링(Robus Scaling) 범주형 데이터(Encoding) 레이블 인코딩(Lable Encoding) One-Hot Encoding 1. 레이블 인코딩(Label Encoding) 먼저 레이블 인코딩이다. 레이블 인코딩은 간단하게 기존값을 '수치형'으로 변환시켜줘서 모델이 처리하기 쉽게 만들 수 있다. 다만 변경된 값의 순서간 크기에 의미가 부여되어 모델이 잘못 해석할 여지가 있다는..
join을 할 때 지금까지 같은 이름의 컬럼을 기준으로만 join 시킬 수 있다고 생각했다. id name department managerId 111 John A null 112 Kelly A 111 113 Max A 111 114 Carter A 111 115 Hwaquin B 111 예를 들어 위와 같은 테이블(테이블명 = example)을 self join 한다고했을때 example e1 join example e2 on e1.id = e2.id 위와 같이 코드를 작성해야한다고 생각한 것이다. 그러나 꼭 컬럼명이 같을 필요는 없었다. 컬럼명이 다르더라도 같은 속성값들을 공유하고 있다면 join시키는데 문제가 없다. 위 예시 테이블을 id컬럼과 managerId컬럼을 기준으로 join시킨다면 아래와..

머신러닝 금일도 어제에 이어 머신러닝을 학습하고있습니다. 금일은 train data와 test data를 나누어서 결측치, 이상값을 제거하고 인코딩한 후 train data를 지도학습시켜 학습시킨 모델을 test data에 적용시켜 정확도를 확인해보는 연습을 했습니다. 아직 뭐가 뭔지 잘 모르겠지만 들어만봤던 머신러닝이라는 것이 이런 것이고, 이렇게 동작하는구나를 알 수 있어서 재밌었습니다. 금일 학습했던 내용은 내일 다시 한번 학습하고 나머지 머신러닝 강의들도 마저 학습할 예정입니다.