일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 전처리
- 머신러닝
- da
- If
- 클러스터링
- 데이터 분석
- 크롤링
- SQLD
- 프롬프트 엔지니어링
- cross join
- 최종 프로젝트
- 군집화
- 기초통계
- Python
- pandas
- 태블로
- 데이터분석
- streamlit
- data analyst
- SQL
- 히트맵
- 기초프로젝트
- Chat GPT
- 시각화
- jd
- 프로젝트
- 팀프로젝트
- lambda
- 서브쿼리
- GA4
- Today
- Total
목록전체 글 (328)
세조목
머신러닝 2024.02.01 - [데이터 분석 공부/머신러닝] - 머신러닝 - 전처리(인코딩, 스케일링)(24.02.01) 머신러닝 - 전처리(인코딩, 스케일링)(24.02.01) 전처리(인코딩 & 스케일링) 인코딩이란 모델이 처리하기 쉬운 값으로 기존 값을 바꾸는 것을 의미한다. 범주형 데이터(Encoding) 레이블 인코딩(Label Encoding) One-Hot Encoding 수치형 데이터(Scaling) 표준 eyeoftheworld1209.tistory.com 2024.02.01 - [데이터 분석 공부/머신러닝] - 머신러닝 - 데이터 분리(feat. 과적합)(24.02.01) 머신러닝 - 데이터 분리(feat. 과적합)(24.02.01) 1. 과(대)적합 과대적합이란 데이터를 너무 과도하게..
1. 과(대)적합과대적합이란 데이터를 너무 과도하게 학습한 나머지 해당 문제만 잘 맞추고 새로운 데이터를 제대로 예측 혹은 분류하지 못하는 현상 을 의미한다.위 이미지의 첫번째 경우가 과(대)적합의 예시인데 주어진 데이터를 너무 과도하게 학습한 결과 위 예시와 같은 경우의 문제는 잘 맞추지만 나머지 문제들은 예측(or 분류)할 수 없게된다. 과(대)적합이 있다면 과(소)적합도 있을텐데 위 이미지의 가장 오른쪽 예시가 과(소)적합에 해당한다. 과(대)적합이 주어진 데이터를 너무 과도하게 학습한 결과라면 과(소)적합은 반대로 주어진 데이터를 충분히 학습하지 못함에 따른 결과다. 데이터가 충분하지 않거나, 모형이 지나치게 단수할 때 이런 과(소)적합이 발생한다. 2. 데이터 분할어떻게 이 문제를 해결할 수 있..
전처리(인코딩 & 스케일링) 인코딩이란 모델이 처리하기 쉬운 값으로 기존 값을 바꾸는 것을 의미한다. 범주형 데이터(Encoding) 레이블 인코딩(Label Encoding) One-Hot Encoding 수치형 데이터(Scaling) 표준화(Standardization) 정규화(Normalization) 로버스트 스케일링(Robus Scaling) 범주형 데이터(Encoding) 레이블 인코딩(Lable Encoding) One-Hot Encoding 1. 레이블 인코딩(Label Encoding) 먼저 레이블 인코딩이다. 레이블 인코딩은 간단하게 기존값을 '수치형'으로 변환시켜줘서 모델이 처리하기 쉽게 만들 수 있다. 다만 변경된 값의 순서간 크기에 의미가 부여되어 모델이 잘못 해석할 여지가 있다는..
join을 할 때 지금까지 같은 이름의 컬럼을 기준으로만 join 시킬 수 있다고 생각했다. id name department managerId 111 John A null 112 Kelly A 111 113 Max A 111 114 Carter A 111 115 Hwaquin B 111 예를 들어 위와 같은 테이블(테이블명 = example)을 self join 한다고했을때 example e1 join example e2 on e1.id = e2.id 위와 같이 코드를 작성해야한다고 생각한 것이다. 그러나 꼭 컬럼명이 같을 필요는 없었다. 컬럼명이 다르더라도 같은 속성값들을 공유하고 있다면 join시키는데 문제가 없다. 위 예시 테이블을 id컬럼과 managerId컬럼을 기준으로 join시킨다면 아래와..
머신러닝 금일도 어제에 이어 머신러닝을 학습하고있습니다. 금일은 train data와 test data를 나누어서 결측치, 이상값을 제거하고 인코딩한 후 train data를 지도학습시켜 학습시킨 모델을 test data에 적용시켜 정확도를 확인해보는 연습을 했습니다. 아직 뭐가 뭔지 잘 모르겠지만 들어만봤던 머신러닝이라는 것이 이런 것이고, 이렇게 동작하는구나를 알 수 있어서 재밌었습니다. 금일 학습했던 내용은 내일 다시 한번 학습하고 나머지 머신러닝 강의들도 마저 학습할 예정입니다.
1. 데이터 불러오기 titanic_df = pd.read_csv('경로', encoding = 'utf-8') * encoding의 경우 필요한 경우에만 2. 독립변수, 종속변수 지정 X = titanic_df[['Fare']] >> 클래스 종류 [0 1] 독립변수 갯수 1 들어간 독립변수(x)의 이름 ['Fare'] 가중치 [[0.01519617]] 바이어스 [-0.94129222] 7. 분류평가지표(정확도 & f1 score) 확인하기 from sklearn.metrics import accuracy_score, f1_score def get_metrics(true, pred): print('정확도', accuracy_score(true, pred)) print('f1_score', f1_score..
단순선형회귀 1. LinearRegression 함수 가져오기 from sklearn.linear_model import LinearRegression 2. 독립변수, 종속변수 준비 X = body_df[['weight']] y = body_df[['height']] 3. 학습시키기 model_lr = LinearRegression() model_lr.fit(X=X, y=y) 4. 가중치 & 편향 구하고 변수에 넣기 w1 = model_lr.coef_[0][0] >> array([[184.40385835], [179.22878362], [180.09129608], [188.71642061], [186.99139571], [161.97853455], [183.54134589], [166.29109682],..
머신러닝 2024.01.31 - [데이터 분석 공부/Python] - Python 정리(머신러닝-단순&다중선형회귀)(24.01.30) Python 정리(머신러닝-단순&다중선형회귀)(24.01.30) 단순선형회귀 1. LinearRegression 함수 가져오기 from sklearn.linear_model import LinearRegression 2. 독립변수, 종속변수 준비 X = body_df[['weight']] y = body_df[['height']] 3. 학습시키기 model_lr = LinearRegression() model_lr.fit( eyeoftheworld1209.tistory.com 이번 주차는 '머신 러닝' 학습 주차입니다. 금일은 '단순&다중 선형회귀'와 '로지스틱 회귀'를 ..
금일은 어제에 있어 기초통계학 공부를 진행했습니다. 필기하면서 강의를 듣다보니 강의 시간 자체는 1시가 40분이었으나 금일 계획했던 분량을 모두 듣기까지 4시간 정도 소요되었습니다. 대학교 교양과목으로 있었던 통계를 싫어하지 않았던(오히려 좋아했던) 저이기에 기초통계학 공부도 크게 스트레스 받지 않고 즐겁게 하고 있습니다. 참고로 금일 학습했던 내용들을 키워드로 정리하면 아래와 같습니다. #독립변수 #종속변수 #통제 변수 #ANOVA #F-Value #사후검정 아직 추가로 학습할 기초 통계학 지식들이 남아있는데 금주는 내배캠 커리큘럼상 머신러닝을 학습하는 주차라서 내일부터는 머신러닝 학습을 우선적으로 할 예정입니다. SQLD 역시도 3월에 시험이 잡혔기때문에 일단 하루에 한 주차씩 수강해서 완강해놓고(현..
기초 통계 금일은 기초통계 공부를 진행했습니다. 아무래도 내배캠에서 제공한 기초통계 강의의 경우 기초통계에 어떠한 개념들이 있는지 한번 훑는 정도에서 그쳤기때문에 한번 더 공부할 필요성이 있었습니다. 강의는 현재 아래 유튜브 채널에서 듣고있습니다. https://www.youtube.com/@SapientiaaDei Sapientia a Dei 통알못을 위한 통계튜브 - 통통튜브 - 통알못(통계를 알지 못하는 사람)을 위한 통계튜브입니다. 이제 책도 웹/모바일에서 보실 수 있습니다. 통알못을 위한 기초통계 1권: https://who4u78.github.io/book www.youtube.com '통알못을 위한 통계튜브'라는 채널 소개에서 알수있듯이 단순히 '공식을 암기해라'라고 얘기하는 것이 아니라 개..