일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- lambda
- 시각화
- streamlit
- 군집화
- data analyst
- 최종 프로젝트
- GA4
- If
- 클러스터링
- 크롤링
- 머신러닝
- 전처리
- SQLD
- 데이터분석
- jd
- pandas
- 기초프로젝트
- Python
- 팀프로젝트
- SQL
- 서브쿼리
- 프로젝트
- 프롬프트 엔지니어링
- 태블로
- 기초통계
- 히트맵
- Chat GPT
- da
- 데이터 분석
- cross join
- Today
- Total
목록클러스터링 (14)
세조목
최종 프로젝트 20일차입니다. 전일 클러스터링 분석을 위한 기초 작업을 모두 마쳐놓았습니다. 금일 진행했던 사항은 두 가지입니다. 군집 개수 정하기 컬럼 제거하면서 군집 결과 확인하기 군집 개수 정하기 우선 군집 개수를 먼저 정해보았습니다. elbow plot과 실루엣 계수를 기준으로 판단을 내렸는데요, 어제 진행했던 표준화 작업을 금일 두 가지 버전으로 다시 한 번 진행했습니다. 하나는 Review_counts, Review_score, slope만 진행하는 방식이고, 나머지 하나는 sentiment를 제외한 모든 컬럼을 진행하는 방식입니다. sentiment의 경우 어짜피 0과 1 둘 중 하나의 값으로만 이루어져있기 때문에 표준화를 진행할 필요가 없었는데요, Review_counts, Review_s..
최종 프로젝트 2024.04.17 - [데이터 분석 공부/프로젝트] - 최종 프로젝트 19일차(24.04.17) 최종 프로젝트 19일차(24.04.17) 최종 프로젝트 19일차입니다. 금일은 어제부터 시작된 특성 및 긍/부정 점수 검토 작업을 마무리했습니다. 어제 퇴실하기 전 팀원들과 얘기한건 이렇게 하다가는 시간이 너무 많이 소요되니 '가 eyeoftheworld1209.tistory.com 최종 프로젝트 19일차입니다. 드디어 클러스터링 작업에 들어갔습니다. 자세한 내용은 위 포스팅에 정리해두었으며 금일 시간 관계상 오늘 진행했던 내용 전부를 작성하지는 못했습니다. 나머지 내용은 익일 마저 작성 예정입니다.
최종 프로젝트 19일차입니다. 금일은 어제부터 시작된 특성 및 긍/부정 점수 검토 작업을 마무리했습니다. 어제 퇴실하기 전 팀원들과 얘기한건 이렇게 하다가는 시간이 너무 많이 소요되니 '가장 오류값이 많은 bread와 beverage 컬럼에 대한 값만 확인하자' 였습니다. 오늘 오전 9시까지 완성본을 제출하기로 약속했기때문에 새벽 4시 30분에 일어나서 일과를 시작했고, 6시 30분부터 작업을 시작했습니다. 다행히 9시까지 팀원 모두 자료를 제출해주어서 제 때 데이터를 취합할 수 있었습니다. 그렇게 해서 완성된 데이터셋을 가지고서 튜터님들께 어떤 클러스터링 모델을 사용하는 것이 좋을지에 대해 질문드렸습니다. 확인 결과 저희 데이터셋에는 K-Means++ 모델이 적합했습니다. 처음에는 저희가 가지고 있는 ..
1. 계층적 군집화 상향식 군집화(일반적임) 하향식 군집화 장점 군집의 갯수를 정해줄 필요가 없다. 군집 간 계층적 관계를 찾아낼 수 있다. 방법 Single Linkage : 두 군집 사이 최소 거리 이용 Complete Linkage : 두 군집 사이 최대 거리 이용 Average Linkage : 포인트와 포인트 사이 모든 거리의 평균 Centroid Linkage : 각 군집의 centroid(무게 중심) 값 사이 거리 Ward Linkage(가장 많이 사용되며 계층적 군집화 라이브러리 기본값으로 지정되어있음) 클러스터 내 각각의 centroid와 거리의 제곱합(SSE) 계산 두 클러스터를 하나의 군집으로 만들었을 때의 새로운 평균과의 거리제곱합 계산 그 차이 = Ward Distance / 이 ..