일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 데이터 분석
- 전처리
- 히트맵
- cross join
- 군집화
- 기초프로젝트
- 서브쿼리
- Chat GPT
- data analyst
- 크롤링
- 클러스터링
- 시각화
- streamlit
- 머신러닝
- da
- lambda
- 팀프로젝트
- jd
- SQLD
- 프롬프트 엔지니어링
- GA4
- 기초통계
- 프로젝트
- 태블로
- 데이터분석
- Python
- SQL
- If
- 최종 프로젝트
- pandas
- Today
- Total
목록데이터 분석 공부/프로젝트 (53)
세조목
최종 프로젝트 13일차입니다. https://teamsparta.notion.site/29b19ca91bd248539e51ed87ff2d5cd1 전처리 진행 상황 | Notion 네이버 : 은평구, 서대문구(완), 마포구(완), 성북구, 종로구, 중구, 동대문구(완), 강남구(완) teamsparta.notion.site 금일 진행 사항들인데요, 간략하게 정리하자면 아래와 같습니다. 페이지별 데이터셋 합치고 전처리 작업 진행 Review_text 컬럼 결측치 제거 '시/구' 단위까지만 존재하는 컬럼 삽입 Review_text 컬럼값의 개행을 띄워쓰기로 대체, Store 컬럼값의 띄워쓰기 제거 프랜차이즈 점포 데이터 제거 구별 데이터셋 합치기 플랫폼별 데이터셋 합치기 가게명 통일 Review_score 결..
최종 프로젝트 11일, 12일차입니다. 토요일인 어제와 오늘은 크롤링 작업을 이어나갔습니다. 10일차 포스팅에서 설명했던 리뷰 텍스트 더보기 이슈 관련해서 코드를 수정한 후 크롤링에 소요되는 시간이 훨씬 늘어났는데 1페이지당 3시간 정도 소요됐습니다. * 리뷰 텍스트 더보기 이슈 관련 내용은 아래 포스팅 참고 2024.04.05 - [데이터 분석 공부/프로젝트] - 최종 프로젝트 10일차(24.04.05) 최종 프로젝트 10일차(24.04.05) 최종 프로젝트 10일차입니다. 오전에 팀원들과 어제 못다한 얘기를 가지고서 회의를 진행했습니다. 특성 정하기 Chat GPT 활용한 리뷰 긍/부정 및 특성별 점수 매기기 샘플 테스트 RAG 이야기 주제 eyeoftheworld1209.tistory.com 총 8..
최종 프로젝트 10일차입니다. 오전에 팀원들과 어제 못다한 얘기를 가지고서 회의를 진행했습니다. 특성 정하기 Chat GPT 활용한 리뷰 긍/부정 및 특성별 점수 매기기 샘플 테스트 RAG 이야기 주제는 위 세가지였습니다. 1. 특성정하기 특성은 네이버 플레이스에서 확인할 수 있는 특성들을 일부 수정 및 추가해서 사용하기로 했습니다. 2. Chat GPT 활용한 리뷰 긍/부정 및 특성별 점수 매기기 샘플 테스트 아직 API 활용법을 숙지하지 못한 상태였기 때문에 1, 2개 정도의 리뷰를 가지고서 프롬프트 창에 요구사항을 입력하고 결과값을 확인했습니다. 확인 결과 GPT 3.5가 확실히 GP4에 비해 정확도가 떨어졌습니다. 3. RAG (Retrieval-Augmented Generation) 기존 LLM..
최종 프로젝트 8일차입니다. 코드를 돌렸을때 자잘한 문제들이 발생해서 금일은 해당 코드들을 수정했습니다. 자잘한 문제들이라 하면 대부분 가게의 데이터를 크롤링할 때는 정상 작동하던 코드가 일부 가게에서는 작동이 안 된다던가 네이버 지도 마지막 페이지의 데이터들은 크롤링이 안 된다던가 하는 문제입니다. 첫 번째 문제의 경우 방법을 찾지 못했으나 해당되는 가게의 수가 5개 이하이기때문에 별도로 수정하지 않고 진행해도 무방할 것 같다는 판단이며 두 번째 문제의 경우 앞전에 작동이 안 되어 수정했던 코드를 다시 기존 코드로 수정하니 작동했습니다. review_nums = driver.find_elements(By.CLASS_NAME,'owAeM') for review_num in review_nums: revi..