일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- streamlit
- da
- 크롤링
- 클러스터링
- 군집화
- 프로젝트
- 데이터 분석
- 머신러닝
- 히트맵
- 데이터분석
- jd
- GA4
- 기초통계
- 전처리
- pandas
- 최종 프로젝트
- data analyst
- lambda
- 서브쿼리
- 팀프로젝트
- Chat GPT
- If
- 프롬프트 엔지니어링
- 태블로
- SQLD
- cross join
- 시각화
- Python
- 기초프로젝트
- SQL
- Today
- Total
목록크롤링 (26)
세조목
최종 프로젝트 3일차입니다. 어제에 이어 네이버 맵, 플레이스 크롤링을 시도하고 있습니다. 가게명을 클릭했을때 오른쪽에 표시되는 창에서 페이지 다운까지는 되는 것을 확인했는데 리뷰를 클릭하고 text 부분만 뽑아내는 코드가 실행되지 않고 있습니다. 이것 가지고 10시부터 현재 21시까지 씨름하고있는데 조금씩 나아지고 있는것 같기는한데 그 정도가 크지 않아서 많이 답답합니다. 이번주까지는 어떻게해서든 크롤링 작업을 끝내야해서 마음이 다소 조급한데 일단 내일도 이어서 코드 수정 작업 진행할 예정입니다.
최종 프로젝트 2024.03.27 - [데이터 분석 공부/프로젝트] - 최종 프로젝트 2일차(24.03.27) 최종 프로젝트 2일차(24.03.27) 최종 프로젝트 2일차입니다. 금일은 저희가 어제 선정했던 프로젝트의 주제를 가지고서 어떻게 분석을 해볼지에 대한 이야기를 나눴습니다. 저희가 오늘 고민했던건 '과연 데이터셋을 어떻게 eyeoftheworld1209.tistory.com 최종 프로젝트 2일차였습니다. 어제 선정한 프로젝트 주제를 가지고서 어떻게 분석해볼 수 있을지에 대해 구체적으로 얘기나눴고, 각자 크롤링을 진행했습니다. 자세한 내용은 위 포스팅에 정리해두었습니다.
최종 프로젝트 2일차입니다. 금일은 저희가 어제 선정했던 프로젝트의 주제를 가지고서 어떻게 분석을 해볼지에 대한 이야기를 나눴습니다. 저희가 오늘 고민했던건 '과연 데이터셋을 어떻게 구성해야 클러스터링 모델을 적용시킬 수 있을까' 였습니다. 저희가 생각하고 있는 분석 방법은 리뷰 데이터 크롤링 긍/부정 분석 군집 분석 추천 이렇게 총 네가지인데요, 수집한 데이터들을 n개의 카테고리로 나누어서 데이터셋에 넣는게 맞다라고 생각했습니다. 이 때 위 이미지의 좌측 테이블과같이 특성별 컬럼을 만들어 줄 것인지, 우측 테이블처럼 가장 빈도수가 높은 특성 하나만을 특성 컬럼에 넣을 것인지 에 대해서 고민을 했습니다. 이게 무슨 말이냐 하면 만약 '이 집은 청결하고, 빵도 맛있고, 사장님도 친절한데, 직원들은 불친절해..
크롤링 최종 프로젝트에서 비정형 데이터 분석을 하기위해 크롤링 학습을 진행하고있습니다. 금일은 selenium이라는 라이브러리를 학습했는데 beautifulsoup와 selenium의 차이점은 selenium은 동적 데이터 수집이 가능하다는 점입니다. 예를 들어 스크롤을 내리면 내용이 추가되는 페이지가 있다고했을때 beautifulsoup는 현재 출력되고있는 페이지 內 데이터만을 수집할 수 있지만 selenium은 스크롤을 자동으로 내리면서 새롭게 추가되는 데이터들도 수집할 수 있습니다. from selenium import webdriver from bs4 import BeautifulSoup import time url = "" driver = webdriver.Chrome() driver.get(u..