일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 최종 프로젝트
- SQLD
- 머신러닝
- 팀프로젝트
- 크롤링
- SQL
- 데이터 분석
- da
- 히트맵
- 전처리
- jd
- 군집화
- data analyst
- GA4
- lambda
- Chat GPT
- If
- streamlit
- 프롬프트 엔지니어링
- pandas
- 클러스터링
- cross join
- 서브쿼리
- 프로젝트
- 기초통계
- 기초프로젝트
- 시각화
- Python
- 데이터분석
- 태블로
- Today
- Total
목록BeautifulSoup (3)
세조목
크롤링 최종 프로젝트에서 비정형 데이터 분석을 하기위해 크롤링 학습을 진행하고있습니다. 금일은 selenium이라는 라이브러리를 학습했는데 beautifulsoup와 selenium의 차이점은 selenium은 동적 데이터 수집이 가능하다는 점입니다. 예를 들어 스크롤을 내리면 내용이 추가되는 페이지가 있다고했을때 beautifulsoup는 현재 출력되고있는 페이지 內 데이터만을 수집할 수 있지만 selenium은 스크롤을 자동으로 내리면서 새롭게 추가되는 데이터들도 수집할 수 있습니다. from selenium import webdriver from bs4 import BeautifulSoup import time url = "" driver = webdriver.Chrome() driver.get(u..
크롤링 최종 프로젝트때 활용할 비정형 데이터 분석을 위해 크롤링을 학습하고있으며 현재까지는 requests와 beautifulsoup 라이브러리만을 활용하고 있습니다. 여러가지 예제들을 풀어보면서 학습 중인데 크롤링에 활용되는 코드의 전체 틀은 동일합니다. 그 중 별도로 기록해야겠다싶은 부분을 정리해보려고합니다. 여러개의 클래스에 해당하는 내용 추출하는 방법 1. soup.select("클래스명, 클래스명") 2. soup.find_all(class_=["클래스명", "클래스명"]) strip() 함수 활용 html 코드 작성시 "시차출근제 도입하면 1조3300억원 아낀다" 위와같이 공백이 있기때문에 크롤링 했을때 공백도 함께 끌려온다. 이때 strip()함수를 쓰면 공백을 제거할 수 있다. li태그 관..
크롤링 최종 프로젝트에서 비정형 데이터를 다뤄보기위해 현재 크롤링을 학습하고 있습니다. 크롤링에 사용되는 python 라이브러리는 requests, beautifulsoup, selenium 크게 세가지입니다. 금일은 requests와 beautifulsoup만을 가지고서 학습을 진행했습니다. import requests from bs4 import BeautifulSoup base_url = "https://search.naver.com/search.naver?sm=tab_hty.top&ssc=tab.blog.all&query=" keyword = input("검색어를 입력하세요 : ") url = base_url + keyword print(url) headers = { "User-Agent" : "..