일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 기초프로젝트
- 프로젝트
- 데이터 분석
- GA4
- 태블로
- 프롬프트 엔지니어링
- 머신러닝
- lambda
- 최종 프로젝트
- data analyst
- 기초통계
- If
- SQLD
- jd
- da
- Chat GPT
- cross join
- 전처리
- 데이터분석
- 서브쿼리
- 군집화
- 히트맵
- 시각화
- Python
- 크롤링
- 팀프로젝트
- 클러스터링
- pandas
- SQL
- streamlit
- Today
- Total
목록크롤링 (26)
세조목

크롤링 최종 프로젝트때 활용할 비정형 데이터 분석을 위해 크롤링을 학습하고있으며 현재까지는 requests와 beautifulsoup 라이브러리만을 활용하고 있습니다. 여러가지 예제들을 풀어보면서 학습 중인데 크롤링에 활용되는 코드의 전체 틀은 동일합니다. 그 중 별도로 기록해야겠다싶은 부분을 정리해보려고합니다. 여러개의 클래스에 해당하는 내용 추출하는 방법 1. soup.select("클래스명, 클래스명") 2. soup.find_all(class_=["클래스명", "클래스명"]) strip() 함수 활용 html 코드 작성시 "시차출근제 도입하면 1조3300억원 아낀다" 위와같이 공백이 있기때문에 크롤링 했을때 공백도 함께 끌려온다. 이때 strip()함수를 쓰면 공백을 제거할 수 있다. li태그 관..
크롤링 최종 프로젝트에서 비정형 데이터를 다뤄보기위해 현재 크롤링을 학습하고 있습니다. 크롤링에 사용되는 python 라이브러리는 requests, beautifulsoup, selenium 크게 세가지입니다. 금일은 requests와 beautifulsoup만을 가지고서 학습을 진행했습니다. import requests from bs4 import BeautifulSoup base_url = "https://search.naver.com/search.naver?sm=tab_hty.top&ssc=tab.blog.all&query=" keyword = input("검색어를 입력하세요 : ") url = base_url + keyword print(url) headers = { "User-Agent" : "..