일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 프롬프트 엔지니어링
- 전처리
- If
- 크롤링
- 프로젝트
- 히트맵
- 팀프로젝트
- Python
- data analyst
- 기초통계
- 태블로
- lambda
- 클러스터링
- streamlit
- 데이터 분석
- 기초프로젝트
- cross join
- da
- GA4
- pandas
- 군집화
- SQLD
- 데이터분석
- SQL
- Chat GPT
- 시각화
- jd
- 최종 프로젝트
- 머신러닝
- 서브쿼리
- Today
- Total
목록requests (2)
세조목
크롤링 최종 프로젝트때 활용할 비정형 데이터 분석을 위해 크롤링을 학습하고있으며 현재까지는 requests와 beautifulsoup 라이브러리만을 활용하고 있습니다. 여러가지 예제들을 풀어보면서 학습 중인데 크롤링에 활용되는 코드의 전체 틀은 동일합니다. 그 중 별도로 기록해야겠다싶은 부분을 정리해보려고합니다. 여러개의 클래스에 해당하는 내용 추출하는 방법 1. soup.select("클래스명, 클래스명") 2. soup.find_all(class_=["클래스명", "클래스명"]) strip() 함수 활용 html 코드 작성시 "시차출근제 도입하면 1조3300억원 아낀다" 위와같이 공백이 있기때문에 크롤링 했을때 공백도 함께 끌려온다. 이때 strip()함수를 쓰면 공백을 제거할 수 있다. li태그 관..
크롤링 최종 프로젝트에서 비정형 데이터를 다뤄보기위해 현재 크롤링을 학습하고 있습니다. 크롤링에 사용되는 python 라이브러리는 requests, beautifulsoup, selenium 크게 세가지입니다. 금일은 requests와 beautifulsoup만을 가지고서 학습을 진행했습니다. import requests from bs4 import BeautifulSoup base_url = "https://search.naver.com/search.naver?sm=tab_hty.top&ssc=tab.blog.all&query=" keyword = input("검색어를 입력하세요 : ") url = base_url + keyword print(url) headers = { "User-Agent" : "..