일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 데이터분석
- If
- 머신러닝
- 프롬프트 엔지니어링
- 클러스터링
- 군집화
- streamlit
- 프로젝트
- 서브쿼리
- cross join
- Chat GPT
- data analyst
- 히트맵
- 전처리
- 최종 프로젝트
- SQL
- Python
- 시각화
- jd
- 기초통계
- SQLD
- GA4
- 팀프로젝트
- 데이터 분석
- lambda
- 크롤링
- 기초프로젝트
- 태블로
- da
- pandas
- Today
- Total
목록데이터 분석 공부 (325)
세조목
최종 프로젝트 금일은 최종 프로젝트 팀이 발표되는 날이었습니다. 희망하는 멤버들끼리 팀을 구성할 수 있게 해준다는 매니저님의 이야기를 들었던 터라 저와 사전캠프때 함께였던 나머지 세 명의 멤버들끼리 오늘 모여서 최종 프로젝트 주제에 대해서 이야기 나눠보았습니다. 기존에 얘기하고있던 '상권별 시장규모 성장성 예측' 주제의 경우 데이터의 양이 너무 부족하여 진행하기가 어려울 것이라고 판단했습니다. 오늘 이야기 나온 주제는 아래와 같습니다. 1. AI가 채용시장에 미친 영향과 앞으로의 전망 2. 유튜브 인급동 분석 3. 푸바오의 인기가 높아진 이유는? 푸바오 관련 비정형 데이터 수집 4. 청소년은 어떤 고민을 하고 있을까? 고민 해결해줄 수 있는 방안 고민(데이터 활용해서) - '문화체육체험프로그램 정보(문화..
최종 프로젝트 최종 프로젝트가 아직 시작되지는 않았습니다. 하지만 최종 프로젝트를 함께 진행할 가능성이 높은 멤버들과 함께 프로젝트의 주제 및 데이터셋에 대해서는 저번주부터 이야기를 나누고 있는데요, 저희가 현재 생각하고 있는 주제는 상권별 성장성 예측 모델링입니다. 어떠한 데이터셋을 활용하면 좋을지에 대해서 금주 월요일까지 팀원들과 얘기나눴고, 지금은 각자 개인 공부에 집중하고 있는데 저는 어제까지 크롤링 학습에 집중하다가 오늘은 데이터셋 구성에 대해서 고민을 좀 해봤습니다. 저희가 생각하고 있는 데이터들을 위와같은데요, 과연 이 데이터들로 머신러닝 모델링을 할 수 있을까가 걱정이었습니다. 나름대로 구상해본 데이터셋은 아래와 같은데 서울 소재 행정동 426개만을 가지고서는 모델링이 힘들수도 있다는 의견..
크롤링 최종 프로젝트에서 비정형 데이터 분석을 하기위해 크롤링 학습을 진행하고있습니다. 금일은 selenium이라는 라이브러리를 학습했는데 beautifulsoup와 selenium의 차이점은 selenium은 동적 데이터 수집이 가능하다는 점입니다. 예를 들어 스크롤을 내리면 내용이 추가되는 페이지가 있다고했을때 beautifulsoup는 현재 출력되고있는 페이지 內 데이터만을 수집할 수 있지만 selenium은 스크롤을 자동으로 내리면서 새롭게 추가되는 데이터들도 수집할 수 있습니다. from selenium import webdriver from bs4 import BeautifulSoup import time url = "" driver = webdriver.Chrome() driver.get(u..
크롤링 최종 프로젝트때 활용할 비정형 데이터 분석을 위해 크롤링을 학습하고있으며 현재까지는 requests와 beautifulsoup 라이브러리만을 활용하고 있습니다. 여러가지 예제들을 풀어보면서 학습 중인데 크롤링에 활용되는 코드의 전체 틀은 동일합니다. 그 중 별도로 기록해야겠다싶은 부분을 정리해보려고합니다. 여러개의 클래스에 해당하는 내용 추출하는 방법 1. soup.select("클래스명, 클래스명") 2. soup.find_all(class_=["클래스명", "클래스명"]) strip() 함수 활용 html 코드 작성시 "시차출근제 도입하면 1조3300억원 아낀다" 위와같이 공백이 있기때문에 크롤링 했을때 공백도 함께 끌려온다. 이때 strip()함수를 쓰면 공백을 제거할 수 있다. li태그 관..