일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- If
- 서브쿼리
- 기초프로젝트
- 데이터분석
- 데이터 분석
- streamlit
- 프로젝트
- GA4
- pandas
- 머신러닝
- 히트맵
- 클러스터링
- SQLD
- jd
- data analyst
- 태블로
- 기초통계
- cross join
- 팀프로젝트
- 프롬프트 엔지니어링
- lambda
- Python
- 군집화
- 크롤링
- da
- Chat GPT
- 최종 프로젝트
- 전처리
- SQL
- 시각화
- Today
- Total
목록전체 글 (328)
세조목
크롤링 최종 프로젝트에서 비정형 데이터 분석을 하기위해 크롤링 학습을 진행하고있습니다. 금일은 selenium이라는 라이브러리를 학습했는데 beautifulsoup와 selenium의 차이점은 selenium은 동적 데이터 수집이 가능하다는 점입니다. 예를 들어 스크롤을 내리면 내용이 추가되는 페이지가 있다고했을때 beautifulsoup는 현재 출력되고있는 페이지 內 데이터만을 수집할 수 있지만 selenium은 스크롤을 자동으로 내리면서 새롭게 추가되는 데이터들도 수집할 수 있습니다. from selenium import webdriver from bs4 import BeautifulSoup import time url = "" driver = webdriver.Chrome() driver.get(u..
크롤링 최종 프로젝트때 활용할 비정형 데이터 분석을 위해 크롤링을 학습하고있으며 현재까지는 requests와 beautifulsoup 라이브러리만을 활용하고 있습니다. 여러가지 예제들을 풀어보면서 학습 중인데 크롤링에 활용되는 코드의 전체 틀은 동일합니다. 그 중 별도로 기록해야겠다싶은 부분을 정리해보려고합니다. 여러개의 클래스에 해당하는 내용 추출하는 방법 1. soup.select("클래스명, 클래스명") 2. soup.find_all(class_=["클래스명", "클래스명"]) strip() 함수 활용 html 코드 작성시 "시차출근제 도입하면 1조3300억원 아낀다" 위와같이 공백이 있기때문에 크롤링 했을때 공백도 함께 끌려온다. 이때 strip()함수를 쓰면 공백을 제거할 수 있다. li태그 관..
크롤링 최종 프로젝트에서 비정형 데이터를 다뤄보기위해 현재 크롤링을 학습하고 있습니다. 크롤링에 사용되는 python 라이브러리는 requests, beautifulsoup, selenium 크게 세가지입니다. 금일은 requests와 beautifulsoup만을 가지고서 학습을 진행했습니다. import requests from bs4 import BeautifulSoup base_url = "https://search.naver.com/search.naver?sm=tab_hty.top&ssc=tab.blog.all&query=" keyword = input("검색어를 입력하세요 : ") url = base_url + keyword print(url) headers = { "User-Agent" : "..
금일은 최종 프로젝트 관련 회의 진행 및 튜터님과의 질의응답 시간을 가졌습니다. 사전캠프 팀원들과 함께 최종 프로젝트를 진행했으면 해서 현재 해당 멤버들과 주제 구상 및 고민을 하고있는데 저희가 한 팀이 되어 최종 프로젝트를 진행할 수 있다면 선정할 주제는 '외식업종 상권 및 입지 선택을 위한 행정동 & 업종별 매출 예측 모델링' 입니다. 어떠한 데이터를 사용할지에 대해서 얘기 나눴고, 해당 데이터들을 가지고서 어떻게 데이터셋을 구상할 지, 어떤 머신러닝 모델을 활용할 수 있을지에 대해 함께 고민했습니다. Q.1 데이터셋 관련 1) 대용량 데이터라고 불리려면 '행의 개수'가 몇 개 정도 됐을 때 대용량 데이터라고 할 수 있나요? 2) 대용량 데이터셋을 구축한다고했을때 데이터셋을 하나로, n개로 나누는 것..
3월의 둘째주가 끝이 났습니다. 작년 12월 18일에 내일배움캠프가 시작됐는데 어느덧 한 달하고 보름 정도만을 남겨놓고 있네요. 이제 첫걸음을 뗀 것만 같은 느낌입니다. 가야할 길이 멀지만 혼자서 더듬거리며 나아갈 수 있다는 느낌이 들어서 마음이 그렇게까지 불안하지만은 않습니다. 금주는 실전 프로젝트 마무리와 Python pandas 라이브러리 학습을 위주로 진행했습니다. 실전 프로젝트 2024.03.11 - [데이터 분석 공부/프로젝트] - 실전 프로젝트(9일차~12일차) 2024.03.13 - [데이터 분석 공부/프로젝트] - 실전 프로젝트 회고 Python(pandas 라이브러리) 2024.03.11 - [데이터 분석 공부/Python] - Python - shape속성 & loc와 iloc의 차이..
Python 2024.01.06 - [데이터 분석 공부/Python] - PYTHON 정리(CLASS)(24.01.06) PYTHON 정리(CLASS)(24.01.06) CLASS CLASS란 무엇일까? CLASS ≒ 빵틀 이라고 이해하면 쉽다. 빵틀에 밀가루와 팥을 넣고 구우면 빵이 나오는데 어떤 재료를 넣느냐에따라서 다양한 빵들이 나온다. CLASS도 마찬가지이다. CLASS의 경 eyeoftheworld1209.tistory.com 최종 프로젝트때 웹 스크레핑을 활용해야해서 금일은 웹 스크래핑 강의를 수강했습니다. 본격적인 스크래핑 강의 설명에 앞서 python기초에 대한 내용이 나왔는데 그 중 기억이 가물가물해져가는 클래스에 대한 내용이 나와서 금년 1월 6일에 정리해둔 포스팅을 참고하면서 복습하..
금일은 이커머스 머신러닝 강의를 수강했습니다. Decision Tree 챕터인데 본격적인 머신러닝에 들어가기에 앞서 데이터 전처리 단계에 해당하는 내용들을 학습했습니다. 기존에 정리해두었던 내용에 금일 학습한 내용들을 추가했습니다. 2024.01.24 - [데이터 분석 공부/Python] - Python 정리(데이터 전처리)(indexing, 컬럼 관련, 데이터 확인(info, describe, isna, notna, fillna, dtype), astype, 데이터 병합(merge, concat, join), groupby, 피벗, sort_values)(24.01.24) Python 정리(데이터 전처리)(indexing, 컬럼 관련, 데이터 확인(info, describe, isna, notna, f..
Python 2024.03.13 - [데이터 분석 공부/Python] - Python - Pandas Series, Dataframe 만들기 & assign 메서드 Python - Pandas Series, Dataframe 만들기 & assign 메서드 df = df.assign(age2 = df['age'] +1,\ age3 = lambda df_ : df_['age2'] + 1) Series, Dataframe 만들기 Pandas는 Series와 Dataframe 두 개의 자료형을 제공한다. 아래와 같이 코드를 작성하여 Series와 Dataframe을 만들 수 있다. # Se eyeoftheworld1209.tistory.com 심화프로젝트 2024.03.13 - [데이터 분석 공부/프로젝트] -..
df = df.assign(age2 = df['age'] +1,\ age3 = lambda df_ : df_['age2'] + 1) Series, Dataframe 만들기 Pandas는 Series와 Dataframe 두 개의 자료형을 제공한다. 아래와 같이 코드를 작성하여 Series와 Dataframe을 만들 수 있다. # Series df = pd.Series(data = ['john', 1], index=['name', 'age']) → 'data'와 'index'는 생략 가능 # Dataframe df = pd.DataFrame({'name' : ['a', 'b', 'c'], 'age' : [11, 35, 12]}) 데이터프레임을 만들때 index명을 별도로 지정해주고싶다면 아래와같이 입력해주면..
어제부로 실전 프로젝트가 마무리되었습니다. 정말 좋은 팀원들을 만난 덕분에 즐거운 마음으로, 성장한다는 느낌을 받으면서 프로젝트를 진행할 수 있었습니다. 박삼이 팀 GitHub https://github.com/gabrietofu/B01_Data_Quality_Check GitHub - gabrietofu/B01_Data_Quality_Check: 이커머스 데이터 품질 검사 프로젝트 이커머스 데이터 품질 검사 프로젝트. Contribute to gabrietofu/B01_Data_Quality_Check development by creating an account on GitHub. github.com Power Point https://docs.google.com/presentation/d/e/2PA..