세조목

최종 프로젝트 19일차(24.04.16) 본문

데이터 분석 공부/프로젝트

최종 프로젝트 19일차(24.04.16)

세조목 2024. 4. 16. 20:59

최종 프로젝트 18일차입니다.

 

특성 및 긍/부정 점수 도출 작업 마무리

금일 오전 중 드디어 gpt를 활용한 특성 및 긍/부정 점수 도출 작업이 끝났습니다.

특성 및 긍/부정 점수 데이터셋

점수 데이터셋이 완성된 후 곧바로 기존 리뷰 데이터셋과 merge시켰습니다.

joongu_0_to_7000 = pd.concat([joongu_1000_merge, joongu_7000_merge])
joongu_0_to_12000 = pd.concat([joongu_0_to_7000, joongu_12000_merge])
joongu_0_to_13000 = pd.concat([joongu_0_to_12000, joongu_13000_merge])
joongu_0_to_14000 = pd.concat([joongu_0_to_13000, joongu_14000_merge])
joongu_0_to_15276 = pd.concat([joongu_0_to_14000, joongu_15000_merge])

한 번에 gpt api를 돌렸다가 혹시나 오류가 발생할 수도 있을 것 같아서

여러 번 나눠서 작업했습니다.

최종 결과 데이터셋의 데이터 수는 총 15,276개였습니다.

데이터를 15,000개 정도만 가지고서 진행하는 이유는 어제 포스팅에서도 언급했지만

비용상의 문제  때문입니다.

다행히 이 정도 데이터 셋으로도  PoC(Proof of Concept)는 가능할 것으로 판단됐습니다.

 

특성 및 긍/부정 점수 검토

점수 도출하고, 최종 데이터셋 다 만들었다고 해서 끝나는 것이 아니었습니다.

gpt가 점수를 잘 도출해냈는지 저희가 직접 확인할 필요가 있었기 때문입니다.

 

 

이런식으로 리뷰 하나 하나 읽으면서 점수를 확인했습니다.

팀원이 4명이니 망정이지 혼자서 15,000개의 리뷰를 모두 확인해야했다면

시간도 시간이지만 에너지가 정말 엄청나게 소모됐을 것입니다.

인당 리뷰 3,819개씩 확인하는데도 진이 빠졌으니까요.

해당 작업은 아직도 진행 중입니다.

내일부터는 무슨 일이 있어도 클러스터링 작업에 들어가야하기때문에

늦어도 내일 오전까지는 이 작업을 마무리 지을 예정입니다.