본문 바로가기

Playdata Analysis 33기

231114 TIL | 미니프로젝트 - 2

미니 프로젝트 단계

  1. 데이터 수집 - 글로우픽 리뷰 데이터 웹 크롤링 => 진행 중
  2. 데이터 전처리 => 진행 중

2-1(띄어쓰기, 외국어, 자음모음(ㅋㅋ,,ㅎㅎㅎㅎ), 특수문자 ) 등 리뷰에서 제거

  1. EDA
  • 사용자 평점 분포, 화장품 브랜드 분포 등 데이터 기본 정보 시각화

4.'퍼스널 컬러'가 포함된 리뷰만 남기기 논의 필요

  1. 토큰화 후 고빈도단어 추출  => 진행 중

6.고빈도 단어추출결과 바탕으로  'Personal color vocabulary' 정의 논의 필요

리뷰에서 많이 나오는 단어들을 각 "웜톤/쿨톤 으로 분류" -> 세부톤  "봄 웜톤, 여름 쿨톤, 여름 뮤트, 가을 웜톤, 가을 뮤트 , 겨울 쿨톤" 으로 분류

  1. 모델링
  2. 사용자 입력 -> 추천 결과 출력

오늘 진행한 것

ㅎㄱ, ㅈㅇ - 리뷰 데이터 웹 크롤링 코드 짜기

  • 크롤러 60% 완성
  • 립 메이크업, 아이섀도우 키워드 검색결과로 나온 제품들 제품명, 별점 수, 리뷰 수 등 크롤링 => 완료
  • 제품별 리뷰 데이터 , 사용자 아이디 크롤링 => 제품 ID 크롤링 진행 중

ㅇㅈ - 샘플데이터 이용해서 리뷰데이터 토큰화, 라벨링 ⇒ 토큰화 진행 중

ㄴㄹ - 샘플데이터 이용해서 리뷰데이터 전처리, 클렌징 ⇒ 진행 중