본문 바로가기

Playdata Analysis 33기

231113 TIL | 미니프로젝트 - 1

미니 프로젝트 단계 

1. 데이터 수집 - 글로우픽 리뷰 데이터 웹 크롤링 => 진행 중

2. 데이터 전처리
2-1(띄어쓰기, 외국어, 자음모음(ㅋㅋ,,ㅎㅎㅎㅎ), 특수문자 ) 등 리뷰에서 제거
3. EDA
- 사용자 평점 분포, 화장품 브랜드 분포 등 데이터 기본 정보 시각화
4.'퍼스널 컬러'가 포함된 리뷰만 남기기 논의 필요
5. 토큰화 후 고빈도단어 추출 논의 필요
6.고빈도 단어추출결과 바탕으로  'Personal color vocabulary' 정의 논의 필요
       리뷰에서 많이 나오는 단어들을 각 "웜톤/쿨톤 으로 분류" -> 세부톤  "봄 웜톤, 여름 쿨톤, 여름 뮤트, 가을 웜톤, 가을 뮤트 , 겨울 쿨톤" 으로 분류

7. 모델링 

8. 사용자 입력 -> 추천 결과 출력 

 

오늘 진행한 것

ㅎㄱ, ㅈㅇ - 글로우픽 리뷰 데이터 웹 크롤링 코드 짜기

- 크롤러 60% 완성 
- 립 메이크업, 아이섀도우 키워드 검색결과로 나온 제품들 제품명, 별점 수, 리뷰 수 등 크롤링 => 완료

- 제품별 리뷰 데이터 , 사용자 아이디 크롤링 => 제품 ID 크롤링 까지 완료

ㅇㅈ - 웹크롤링 이후, 리뷰데이터 토큰화, 라벨링, 모델링 방식 기획 => 모델링 종류 확인까지 완료 , 라벨링 방식 고안 필요

ㄴㄹ - 빅콘테스트 발표 일정으로 불참

 

Trial and Error

  • 크롤링 과정에서 비정상적 접근 과다로 서버가 다운됨 → 몇분 뒤 서버 정상화
  • url에 있는 제품 코드를 추출하는 과정이 굉장히 까다로웠음 → html에서 find_element() > div태그 찾고 > div.get_attribute('id')로 id를 찾아서 리스트로 반환.해서 해결