주제: 생필품 농수축산물 물가 분석 및 상품 추천(가격 비교, 추천 시스템 구현 X)
- 데이터
- 분석 내용
- (grouping한) 품목별 + 학생들이 많이 사는 대표적인 개별 상품(라면, 생수 등)의 가격 비교 - 서울시 전체 시장 / 학교 주변 시장('백련시장' '망원시장' '마포농수산물시장' '대림시장' '증산종합시장’) / 이마트 에브리데이
- (물건을 grouping 해서!) 자치구의 물가
- 대표 상품에 대한 서울시 물가 예측
- 예측 모델에 대한 정확도 측정
- train, validation, test 데이터로 나눠서 모델 고른 후 괜찮은 모델 선택 후 정확도 테스트
- 서울시 vs 학교 주변 물가 예측 → 잘 되면하고 안되면 안하고
모델(예측 방법)
- 시계열 분석 - SARIMA / RNN / LSTM
https://needmorecaffeine.tistory.com/36
https://hi-guten-tag.tistory.com/85
고려할 점
-
서울시 데이터와 이마트 에브리데이의 품목을 어떻게 일치시킬지?
-
서울시 데이터 품목 이름 예시: 쌀(이천쌀) 20kg 1포, 사과(부사) 1개, 배(신고) 1개, 치약 160g, 상추 100g, 라면 5개입 1봉
→ 서울시 데이터를 기준으로
-
대표 상품을 어떻게 정할 것인지?
- (grouping한) 품목별 + 학생들이 많이 사는 대표적인 개별 상품(라면, 생수 등)
- '라면 5개입 1봉’, '바디워시 1000ml 1개’, '컵라면 1개’, '맥주 500ml 1캔’, '비누 4개입 1개', '생수 500ml 1병’, '맛김 16팩', '우유 1L' '즉석밥 210g 3개입’, '햄 340g’, '통조림(참치) 150g', '치약 160g 1개', '칫솔 4입 1개', '샴푸 680ml 1통', '식용유 1.8L', '소주 360ml, 1병’, '쌀 20kg 1포'
#2 채점 기준으로 주제 정하기
- 데이터 수집 방법 자동화
- API: 서울시 데이터(매주 1회 업데이트)
- 크롤링: 어떻게 할건지 → 전처리
- CSV 파일 → 고민중
- 데이터 전처리 및 저장 방법
- 문제 정의
- 데이터 분석 방법
- 데이터 크기와 분석 난이도
- 빅데이터 확장 가능성