Project
오늘의 목표 및 진척상황
- 파생변수 List 정리
직면했던 문제와 학습한 내용
- 파생변수 List 정리
기본적인 EDA부터 다시 시작했다. 강의 수강 시에도 제대로 집중하지 못했던 것 같고, 내가 제대로 Data를 이해하고 있지 못한 것 같아서였다.
무엇을 봐야하는지 부터 고민했다. User가 몇 명인지? Item이 몇 개인지? 이런 단순한 정보는 심지어 친절하게 알려주셨다.
이것저것 수박 겉핥기 식으로 Data를 보다보니, 어떤 조건에서 정답률이 달라지는지 궁금해졌다. 특정 조건으로 Data를 나열하면, 정답률이 확연히 차이나는 경우가 있었다.
우리의 Task가 결국 정답 여부를 맞추고자 한다면, 이 정보들이 파생변수로 추가되어야 하지 않을까? 생각했다. 이에, 우리에게 주어진 정보를 조합하여 정답률이 유의미하게 차이나는가에 대해 살펴보았다. 확인해본 정보는 다음과 같다.
User Unique한 Item을 접한 횟수와 정답률의 관계 Unique한 Test ID를 접한 갯수와 정답률의 관계 Unique한 Knowledge Tag를 접한 갯수와 정답률의 관계 Unique한 대분류를 접한 갯수와 정답률의 관계
Item Test ID별 정답률의 차이 Knowledge Tag별 정답률의 차이 대분류별 정답률의 차이 Test ID의 노출 빈도와 정답률의 관계 Knowledge Tag의 노출 빈도와 정답률의 관계 대분류의 노출 빈도와 정답률의 관계
User-Item Item과 동일한 Test ID를 접한 횟수와 정답률의 관계 Item과 동일한 Knowledge Tag를 접한 횟수와 정답률의 관계 Item과 동일한 대분류를 접한 횟수와 정답률의 관계
추가로 진행 할 사항
- 파생변수 추가에 대한 고찰
'네이버 부스트캠프 AI Tech' 카테고리의 다른 글
[P4] Day 84 (21.05.31) (0) | 2021.06.26 |
---|---|
[P4] Sunday 31 May (21.05.31) (0) | 2021.06.26 |
[P4] Day 83 (21.05.28) (0) | 2021.06.26 |
[P4] Day 82 (21.05.27) (0) | 2021.06.26 |
[P4] Day 81 (21.05.26) (0) | 2021.06.26 |
Uploaded by Notion2Tistory v1.1.0