(1강) DKT 이해 및 DKT Trend 소개
DKT Task 이해
DKT란, Deep Learning의 방법을 통해 사용자의 지식 상태를 추적하는 것을 의미한다.
DKT 대회에서는 이러한 지식상태를 기반으로 주어진 문제에 대한 정답 여부를 추론한다.
Metric 이해
현 대회에서의 Metric은 AUC를 활용한다.
DKT History 및 Trend
(2강) DKT data EDA
기본적인 내용 파악
이번 대회에서 다룰 Data의 기본형태는 다음과 같다.
UserID는 사용자 별 고유번호이며, 총 7442명의 고유한 사용자가 존재한다.
AssessmentItemID는 문항의 번호이며, 총 9454개의 고유한 문항이 존재한다.
TestID는 시험지의 번호이며, 총 1537개의 고유한 시험지가 존재한다.
AnswerCode는 사용자가 문항을 맞췄는지에 대한 이진 Class이다. 전체 Interaction중 65.45%가 정답으로, 1의 값을 갖는다.
TimeStamp는 사용자가 Interaction을 시작한 시간 정보를 의미한다.
KnowledgeTag는 문항 마다 1개씩 배정되는 태그로, 중분류의 역할을 한다. 총 912개의 고유한 태그가 존재한다.
A030과 같은 값에서, 3은 대분류의 역할을 한다.
기술 통계량 분석
일반적인 EDA
Reference
Project
오늘의 목표 및 진척상황
- Baseline 이해
직면했던 문제와 학습한 내용
- Baseline 이해
우선, Dataset의 형태를 파악하고, Pipeline을 살펴봤다. Dataset의 전처리 과정을 확인하고, Model의 Input까지 어떻게 변형되는지를 알아볼 수 있었다.
Model의 구성과 Output까지 확인했다.
추가로 진행 할 사항
- EDA
'네이버 부스트캠프 AI Tech' 카테고리의 다른 글
[P4] Day 81 (21.05.26) (0) | 2021.06.26 |
---|---|
[P4] Day 80 (21.05.25) (0) | 2021.06.26 |
[P3] ODQA Wrap-up Report (0) | 2021.06.26 |
[P3] Day 78 (21.05.21) (0) | 2021.06.26 |
[P3] Day 77 (21.05.20) (0) | 2021.06.26 |
Uploaded by Notion2Tistory v1.1.0