(1강) DKT 이해 및 DKT Trend 소개

💡
DKT가 무엇이고 왜 필요한지에 대해 살펴보고, Trend에 대해 알아본다.

DKT Task 이해

DKT란, Deep Learning의 방법을 통해 사용자의 지식 상태를 추적하는 것을 의미한다.

DKT 대회에서는 이러한 지식상태를 기반으로 주어진 문제에 대한 정답 여부를 추론한다.

Metric 이해

현 대회에서의 Metric은 AUC를 활용한다.

DKT History 및 Trend


(2강) DKT data EDA

💡
DKT 대회의 데이터를 살펴본다.

기본적인 내용 파악

이번 대회에서 다룰 Data의 기본형태는 다음과 같다.

UserID는 사용자 별 고유번호이며, 총 7442명의 고유한 사용자가 존재한다.

AssessmentItemID는 문항의 번호이며, 총 9454개의 고유한 문항이 존재한다.

TestID는 시험지의 번호이며, 총 1537개의 고유한 시험지가 존재한다.

AnswerCode는 사용자가 문항을 맞췄는지에 대한 이진 Class이다. 전체 Interaction중 65.45%가 정답으로, 1의 값을 갖는다.

TimeStamp는 사용자가 Interaction을 시작한 시간 정보를 의미한다.

KnowledgeTag는 문항 마다 1개씩 배정되는 태그로, 중분류의 역할을 한다. 총 912개의 고유한 태그가 존재한다.

A030과 같은 값에서, 3은 대분류의 역할을 한다.

기술 통계량 분석

일반적인 EDA


Reference


Project

오늘의 목표 및 진척상황

  • Baseline 이해

직면했던 문제와 학습한 내용

  1. Baseline 이해

    우선, Dataset의 형태를 파악하고, Pipeline을 살펴봤다. Dataset의 전처리 과정을 확인하고, Model의 Input까지 어떻게 변형되는지를 알아볼 수 있었다.

    Model의 구성과 Output까지 확인했다.

추가로 진행 할 사항

  • EDA

'네이버 부스트캠프 AI Tech' 카테고리의 다른 글

[P4] Day 81 (21.05.26)  (0) 2021.06.26
[P4] Day 80 (21.05.25)  (0) 2021.06.26
[P3] ODQA Wrap-up Report  (0) 2021.06.26
[P3] Day 78 (21.05.21)  (0) 2021.06.26
[P3] Day 77 (21.05.20)  (0) 2021.06.26

+ Recent posts