Project
오늘의 목표 및 진척상황
- Feature 길이에 따른 성능 실험
직면했던 문제와 학습한 내용
- Feature 길이에 따른 성능 실험
Feature 길이에 따른 성능에 대해 여러 의견이 오갔다. 피어세션간 정리된 내용은 다음과 같다.
문제시 하고 있는 사항 : 길이에 따라 성능이 달라질 것 같다.
확실하지 않은 사항 : -> 짧은 Phasage를 보는게 더 좋은 Logit이 나올까? -> 긴 Phasage를 보는게 더 좋은 Logit이 나올까?
가설 1. 짧은 Phasage가 좋을 것 같다. -> 정답과 무관한 Noise한 Data들을 무시할 수 있다. -> 짧게 자르는 만큼, 한 Context에 대해서 여러개의 Feature (Sample)로 학습할 수 있다.
가설 2. 긴 Phasage가 좋을 것 같다. -> 문맥을 파악해야 하는 Task인 만큼, 한 Sample에 포함된 문맥 정보가 중요할 것 같다. -> 한 Context에 대해 적은 Feature에 대한 Logit을 내기 때문에, 더 확실하게 Token을 잡을 수 있을 것 같다.
내 생각 : -> Retrieval은 관련있는 여러개의 Context를 던져주는게 맞는 것 같다. -> 문장을 자르거나 하는 것은, MRC Train 과정에서 이루어져야 하는 것 같다.
이에 직접 실험을 진행해보니, 결국 디폴트 값인 적정 길이에서 가장 성능이 좋게 나왔다. 256, 512 모두 성능 감소가 발생했고, Doc Stride의 값을 조정해도 마찬가지였다.
추가로 진행 할 사항
- Query Attention Model 구현
'네이버 부스트캠프 AI Tech' 카테고리의 다른 글
[P3] Day 73 (21.05.13) (0) | 2021.06.26 |
---|---|
[P3] Day 72 (21.05.12) (0) | 2021.06.26 |
[P3] Day 70 (21.05.10) (0) | 2021.06.26 |
[P3] Day 69 (21.05.07) (0) | 2021.06.26 |
[P3] Day 68 (21.05.06) (0) | 2021.06.26 |
Uploaded by Notion2Tistory v1.1.0