[P3] Day 66 (21.05.03)

(8강) Reducing Training Bias

💡

ODQA 간 발생할 수 있는 Bias에 대해 알아본다.

Bias는 다양한 의미로 파악할 수 있으나, Machine Learning에서는 편향의 의미로 사용된다. 이러한 편향은 다양한 이유에 의해 발생할 수 있다.

'의사'와 관련된 글에서 '남성'을 추측하는 등의 문제를 예시로 들 수 있다. 혹은, Model의 학습 시 이미 편향된 Sample을 학습시켜서 생기는 등의 원인이 존재할 수 있다.

Model의 학습 시 어떤 Data를 학습하는지는매우 중요한 문제이다.

Bias는 데이터 제작 단계에서도 발생할 수 있다. SQuAD와 같은 Data는 Annotator가 이미 정답을 알고 있었기에, Context에서 유사한 단어 등이 많이 등장하는 문제가 발생했다.

이와 같은 편향을 줄이는 방향으로 Data를 구성해야한다.

Hugging Face Library 공부
Hugging Face Document를 돌아다니다가 매우 유용한 Example을 찾았다. Transformers Notebooks 이곳의 Notebook File을 보니, 우리 Baseline이 전부 들어있었다. 각 Line의 의미도 나름 자세히 설명해주고 있어서 매우 도움이 되었다.