(8강) Reducing Training Bias

💡
ODQA 간 발생할 수 있는 Bias에 대해 알아본다.

Definition of Bias

Bias는 다양한 의미로 파악할 수 있으나, Machine Learning에서는 편향의 의미로 사용된다. 이러한 편향은 다양한 이유에 의해 발생할 수 있다.

'의사'와 관련된 글에서 '남성'을 추측하는 등의 문제를 예시로 들 수 있다. 혹은, Model의 학습 시 이미 편향된 Sample을 학습시켜서 생기는 등의 원인이 존재할 수 있다.

Bias in Open-domain Question Answering

Model의 학습 시 어떤 Data를 학습하는지는매우 중요한 문제이다.

Annotation Bias from Datasets

Bias는 데이터 제작 단계에서도 발생할 수 있다. SQuAD와 같은 Data는 Annotator가 이미 정답을 알고 있었기에, Context에서 유사한 단어 등이 많이 등장하는 문제가 발생했다.

이와 같은 편향을 줄이는 방향으로 Data를 구성해야한다.


Reference

Latent Retrieval for Weakly Supervised Open Domain Question Answering

Dense Passage Retrieval for Open-Domain Question Answering


Project

오늘의 목표 및 진척상황

  • 이전 강의 복습 및 실습 Code 뜯어보기
  • Hugging Face Library 공부

직면했던 문제와 학습한 내용

  1. 이전 강의 복습 및 실습 Code 뜯어보기

    더 많이 볼 수 있을 줄 알았는데, 3강까지 밖에 못보고, 실습 Code도 많이 못봤다.

  1. Hugging Face Library 공부

    Hugging Face Document를 돌아다니다가 매우 유용한 Example을 찾았다. Transformers Notebooks 이곳의 Notebook File을 보니, 우리 Baseline이 전부 들어있었다. 각 Line의 의미도 나름 자세히 설명해주고 있어서 매우 도움이 되었다.

추가로 진행 할 사항

  • 강의 및 실습 코드 복습
  • Team Code 이해하기

'네이버 부스트캠프 AI Tech' 카테고리의 다른 글

[P2] Holiday 5 May (21.05.05)  (0) 2021.06.26
[P3] Day 67 (21.05.04)  (0) 2021.06.26
[P3] Day 65 (21.04.30)  (0) 2021.06.26
[P3] Day 64 (21.04.29)  (0) 2021.06.26
[P3] Day 63 (21.04.28)  (0) 2021.06.26

+ Recent posts