정보통신 정보관리기술사/논문

문. 데이터 라벨링을 통한 신뢰성 확보

가카리 2022. 7. 24. 00:13
반응형
토픽 데이터 라벨링을 통한 신뢰성 확보
도메인 인공지능 중요도
참고문헌 TTA 정보통신용어사전(http://terms.tta.or.kr/main.do)
이형주, “데이터 라벨링을 통한 신뢰성 확보”, TTA저널, 2022.05, pp51-58.

 

. 데이터 라벨링을 통한 신뢰성 확보(2022.05.)

.

1. 데이터 신뢰성의 정의

구 분 설 명
원천 데이터의
신뢰성
- 데이터의 성공적인 가공을 위해 원천 데이터가 기본적인 조건을 얼마나 갖추었는지에 대한 정도
- 기술적 품질, 데이터 세트의 크기, 각각 데이터의 포맷 및 속성의 기준 부합
가공 데이터의
신뢰성
- 모델 학습을 위해 가공 데이터가 얼마나 적합한 구성과 일관성의 정도
- 가공의 일관성, 클래스 간 크기의 유사성, 기준 일치도

 

2. 개별데이터의 신뢰성 요건 구분

구 분 설 명 신뢰성
평가 기준
객체요건 - 가공할 대상 객체의 정의와 상세 조건
- 예시: 법적으로 소형차로 구분되는 자동차
- 대상 객체가 맞는지?
컨텍스트
요건
- 대상 객체의 상황에 대한 조건
- 예시: 차선을 위반한
- 대상 객체가 해당되는 상황에 놓여 있는가?
가공 방식
요건
- 상세한 가공 방식 및 도구에 대한 사용 방법
- 예시: 폴리곤
- 지정된 가공방식으로 작업여부

 

3. 라벨링 과정에서의 데이터 신뢰성 확보 방안

. 절차도

< 그림. 데이터 라벨링의 과정과 과정별 참여자 >

  - 각 작업 단계의 주체가 다르고, 각자 가지고있는 배경 지식의 이해도나 범위가 다르기 때문에 소통 오류를 최소화하고 주관적 판단을 최대한 배제할 수 있는 방안 확보 필요

 

. 데이터 신뢰성 확보 방안

구 분 설 명
용어 정의 - 용어 정의는 일관성, 일반성, 명확성 측면에서 고려해야함
- 적절하게 정의된 용어들은 배경 지식과 경험이 다른 각각의 작업 주체들이 서로 명확하게 커뮤니케이션 가능
요건 정의

<그림. Black list방식에서의 작업요건 범위>
- Black list방식은 작업요건을 정의할 때, 제외해야 하거나 하지 말아야 할 내용들을 정리하는 방식
- Black list형태로 언급된 내용을 제외한 내용이라면 모두 인정한다는 의미
- 예시) 검은색 자동차는 제외

<그림. White list방식에서의 작업요건 범위>
- White list방식은 작업 요건을 반드시 포함하거나 실행해야 할 항목들로 구성하고 나머지는 인정하지 않는 방식
- 예시) 흰색 자동차만 포함
상세요건의
정량적
표현
- 요건을 정의할 때 부사 및 형용사의 사용은 최대한 피해야함
- 작업도구에서 정량적인 요건들을 측정하거나 판단할 수 있는 기능을 반드시 제공해야함
작업방식의
설계

<그림. 작업 재설계의 예시>
- AI모델을 활용하여 작업요건을 변경
- 작업을 분리하고 다시 재조합하는 형태로 작업을 재설계함
적합한
작업
도구의
제공
- 클릭 후 드래그 하는 방식으로 작업되는 바운딩 박스 작업 과정을 몇 개의 점을 찍는 것으로 작업 도구 개선
- 작업자의 실수를 줄이고 효율을 높여 데이터의 퀄리티 향상에 결정적 역할 가능