정보통신 정보관리기술사/논문

문. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)

가카리 2022. 9. 25. 10:12
반응형
토픽 Face-to-Face 자유대화형 실시간 동시통역 기술개발
도메인 인공지능 중요도
참고문헌 김상훈, “Face-to-Face 자유대화형 실시간 동시통역 기술개발”, 주간기술동향, 2022.08.24, pp2-12.

 

. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)

.

1. 세대별 동시통역 분류표

구 분 1세대
(1990년대)
2세대
(2010년대)
3세대
(2020년대)
주요 사용환경 아날로그 전화망 스마트폰 데이터통신 웨어러블 데이터 통신
사용영역 호텔예약 등 매우 제한 영역 여행, 군사 일상, 회의
사용성 시스템 제한으로 정해진 패턴 통역 스마트폰 화면 제어를 통한 순차 통역 ZeroUI로 끊김없는 자유발화 통역
지연시간 발화 시간의 2 발화 종류 후 2~3 발화 시작 후 2~3

  *ZeroUI: 통역 상황에서 음성을 제어하기 위한 터치나 Wake-up call 등 사용자 인터랙션이 없어 끊김없이 자연스럽게 통역이 이루어지는 UI가 없는 시스템

 

2. ZeroUI 동시통역 시스템 개념

<그림. Face-to-Face 동시통역 사용 형상>

<그림. ZeroUI 동시통역 상태별 신호 흐름도>

구 분 설 명
개 념 - ZeroUI 동시통역 시스템은 음성인식 과정에서 마이크를 통한 입력신호 데이터뿐만 아니라, 인이어 마이크, 골전도 마이크를 동시 사용함
- 자연스러운 동시 통역을 가능하게함
절 차 1) 주변 가까이에 있는 통역 대상자를 탐색
2) 디바이스 간 통신을 통해 사용자의 통역에 필요한 최소 정보를 자동 교환
3) 발화자의 음성 발화 여부만 검출하고 그 구간에 해당하는 음성을 서버로 보냄
4) 웨어러블 디바이스에서 서버로 음성신호가 전달되어 음성인식과 번역 및 합성 과정을 거쳐 통역결과를 상대방에게 전달

 

3. ZeroUI 핵심기술

. 음성 발화 검출 기술

<그림. 인이어 마이크 또는 골전도 마이크 기반 음성 발화 검출>

<그림. 2채널 간 에너지 차이를 이용한 발화검출>

<그림. 개인 음성을 구별해 내는 인공지능 기반 발화검출>

<그림. Audio-Visual 멀티모달 기반 발화검출>

구 분 설 명
개념 - 근거리 통역 상황에서 상대방 외국인 음성이 모국어 사용자 마이크로 입력되어 오동작이 일어나는 현상 발생(크로스톡, Crosstalk)
- 이를 방지하기 위한 기술이 음성 발화 검출 기술임
하드웨어적
접근 방식
- 인이어 마이크 또는 골전도 마이크 신호를 음성 발화 검축에 이용하는 방법
- 외부 소음이 차폐되어 강인한 음성 발화 검출 가능
소프트웨어적 접근 방식 - 2채널 정보 기반 신호처리 방법
사용자 및 상대방 마이크에 입력되는 신호세기 즉, 에너지를 비교(Power Level Difference)하여 입력세기가 큰 쪽을 사용자의 입력 신호로 검출
- 보이스필터 방법
사용자의 음성에만 반응하는 인공지능 기반 개인형 음성 검출 방법
대용량 화자의 음성을 비지도 학습을 통해 임베딩 모델로 발화 검출
- 멀티모달 기반 발화 검출
Audio-Visual 정보를 동시에 이용하고 시각정보인 입술의 움직임 정보를 동적으로 추적해서 발화검출하는 방법

 

. 종단형 통역 기술

<그림. 기존 CAS-ST(Cascaded) E2E-ST(End-to-End) 통역

구 분 설 명
개념 - 기존 통역은 음성인식 오류 전파로 통역 성능 한계가 있는 반면에 종단형 통역은 음성이 입력되고 최종 출력으로 번역 결과가 나오는 방식
필요 기술 - 성능저하 없는 온라인 스트리밍 구조로 변경
- 통역 대상 언어 간 어순(한국어와 영어)이 달라 이로 인해 통역품질을 유지하면서 실시간 내 처리가 가능한 방안 연구 필요

 

. 실시간 스트리밍 기술

<그림. 동시통역 상황에서 지연시간 정의>

구 분 설 명
개념 - 통역을 구성하고 있는 음성인식, 번역, 합성시스템이 시간에 따라 순차적으로 입력되는 데이터에 대해 즉시 출력결과를 내야함
주요 기술 - 자동번역, 음성 합성 시스템도 스트리밍 구조로 변경 필요
- 모국어 사용자가 발성한 시점부터 외국인 청자가 통역 결과를 듣기까지의 시간적 지연시간을 짧게하면 시스템의 성능이 떨어지므로 Trade off 필요

 

반응형