반응형
토픽 | Face-to-Face 자유대화형 실시간 동시통역 기술개발 | ||
도메인 | 인공지능 | 중요도 | 중 |
참고문헌 | 김상훈, “Face-to-Face 자유대화형 실시간 동시통역 기술개발”, 주간기술동향, 2022.08.24, pp2-12. |
문. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)
답.
1. 세대별 동시통역 분류표
구 분 | 1세대 (1990년대) |
2세대 (2010년대) |
3세대 (2020년대) |
주요 사용환경 | 아날로그 전화망 | 스마트폰 데이터통신 | 웨어러블 데이터 통신 |
사용영역 | 호텔예약 등 매우 제한 영역 | 여행, 군사 | 일상, 회의 |
사용성 | 시스템 제한으로 정해진 패턴 통역 | 스마트폰 화면 제어를 통한 순차 통역 | ZeroUI로 끊김없는 자유발화 통역 |
지연시간 | 발화 시간의 2배 | 발화 종류 후 2~3초 | 발화 시작 후 2~3초 |
*ZeroUI: 통역 상황에서 음성을 제어하기 위한 터치나 Wake-up call 등 사용자 인터랙션이 없어 끊김없이 자연스럽게 통역이 이루어지는 UI가 없는 시스템
2. ZeroUI 동시통역 시스템 개념
<그림. Face-to-Face 동시통역 사용 형상>
<그림. ZeroUI 동시통역 상태별 신호 흐름도>
구 분 | 설 명 |
개 념 | - ZeroUI 동시통역 시스템은 음성인식 과정에서 마이크를 통한 입력신호 데이터뿐만 아니라, 인이어 마이크, 골전도 마이크를 동시 사용함 - 자연스러운 동시 통역을 가능하게함 |
절 차 | 1) 주변 가까이에 있는 통역 대상자를 탐색 2) 디바이스 간 통신을 통해 사용자의 통역에 필요한 최소 정보를 자동 교환 3) 발화자의 음성 발화 여부만 검출하고 그 구간에 해당하는 음성을 서버로 보냄 4) 웨어러블 디바이스에서 서버로 음성신호가 전달되어 음성인식과 번역 및 합성 과정을 거쳐 통역결과를 상대방에게 전달 |
3. ZeroUI 핵심기술
가. 음성 발화 검출 기술
<그림. 인이어 마이크 또는 골전도 마이크 기반 음성 발화 검출>
<그림. 2채널 간 에너지 차이를 이용한 발화검출>
<그림. 개인 음성을 구별해 내는 인공지능 기반 발화검출>
<그림. Audio-Visual 멀티모달 기반 발화검출>
구 분 | 설 명 |
개념 | - 근거리 통역 상황에서 상대방 외국인 음성이 모국어 사용자 마이크로 입력되어 오동작이 일어나는 현상 발생(크로스톡, Crosstalk) - 이를 방지하기 위한 기술이 음성 발화 검출 기술임 |
하드웨어적 접근 방식 |
- 인이어 마이크 또는 골전도 마이크 신호를 음성 발화 검축에 이용하는 방법 - 외부 소음이 차폐되어 강인한 음성 발화 검출 가능 |
소프트웨어적 접근 방식 | - 2채널 정보 기반 신호처리 방법 → 사용자 및 상대방 마이크에 입력되는 신호세기 즉, 에너지를 비교(Power Level Difference)하여 입력세기가 큰 쪽을 사용자의 입력 신호로 검출 |
- 보이스필터 방법 → 사용자의 음성에만 반응하는 인공지능 기반 개인형 음성 검출 방법 → 대용량 화자의 음성을 비지도 학습을 통해 임베딩 모델로 발화 검출 |
|
- 멀티모달 기반 발화 검출 → Audio-Visual 정보를 동시에 이용하고 시각정보인 입술의 움직임 정보를 동적으로 추적해서 발화검출하는 방법 |
나. 종단형 통역 기술
<그림. 기존 CAS-ST(Cascaded) 및 E2E-ST(End-to-End) 통역
구 분 | 설 명 |
개념 | - 기존 통역은 음성인식 오류 전파로 통역 성능 한계가 있는 반면에 종단형 통역은 음성이 입력되고 최종 출력으로 번역 결과가 나오는 방식 |
필요 기술 | - 성능저하 없는 온라인 스트리밍 구조로 변경 - 통역 대상 언어 간 어순(한국어와 영어)이 달라 이로 인해 통역품질을 유지하면서 실시간 내 처리가 가능한 방안 연구 필요 |
다. 실시간 스트리밍 기술
<그림. 동시통역 상황에서 지연시간 정의>
구 분 | 설 명 |
개념 | - 통역을 구성하고 있는 음성인식, 번역, 합성시스템이 시간에 따라 순차적으로 입력되는 데이터에 대해 즉시 출력결과를 내야함 |
주요 기술 | - 자동번역, 음성 합성 시스템도 스트리밍 구조로 변경 필요 - 모국어 사용자가 발성한 시점부터 외국인 청자가 통역 결과를 듣기까지의 시간적 지연시간을 짧게하면 시스템의 성능이 떨어지므로 Trade off 필요 |
'정보통신 정보관리기술사 > 논문' 카테고리의 다른 글
문. 경영학 연구 분야에서의 인공지능과 빅데이터 활용 동향(2022.11.) (2) | 2022.11.20 |
---|---|
문. IIoT 회전기기 이상감지 AI 기술 동향 (0) | 2022.10.07 |
문. 초개인화에 다양성을 입히는 추천시스템 기술 동향 (0) | 2022.09.29 |
문. 인공지능 적용 분야 및 관련 기술 동향 (1) | 2022.09.28 |
문. 비즈니스 세계로 인공지능 기술 동향 (1) | 2022.09.11 |
문. 소프트웨어 기반의 공급망 공격 동향 및 대응방안 (2) | 2022.09.10 |
문. 해사 사이버보안 이슈 및 기술 동향 (1) | 2022.09.06 |
문. 자동차 사이버보안 표준 및 보안 기술 동향 (0) | 2022.09.03 |