문. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)

정보통신 정보관리기술사/논문

문. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)

가카리 2022. 9. 25. 10:12

토픽	Face-to-Face 자유대화형 실시간 동시통역 기술개발
도메인	인공지능	중요도	중
참고문헌	김상훈, “Face-to-Face 자유대화형 실시간 동시통역 기술개발”, 주간기술동향, 2022.08.24, pp2-12.

문. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)

답.

1. 세대별 동시통역 분류표

구 분	1세대 (1990년대)	2세대 (2010년대)	3세대 (2020년대)
주요 사용환경	아날로그 전화망	스마트폰 데이터통신	웨어러블 데이터 통신
사용영역	호텔예약 등 매우 제한 영역	여행, 군사	일상, 회의
사용성	시스템 제한으로 정해진 패턴 통역	스마트폰 화면 제어를 통한 순차 통역	ZeroUI로 끊김없는 자유발화 통역
지연시간	발화 시간의 2배	발화 종류 후 2~3초	발화 시작 후 2~3초

*ZeroUI: 통역 상황에서 음성을 제어하기 위한 터치나 Wake-up call 등 사용자 인터랙션이 없어 끊김없이 자연스럽게 통역이 이루어지는 UI가 없는 시스템

2. ZeroUI 동시통역 시스템 개념

<그림. Face-to-Face 동시통역 사용 형상>

<그림. ZeroUI 동시통역 상태별 신호 흐름도>

구 분	설 명
개 념	- ZeroUI 동시통역 시스템은 음성인식 과정에서 마이크를 통한 입력신호 데이터뿐만 아니라, 인이어 마이크, 골전도 마이크를 동시 사용함 - 자연스러운 동시 통역을 가능하게함
절 차	1) 주변 가까이에 있는 통역 대상자를 탐색 2) 디바이스 간 통신을 통해 사용자의 통역에 필요한 최소 정보를 자동 교환 3) 발화자의 음성 발화 여부만 검출하고 그 구간에 해당하는 음성을 서버로 보냄 4) 웨어러블 디바이스에서 서버로 음성신호가 전달되어 음성인식과 번역 및 합성 과정을 거쳐 통역결과를 상대방에게 전달

3. ZeroUI 핵심기술

가. 음성 발화 검출 기술

<그림. 인이어 마이크 또는 골전도 마이크 기반 음성 발화 검출>

<그림. 2채널 간 에너지 차이를 이용한 발화검출>

<그림. 개인 음성을 구별해 내는 인공지능 기반 발화검출>

<그림. Audio-Visual 멀티모달 기반 발화검출>

구 분	설 명
개념	- 근거리 통역 상황에서 상대방 외국인 음성이 모국어 사용자 마이크로 입력되어 오동작이 일어나는 현상 발생(크로스톡, Crosstalk) - 이를 방지하기 위한 기술이 음성 발화 검출 기술임
하드웨어적 접근 방식	- 인이어 마이크 또는 골전도 마이크 신호를 음성 발화 검축에 이용하는 방법 - 외부 소음이 차폐되어 강인한 음성 발화 검출 가능
소프트웨어적 접근 방식	- 2채널 정보 기반 신호처리 방법 → 사용자 및 상대방 마이크에 입력되는 신호세기 즉, 에너지를 비교(Power Level Difference)하여 입력세기가 큰 쪽을 사용자의 입력 신호로 검출
	- 보이스필터 방법 → 사용자의 음성에만 반응하는 인공지능 기반 개인형 음성 검출 방법 → 대용량 화자의 음성을 비지도 학습을 통해 임베딩 모델로 발화 검출
	- 멀티모달 기반 발화 검출 → Audio-Visual 정보를 동시에 이용하고 시각정보인 입술의 움직임 정보를 동적으로 추적해서 발화검출하는 방법

나. 종단형 통역 기술

<그림. 기존 CAS-ST(Cascaded) 및 E2E-ST(End-to-End) 통역

구 분	설 명
개념	- 기존 통역은 음성인식 오류 전파로 통역 성능 한계가 있는 반면에 종단형 통역은 음성이 입력되고 최종 출력으로 번역 결과가 나오는 방식
필요 기술	- 성능저하 없는 온라인 스트리밍 구조로 변경 - 통역 대상 언어 간 어순(한국어와 영어)이 달라 이로 인해 통역품질을 유지하면서 실시간 내 처리가 가능한 방안 연구 필요

다. 실시간 스트리밍 기술

<그림. 동시통역 상황에서 지연시간 정의>

구 분	설 명
개념	- 통역을 구성하고 있는 음성인식, 번역, 합성시스템이 시간에 따라 순차적으로 입력되는 데이터에 대해 즉시 출력결과를 내야함
주요 기술	- 자동번역, 음성 합성 시스템도 스트리밍 구조로 변경 필요 - 모국어 사용자가 발성한 시점부터 외국인 청자가 통역 결과를 듣기까지의 시간적 지연시간을 짧게하면 시스템의 성능이 떨어지므로 Trade off 필요

저작자표시 비영리 변경금지

'정보통신 정보관리기술사 > 논문' 카테고리의 다른 글

문. 경영학 연구 분야에서의 인공지능과 빅데이터 활용 동향(2022.11.) (2)	2022.11.20
문. IIoT 회전기기 이상감지 AI 기술 동향 (0)	2022.10.07
문. 초개인화에 다양성을 입히는 추천시스템 기술 동향 (0)	2022.09.29
문. 인공지능 적용 분야 및 관련 기술 동향 (1)	2022.09.28
문. 비즈니스 세계로 인공지능 기술 동향 (1)	2022.09.11
문. 소프트웨어 기반의 공급망 공격 동향 및 대응방안 (2)	2022.09.10
문. 해사 사이버보안 이슈 및 기술 동향 (1)	2022.09.06
문. 자동차 사이버보안 표준 및 보안 기술 동향 (0)	2022.09.03

현재글문. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

가카리의 공부방

문. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)

문. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)

답.

1. 세대별 동시통역 분류표

2. ZeroUI 동시통역 시스템 개념

3. ZeroUI 핵심기술

'정보통신 정보관리기술사 > 논문' 카테고리의 다른 글

'정보통신 정보관리기술사/논문'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

문. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)

문. Face-to-Face 자유대화형 실시간 동시통역 기술개발(2022.08.)

답.

1. 세대별 동시통역 분류표

2. ZeroUI 동시통역 시스템 개념

3. ZeroUI 핵심기술

'정보통신 정보관리기술사 > 논문' 카테고리의 다른 글

'정보통신 정보관리기술사/논문'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역