정보통신 정보관리기술사/논문

문. 딥러닝 기반 행동 인식을 위한 비디오 처리기술 연구 동향(2022.11.)

가카리 2022. 11. 24. 10:13
반응형
토픽 딥러닝 기반 행동 인식을 위한 비디오 처리기술 연구 동향
도메인 인공지능 중요도
참고문헌 송순용, “딥러닝 기반 행동 인식을 위한 비디오 처리기술 연구 동향”, 주간기술동향, 2022.11.02, pp02-14.

 

. 딥러닝 기반 행동 인식을 위한 비디오 처리기술 연구 동향(2022.11.)

.

1. 개요

  - 비디오 데이터는 시간 순서로 나열된 이미지 데이터의 집합으로 구성되어 있음

  - 비디오 데이터를 통해 객체 혹은 상태의 동적인 특성 정보를 얻어내는 행동 인식과 같은 태스크를 수행할 수 있는 장점이 있음

 

2. 비디오 기반 행동 인식 기술 종류

구 분 설 명
특징점 사용
기반
기술
- 특징점을 직접 인식 하고 특징점 간의 관계성을 통해 자세를 파악한 뒤 시간 특징을 인식하도록 신경망을 구축 함
- 현재는 손가락 관절을 식별할 수 있는 수준에 도달함
- 인식 대상이 사람이어야 행동을 인식할 수 있는 한계가 있음
비특징점
기반
기술
- 이미지 혹은 옵티컬 플로 같이 주어진 데이터의 범위 안에서 얻을 수 있는 정보만을 사용함
- 옵티컬 플로란 영상 내 물체의 움직임 패턴을 말함, 이전 프레임과 다음 프레임 간 픽셀이 이동한 방향과 거리 분포

 

3. CNN(Convolutional Neural Network) 기반 행동 인식 기술 설명

. CNN 기반 행동 인식 단계

구 분 설 명
공간적 특징
추출
- CNN 블록을 사용
- 비디오 데이터는 이미지 데이터를 시간적으로 나열한 형태이기 때문에 CNN 블록은 비디오 클립을 구성하는 여러 이미지에 대한 압축된 특징 나열
시변 특징
추출
- 자연어 처리에서 순열 데이터 처리를 위해 사용하는 RNN(Recurrent Neural Network) 구조 중 하나인 LSTM(Long Short-Term Memory)블록을 사용하는 방식과 3D CNN을 사용하는 방식이 있음
- 데이터 입력 방식에 따라 이미지만을 사용하는 단일 입력 처리 방식과 이미지와 옵티컬 플로를 동시에 사용하는 멀티모달 처리 방식으로 구분 가능

 

. CNN + LSTM 기술

<그림. CNN+LSTM 개념도>

구 분 설 명
관련 논문 - Long-term Recurrent Convolutional Networks for Visual Recognition and Description(CVPR 2015)
개 념 - 비디오 클립을 구성하는 이미지들은 개별적으로 CNN 블록을 통해 단일 이미지에 대한 Latent Vector로 변환됨
- Latent Vector의 시퀀스는 LSTM 블록을 통과하면서 시퀀스의 특징을 학습함
특 징 - 모든 이미지에 대해 CNN 블록을 통과하고 이를 LSTM 블록을 다시 통과시키는 절차로 인해 인공신경망의 계산량 복잡도가 높아지는 단점

 

. 3D CNN(C3D) 기술

<그림. 3D CNN 개념도>

구 분 설 명
관련 논문 - Learning Spatiotemporal Features with 3D Convolutional Networks(ICCV 2015)
개 념 - 이미지 처리를 위한 2D CNN에서 차원을 하나 늘린 구조
- 늘어난 차원을 이용하여 시변 데이터를 처리함
특 징 - 가장 성능이 낮은 것으로 나타났지만, CNN 블록만으로 행동 인식의 수행이 가능하며 데이터를 빠르게 처리하는 장점이 있음

 

. Two-Stream 기술

<그림. Two-Stream CNN 개념도>

구 분 설 명
관련 논문 - Two-Stream Convolutional Networks for Action Recognition in Videos(NeurIPS 2014)
개 념 - RGB 이미지 + 옵티컬 플로라는 새로운 데이터를 추가적으로 사용
- RGB 이미지는 Spatial Stream CNN 블록을 통해 처리하고 옵티컬 플로는 3개의 그레이 이미지를 모아 3채널 이미지로 변환한 뒤 Temporal Stream CNN블록으로 처리함
특 징 - 시공간 정보를 개별적으로 처리한다는 점에서 CNN+LSTM과 비슷하지만, 벤치마크 상 성능은 본 기술이 나은 것으로 알려져 있음

 

. 3D-Fused Two-Stream 기술

<그림. 3D-Fused Two-Stream 개념도>

구 분 설 명
관련 논문 - Convolutional Two-Stream Network Fusion for Video Action Recognition(CVPR 2016)
개 념 - Two-Stream의 마지막 단계에서 시공간 정보를 퓨전하는 것은 유사하지만 결합방식이 다름
특 징 - 3D CNN3D 풀링을 통해 시공간 정보의 결합(Joint) 분포로 데이터를 처리할 수 있어서 더 나은 예측결과를 기대할 수 있음
- 이전 기술들에 비해 나은 성능을 보임

 

. Two-Stream 3D CNN(I3D) 기술

<그림. Two-Stream 3D CNN 개념도>

구 분 설 명
관련 논문 - Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset(CVPR 2017)
개 념 - Two-Stream 구조의 CNN 블록이 3D CNN 블록으로 대체된 아키텍처로 구성됨
- Spatial StreamTemporal Stream 모두 3D CNN 블록을 통해 처리되고 처리된 결과를 마지막에 결합하여 예측결과를 출력함
특 징 - RGB와 옵티컬 플로의 변화를 모두 감지할 수 있어 예측결과 향상에 도움을 줌

 

. R2plus1D 기술

<그림. R2plus1D 개념도>

구 분 설 명
관련 논문 - A Closer Look at Spatiotemporal Convolutions for Action Recognition(CVPR 2018)
개 념 - (2+1)D CNN 구조를 제안함
- 3차원을 직접적으로 처리하는 3D CNN과 달리 2D CNN으로 공간 데이터를 처리하고 1D CNN으로 시간 데이터를 처리하는 방식으로 분해하여 시공간 데이터를 처리함
특 징 - 2D CNN을 사용하기 때문에 이미지 처리 영역에서 사용하였던 모델을 사용할 수 있는 장점이 있음

 

. SlowFast 기술

<그림. SlowFast 개념도>

구 분 설 명
관련 논문 - Convolutional Two-Stream Network Fusion for Video Action Recognition(ICCV 2019)
개 념 - 비디오 클립을 Low Frame RateHigh Frame Rate로 나누어 처리함
특 징 - Low Frame Rate
공간적인 변화가 두드러지기 때문에 3D CNNTemporal 축을 줄일고 채널 축을 깊게 설정하여 Spatial Stream을 처리하도록 유도함
- High Frame Rate
시간적인 정보를 많이 포함하기 때문에 3D CNNTemporal 축을 늘리고 채널 축을 좁게 설정하여 Temporal Stream을 처리하도록 유도함
- 두 개의 Stream Dimension이 일치하는 구간에서 파라미터를 공유하여 시공간 정보를 결합함

 

. X3D 기술

구 분 설 명
관련 논문 - X3D: Expanding Architectures for Efficient Video Recognition(CVPR 2020)
개 념 - 2D CNN을 기반으로 Temporal Duration, Frame Rate, Spatial Resolution, Width, Bottleneck Width, Depth로 구성된 6개의 차원으로 확장하는 방식을 취함
특 징 - Forward Expansion과정으로 모델을 확장하고, Backward Contration 과정에서 설계자가 정해 놓은 자원 사용량에 도달하였는지 확인함
- 본 논문은 낮은 복잡도의 연산량을 갖는 모델을 찾는데 초점을 맞춤

 

4. Video Transformer 기반의 행동 인식 기술

. Video Transformer Network(VTN) 설명

<그림. VTN 개념도>

구 분 설 명
관련 논문 - Video Transformer Network(ICCV 2021)
개 념 - CNN+LSTM과 같이 주요 특징을 2D CNN을 통해 Latent VectorSequence를 토큰화함
특 징 - 각 토큰에 순서 정보를 부가하기 위해 Positional Encoding한 뒤 Transformer Encoder에 입력함
- 마지막으로 MLP Head를 통해 예측값을 얻어냄

 

. ViViT 설명

<그림. ViViT 개념도>

구 분 설 명
관련 논문 - ViViT: A Video Vision Transformer(ICCV 2021)
개 념 - 회색 음영으로 표현된 부분은 ViT를 적용한 부분으로 비디오를 구성하는 모든 이미지를 패치로 나누고 모든 패치에 대해 Positional Encoding 및 토큰화함

 

. TimeSFormer 설명

구 분 설 명
관련
논문
- Is Space-Time Attention All You Need for Video Understanding? (ICML 2021)
개 념 - Transformer Encoder에서 5가지 유형의 Self-Attention 블록을 제안
- Visualization 및 벤치마크를 통해 Divided Space-Time Attention을 사용하여 성능 개선의 효과를 입증함

 

. MViT 설명

구 분 설 명
관련 논문 - Multiscale Vision Transformers(ICCV 2021)
- MViTv2: Improved Multiscale Vision Transformers for Classification and Detection(CVPR 2022)
개 념
(버전1)
- 기존 트랜스포머의 Multi-Head Attention 블록 대신 Multi-Head Pooling Attention 블록을 사용하여 다양한 크기의 시공간 데이터를 처리함
-트랜스포머를 CNN처럼 입력단 근처에서 Low-Level Feature를 얻고 출력단 근처에서 High-Level Feature를 얻을 수 있음
개 념
(버전2
- 이미지 분류 및 객체 인식 태스크 수행이 가능하도록 트랜스포머의 구조를 변경함
- 성능 개선을 위해 Decomposed relative position embeddingResidual pooling connection을 추가함

 

. Video Swin Transformer 설명

구 분 설 명
관련 논문 - Video Swin Transformer(CVPR 2022)
개 념 - Swin Transformer를 기반으로 제작된 것으로 3D Shifted window를 통해 다양한 크기의 픽셀 영역 및 시간적 특징을 추출함
- 성능 관점에서 MViTv2와 유사하게 우수한 성능을 달성함

 

 

 

반응형