728x90
1) 구조: Encoder-Decoder - Encoder: Long-Range Correlation 정보추출을 위한 Transformer 구조와 Local Information 정보추출을 위한 Convolution 모듈을 통해 각 Feature 도출. - HAHI: Attention 기반의 HAHI (hierarchical aggregation and heterogeneous interaction) 로 통합하여 Context 도출 - Decoder: 이를 Decoder를 통해 Depth Map 도출
2) 성능: - NYU-Depth-v2: 0.096 REL - KITTI: 0.052 REL, SUN RGB-D
✅ 요약
목적 : 단안 깊이 추정
방법 : Transformer ( Long-Range Correlation 정보 추출) / CNN (Local Information)
Key points
- 장거리 상관 관계와 지역정보를 결합
- HAHI 모듈 (Hierarchical Aggregation and Heterogeneous Interaction 모듈을 통해 Transformer와 CNN 피쳐 간의 상호 작용을 강화하고 피처의 결합을 촉진
- deformable attention - 고해상도 피처 맵에서의 글로벌 attention 으로 인한 메모리 비용 문제를 해결하기 위해 도입
Key methods
- Transformer Branch: 입력 이미지를 패치로 나누고, 각 패치의 초기 피처 표현을 Transformer 레이어에 입력, 여러 층의 Transformer를 통해 장거리 상관 관계를 학습
- Convolution Branch: ResNet 기반 CNN을 사용하여 지역 정보를 추출합니다. 첫 번째 블록만 사용하여 저수준 피처를 유지하고, 연산 복잡성을 줄임
- HAHI Module: Transformer와 CNN 피처를 결합하여 상호 작용을 촉진합니다. deformable self-attention을 사용해 Transformer 피처를 향상시키고, deformable cross-attention을 통해 CNN 피처와의 상관성을 모델링
- 계층적 특징을 얻는 과정
- 학습 및 평가: KITTI, NYU-Depth-v2, SUN RGB-D 데이터셋에서 학습 및 평가를 수행하여 모델의 성능을 입증
✅ 실험 결과
- DepthFormer는 KITTI, NYU, SUN RGB-D 데이터셋에서 최첨단 단안 깊이 추정 방법을 능가하는 성능을 보임
- 특히 KITTI 데이터셋의 깊이 추정 벤치마크에서 가장 경쟁력 있는 결과를 달성
✅ code
- start : https://github.com/zhyever/Monocular-Depth-Estimation-Toolbox/blob/main/docs/get_started.md#installation
- train : https://github.com/zhyever/Monocular-Depth-Estimation-Toolbox/blob/main/docs/train.md
- result : https://github.com/zhyever/Monocular-Depth-Estimation-Toolbox/blob/main/docs/inference.md
→ depth former 외에도 SimlPU, AdaBins, BTS, DPT, BinsFormer 등을 지원한다 함
✅ Reference
728x90
'PaperReview-Practice > PaperReviews' 카테고리의 다른 글
[논문리뷰] NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis (0) | 2023.06.01 |
---|---|
[논문소개] Collision avoidance (0) | 2022.12.27 |
Social aware robot , 로봇 충돌회피 방법 _based on reinforcement learning [1] (2017) Dece (0) | 2022.07.27 |
[논문리뷰]Manipulation Grasping [Vision-based Robotic Grasping From Object Localizat (0) | 2022.03.05 |
[논문리뷰 - 6dof pose estimation] PoseCNN (0) | 2021.12.20 |