Stanford Robotics Seminar ENGR319
Quick Summary
Geometry in Robot Learning의 핵심은 로봇 학습을 무작정 더 큰 데이터와 모델로 밀어붙이기보다, 기하·대칭성·좌표계 구조를 모델에 넣어 데이터 효율성과 자세 일반화를 높이려는 것이다.
영상 보기
클릭 전까지는 가벼운 미리보기만 먼저 불러옵니다.
🖼️ 인포그래픽
🖼️ 4컷 인포그래픽
💡 한 줄 결론
Geometry in Robot Learning의 핵심은 로봇 학습을 무작정 더 큰 데이터와 모델로 밀어붙이기보다, 기하·대칭성·좌표계 구조를 모델에 넣어 데이터 효율성과 자세 일반화를 높이려는 것이다.
📌 핵심 요점
- 로봇공학은 수작업 기하 모델 기반 계획에서 VLA 같은 데이터 기반 일반 모델로 이동했지만, 전자는 현실 오차에 취약하고 후자는 많은 데이터가 필요하다는 한계를 가진다.
- 발표의 중심 질문은 기하·물리·역학적 구조를 완전히 버리지 않으면서, 머신러닝 기반 정책 학습의 장점을 살리는 중간 경로가 가능한지에 있다.
- VLA 구조에서는 이미지 패치와 position encoding 수준의 기하 정보가 self-attention과 action head를 거치며 희석되기 쉽고, 이 때문에 행동 학습 단계에서 pose variation을 다시 데이터로 배워야 한다.
- 등변 diffusion policy는 입력이 이동·회전하면 출력 action이나 flow field도 같은 방식으로 변환되도록 모델을 제약해, 로봇이 공간 변환을 별도 사례처럼 학습해야 하는 부담을 줄인다.
- 발표 사례에서는 point cloud 기반 등변 diffusion policy가 MimicGen에서 100개 demonstration만으로 기본 diffusion policy의 1,000개 demonstration 성능을 넘는다고 설명되며, RGB·ray·stereo 기반 접근도 각각 정밀 조작, 다중 시점, 국소 이미지 궤적 학습의 장점을 보여준다.
🧩 배경과 문제 정의
- 로봇공학의 중심은 수작업 기하 모델 기반 계획에서 데이터 기반 일반 모델로 이동해 왔지만, 두 접근 모두 분명한 한계를 지닌다.
- 기하 모델은 적은 데이터로도 강력한 계획을 가능하게 하지만, 현실의 위치·물체·환경 추정이 어긋나면 실행 실패로 이어질 수 있다.
- 일반형 VLA 모델은 환경 데이터에서 직접 학습해 모델 오차를 줄일 수 있지만, 기하 구조를 내부에서 잃기 쉽고 대규모 학습 데이터가 필요하다.
- 핵심 과제는 기하·물리·역학적 구조를 유지하면서도 머신러닝 기반 정책 학습의 장점을 살릴 수 있는 중간 경로를 찾는 것이다.
🕒 시간순 섹션별 상세정리
1. 수작업 기하 모델과 일반ist 모델의 대비
- 최근 30년 로봇공학의 흐름은 수작업으로 구조화된 기하 모델 기반 계획과 오늘날의 일반ist 모델, 특히 VLA 계열로 나뉜다 [00:22]
- 수작업 기하 모델은 모델 기반 계획의 기반이었고, 물체와 환경을 기하적으로 구성해 로봇 행동을 계산하는 방식에 가까웠다 [00:42]
2. 두 접근의 핵심 한계와 중간 지대의 질문
- 기하 모델은 강력하지만 많은 가정에 의존하며, 그 가정이 현실과 어긋나면 물체 위치 오추정으로 집기 같은 기본 작업도 실패할 수 있다 [01:04]
- 머신러닝 모델은 환경 데이터에서 직접 학습해 모델 불일치를 줄이지만, 그만큼 막대한 학습 데이터가 필요하다는 한계가 커진다 [01:44]
3. VLA 구조에서 사라지는 기하 정보
- 대표적인 VLA 구조는 CLIP 기반 시각·언어 인코더, 큰 diffusion transformer, action head의 조합으로 구성된다 [04:12]
- Maniflow, block transformer, XVLA 역시 시각 인코더와 diffusion transformer 또는 self-attention 기반 구조를 공유하며, 큰 틀에서는 유사한 VLA 패턴을 따른다 [04:40]
4. 기하를 보존하는 관찰 표현과 네 가지 연구 축
- 핵심 목표는 관찰을 인코딩할 때 기하 정보를 일부 보존하고, 그 구조를 정책 학습 개선에 활용하는 방법을 찾는 것이다 [06:40]
- 최근 연구는 세계를 point cloud, 2-sphere 위 embedding, 3D ray, stereo image 등 여러 기하 표현으로 나타내고 비교하는 방향으로 전개된다 [07:18]
5. 등변 diffusion policy와 대칭성 기반 물리 구조
- 등변 diffusion policy는 point cloud의 기하 구조를 활용해 정책 학습을 개선하고, 물리의 보존 법칙에 가까운 구조를 모델 안에 반영하려는 접근이다 [09:35]
- Emmy Noether의 정리는 물리의 보존 법칙과 현실 세계의 대칭성 사이의 대응 관계를 보여주며, 시간 대칭성은 에너지 보존과 연결된다 [10:02]
6. 이동·회전 대칭성과 diffusion policy의 등변 조건
- 이동·회전 대칭성을 모델에 포함하면 기하학적 추론이 쉬워지고, 로봇이 공간 변환을 별도의 사례처럼 다시 배워야 하는 부담이 줄어든다 [12:18]
- diffusion policy는 위치 공간 위의 flow field를 학습하므로, 입력이 이동하거나 회전하면 출력 flow field와 action chunk도 같은 방식으로 이동·회전해야 한다 [12:40]
7. 전이 동역학의 회전 불변성과 최적 정책의 등변성
- 평면 회전군 SO2 예시에서 같은 전이가 다른 방향으로 놓이면, MDP 관점의 전이 동역학도 회전 후 동일하게 유지될 것이라는 기대가 생긴다 [13:52]
- 현실에는 대칭이 깨지는 요소가 있을 수 있지만, 기본 편향은 “무엇이든 가능하다”가 아니라 회전 불변성을 우선 반영하는 쪽이어야 한다 [14:35]
8. 이미지 분할 예시로 보는 등변 함수의 의미
- 좋은 이미지 분할 함수라면 원본 이미지의 분할 결과와 회전된 이미지의 분할 결과가 동일한 회전 관계로 맞아야 하며, 이것이 등변성의 직관적 조건이다 [15:50]
- segmentation operator f가 있을 때, 회전된 입력의 segmentation은 원래 segmentation을 같은 각도로 회전한 결과와 같아야 한다 [16:06]
9. 3x3 convolution 예시와 파라미터 제약
- 3x3 이미지를 입력으로 받아 벡터를 출력하는 작은 convolution 모델에서, 입력을 90도 회전하면 출력 벡터도 같은 90도 회전을 따라야 한다 [17:35]
- 일반 convolution kernel은 18개의 자유 파라미터로 다양한 함수를 학습할 수 있지만, 목표는 그중 회전 등변성을 만족하는 함수만 남기는 것이다 [18:26]
10. Equivariant diffusion policy의 모델 구조
- equivariant diffusion policy는 단일 kernel 예시의 아이디어를 모델 전체로 확장해 각 layer가 등변성을 갖도록 만들고, end-to-end 등변 모델을 구성한다 [20:39]
- point cloud encoder는 SO2의 유한 부분군과 translation에 대해 등변인 point cloud transformer를 사용하며, 출력 diffusion transformer도 같은 방식의 등변성을 따른다 [21:11]
11. MimicGen benchmark와 데모 수에 따른 비교 조건
- 실험은 주로 MimicGen의 12개 task를 기준으로 하며, 비교 대상에는 diffusion policy, DP3, ACT, 여러 equidiff 변형이 포함된다 [22:47]
- 비교의 핵심은 point cloud 버전 equidiff이며, 성능 표는 100개·200개·1000개 demonstration으로 학습한 경우를 나눠 제시한다 [23:21]
12. point cloud 등변 diffusion policy의 데이터 효율성
- point cloud equivariant diffusion policy는 100개 demonstration만으로도 기본 diffusion policy가 1,000개 demonstration으로 얻는 성능을 넘어서며, 약 10배의 데이터 효율 개선을 보인다 [24:14]
- 강한 성능의 핵심은 point cloud encoder에 있으며, encoder부터 policy까지 등변 구조가 유지되어 pose 변화에 대한 일반화 부담을 줄인다 [24:38]
13. 물리 작업 성과와 유한 부분군의 한계
- 실제 물리 과제들은 단순한 장난감 문제가 아니며, coffee making을 제외한 대부분은 100개 미만 demonstration으로 수행되고 coffee making은 160개 demonstration이 필요하다 [26:12]
- 이는 흥미로운 로봇 작업에 반드시 큰 비전-액션 모델이 필요하다는 생각과 대비되며, 구조적 inductive bias가 작은 데이터에서도 실용적 성과를 낼 수 있음을 보여준다 [26:19]
14. RGB 이미지를 구면 위 표현으로 바꾸는 두 번째 접근
- 두 번째 접근은 단일 RGB 이미지를 직접 활용하는 문제에서 출발하며, 2D 이미지를 SE(3)나 3D 세계에 어떻게 embedding할지가 초기 난점이다 [29:09]
- 일반적인 deep learning pipeline은 이미지를 ResNet encoder에 넣는 방식에 가깝지만, 이 방법은 이미지를 two-sphere 위에 embedding해 SO(3) 회전을 적용할 수 있는 표현으로 변환한다 [29:27]
15. spherical harmonics와 SO(3) convolution을 통한 기하학적 처리
- sphere 위 함수는 Fourier transform으로 변환되며, two-sphere 위 함수의 Fourier basis로 spherical harmonics가 사용된다 [30:42]
- 이후 Fourier space에서 two-sphere convolution과 SO(3) convolution이 이어지고, SO(3) convolution에는 Wigner D matrix 계열의 basis가 사용된다 [31:08]
16. RGB 등변 모델의 성능과 실패 모드 개선
- RGB 기반 모델은 point cloud equivariant diffusion policy만큼 강하지는 않지만, eye-in-hand 이미지를 포함한 image input을 직접 사용할 수 있다는 장점이 있다 [32:22]
- MimicGen benchmark에서는 100개 demonstration으로 baseline의 200개 demonstration보다 약간 나은 성능을 보이며, 데이터 효율성은 약 2배 수준으로 개선된다 [32:40]
17. RGB 입력의 정밀 조작 장점과 남은 적용 범위
- coffee task를 포함한 실제 RGB 기반 작업들은 사소하지 않은 조작 과제이며, 모델은 대략 60~70개 demonstration 수준에서 수행 가능성을 보인다 [35:16]
- off-the-shelf 모델은 같은 demonstration 규모에서 이런 작업을 수행하기 어렵고, 구조적 등변성이 제한된 데이터 환경에서 실용적 차이를 만든다 [35:23]
18. 단일 카메라 한계에서 Raven의 ray 표현으로 전환
- 이전 접근은 단일 카메라에는 잘 맞지만, 여러 카메라로 확장하는 방식이 분명하지 않아 다중 시점 로봇 학습에서는 한계가 있다 [36:16]
- Raven은 이미지를 3D ray로 임베딩하며, 일반적인 픽셀 표현 대신 카메라 원점에서 이미지 패치 중심으로 향하는 벡터를 사용한다 [36:34]
19. 공통 기준좌표계에서 attention을 수행하는 기하 변환 attention
- Raven은 ray들을 다루기 위해 geometric transform attention을 사용하며, 표준 transformer attention에 좌표 변환 구조를 덧붙인다 [37:42]
- query, key, value는 각자의 회전 행렬이나 변환 행렬을 통해 공통 reference frame으로 옮겨지고, attention은 그 공통 좌표계에서 계산된다 [38:20]
20. Raven의 구조와 다중 시점·다중 모달리티의 장단점
- Raven 구조에서는 사전학습 ResNet이 이미지 패치를 만들고, 각 패치가 ray와 coordinate frame을 얻은 뒤 geometric transform attention 블록을 통과한다 [39:30]
- encoder 쪽 self-attention과 diffusion transformer decoder가 결합되고, action chunk를 표현하려는 좌표계에 토큰을 배치하는 세부 설계가 들어간다 [39:46]
21. Pix to Act의 카메라 배치와 이미지 평면 제어점 궤적
- Pix to Act는 말단 장치에 붙은 두 카메라가 그리퍼의 반대쪽을 바라보는 구성을 사용하고, 빨강·파랑·초록·주황 제어점 네 개로 그리퍼 움직임을 표현한다 [42:27]
- 모델의 목표는 3D 행동을 바로 예측하는 것이 아니라, 각 이미지 평면에서 keypoint trajectory를 추론해 원하는 말단 장치 움직임을 이미지 좌표계에 먼저 나타내는 것이다 [42:53]
22. Pix to Act의 multiview transformer와 diffusion head
- Pix to Act 모델에는 equivariant layer가 없고, 사전학습 ResNet이 agent view와 in-hand view 이미지를 인코딩해 여러 카메라 시점의 특징을 만든다 [43:25]
- in-hand view는 triangulation에 쓰이는 핵심 시점이고, agent view는 작업 맥락을 제공하는 context image 역할을 맡을 수 있다 [43:45]
23. 독립적 카메라 회전 증강으로 전역 구조를 무시하게 만드는 방식
- Pix to Act에서 더 중요한 요소는 data augmentation이며, domain randomization처럼 중요하지 않은 변수를 무작위화해 모델이 그 정보에 의존하지 않도록 만든다 [45:46]
- 이 경우 모델이 무시해야 하는 대상은 전역 구조이고, 평면 궤적 예측은 각 이미지 내부의 국소 구조에만 집중해야 한다 [46:18]
24. 사전학습 없이도 시점 일반화와 다중 과제 성능이 유지된다
- 모델은 이미지 안에서 직접 벌어지는 변화에 집중하면서 시점 변화에 강하게 일반화하고, MimicGen 결과 분류에서도 여러 비교 대상을 앞선다 [48:02]
- CLIP 인코더와 상당한 사전학습을 쓰는 LBM 모델보다, 사전학습이 없는 모델이 여전히 근소하게 앞서면서 구조적 설계의 효율성이 드러난다 [48:38]
25. 데이터만으로 승부하는 스케일링 전략은 비용 한계에 부딪힌다
- 언어 모델의 스케일링 법칙처럼 테스트 손실은 데이터 양 같은 변수에 대해 거듭제곱 법칙을 따르며, 로봇 학습에서도 유사한 경향이 관찰된다 [49:48]
- MimicGen에서는 100개, 200개, 1000개 데이터 지점만으로 작은 규모의 거듭제곱 법칙 피팅을 시도했고, 대규모 데이터 없이도 대략적인 스케일링 경향을 추정하려 했다 [50:27]
26. 기하와 등변성의 목표는 스케일링 곡선을 왼쪽으로 옮기는 것이다
- 더 많은 데이터가 유리하다는 사실은 변하지 않지만, 더 똑똑한 모델은 다른 모델이 데이터로 배워야 할 일반화를 구조적으로 처리해 같은 성능에 필요한 데이터량을 줄일 수 있다 [51:55]
- 3개에서 10개 수준의 물체 사이 강체 전방 모델링을 다룬 워크숍 연구에서는, 물체를 다면체로 표현하고 등변 모델을 적용했을 때 스케일링 법칙이 왼쪽으로 이동하는 듯한 결과가 나타났다 [52:35]
27. 로봇 학습은 완전한 수작업 모델이 아니라 물리 편향을 가진 더 똑똑한 모델로 이동한다
- 로봇 분야가 완전히 손으로 코딩된 원샷 모델로 돌아가지는 않겠지만, 현재의 데이터 중심 접근에서 더 물리 세계에 맞는 구조를 포함하는 방향으로 이동할 수 있다 [53:16]
- 더 똑똑한 모델은 스케일링 법칙을 이동시켜 같은 데이터가 더 큰 효과를 내게 하며, 편향-분산 트레이드오프 관점에서는 물리 세계에 맞는 편향을 모델에 주입하는 방식이다 [53:44]
28. 구조적 편향은 해를 막지 않는 범위에서 데이터 효율성을 높인다
- 등변 모델이 다루는 구조는 주로 번역, 회전, 좌표계 같은 제한된 범위이며, 구조를 많이 넣을수록 데이터가 찾을 수 있는 해를 막을 위험도 실제로 존재한다 [55:23]
- 완전히 모델링된 세계에 가까워질수록 구조가 해를 배제할 가능성은 커지지만, 현재 접근은 그 수준과는 거리가 있으며 주로 불변성에 대한 편향을 넣는 정도에 머문다 [56:06]
29. 촉각 데이터도 물리 좌표계로 옮기면 기하적 구조를 적용할 수 있다
- 촉각 데이터는 물리량이므로 물리 세계 좌표로 매핑할 수 있고, 다중 손가락 그리퍼에서는 손가락별 좌표계를 함께 추적해야 해 복잡성이 커진다 [58:03]
- 힘 데이터는 공간상에 국소화된 벡터로 볼 수 있어 기하적 추론의 대상이 되며, GelSight 같은 촉각 패드는 세계 좌표계를 가진 이미지처럼 다룰 수 있다 [58:32]
30. 구조화된 큰 모델과 데이터 활용의 관계
- 촉각 기반 GelSight 사례에서는 삽입 작업을 한 방향에서 학습한 뒤, 파지된 부품의 방향 변화와 회전에 대해 자동으로 일반화하는 방식이 가능하다 [1:00:00]
- 일반 모델은 더 많은 데이터를 요구할 수 있으며, 하드웨어를 고려하지 않는 범용 시스템에서는 정책 구조를 추가 데이터나 데모 생성, 카메라 시스템 감독에 어떻게 활용할지가 핵심 쟁점이 된다 [1:00:29]
31. IMU와 공통 기준좌표계의 필요성
- IMU가 있는 매니퓰레이터나 그리퍼에서는 중력 방향처럼 임의로 회전시킬 수 없는 기준이 생기며, 이런 조건에서 등변성 접근을 어떻게 적용할지가 새로운 쟁점이 된다 [1:02:09]
- 촉각 데이터와 마찬가지로, 좌표계나 기하학적 의미와 연결할 수 있는 데이터 소스는 이 접근법에 자연스럽게 맞으며, 결론적으로 로봇 학습의 핵심은 데이터 규모만이 아니라 물리 구조를 얼마나 잘 활용하느냐에 있다 [1:02:40]
🧾 결론
- 이 강연의 결론은 “기하 모델로 회귀하자”가 아니라, 로봇 학습 모델 안에 물리 세계의 구조적 편향을 적절히 넣어 데이터가 더 효율적으로 쓰이게 하자는 쪽에 가깝다.
- 등변성은 로봇이 회전·이동·좌표 변화 같은 반복적인 일반화를 데이터로 매번 다시 배우지 않게 만드는 핵심 장치로 제시된다.
- point cloud 접근은 데이터 효율성과 pose generalization에서 강하지만, 유한 부분군에 제한되고 정밀 조작에서는 RGB 정보가 더 적합할 수 있다는 한계도 함께 제시된다.
- RGB를 구면 위 표현으로 바꾸는 방식, Raven의 3D ray 표현, Pix to Act의 이미지 평면 keypoint trajectory 방식은 모두 기하 정보를 다른 형태로 보존하려는 시도다.
- 별도 검증이 필요한 부분은 발표에서 언급된 MimicGen 성공률, demonstration 수 대비 성능 개선 폭, pretraining 조건, 실제 물리 환경에서의 재현성이다.
📈 투자·시사 포인트
- 로봇 학습의 경쟁력은 단순히 더 많은 demonstration과 더 큰 VLA 모델을 확보하는 것뿐 아니라, 기하적 inductive bias를 얼마나 잘 설계하느냐에서도 갈릴 수 있다.
- 데이터 수집 비용이 큰 로봇 분야에서는 2배 또는 10배 수준의 데이터 효율성 개선이 실제 개발 비용과 실험 반복 속도에 큰 영향을 줄 수 있다.
- pose variation이 큰 조작 과제, 다중 시점 카메라, 촉각·IMU처럼 좌표계 정렬이 중요한 센서 데이터를 다루는 영역에서 구조적 모델 설계의 가치가 커질 가능성이 있다.
- 다만 등변 구조는 강한 제약이므로, 실제 환경의 비대칭성·카메라 calibration 오차·부분군 밖 회전·정밀 삽입 같은 문제를 얼마나 잘 처리하는지가 실용화의 관건이다.
- 투자 관점에서는 “대규모 데이터만 모으는 로봇 학습”보다 “데이터 효율성을 높이는 모델 구조, 센서 좌표계 통합, 시뮬레이션-실세계 일반화”를 함께 보는 접근이 더 중요해 보인다.
⚠️ 불확실하거나 확인이 필요한 부분
- point cloud equivariant diffusion policy가 “100개 demonstration으로 기본 diffusion policy의 1,000개 demonstration보다 낫다”는 결과는 강연 요약에 포함되어 있지만, 정확한 평균 산출 방식, task별 편차, 평가 episode 수는 원 논문·슬라이드 표 확인이 필요하다.
- RGB 기반 등변 모델의 “약 2배 데이터 효율성”과 “pretraining 사용 시 72% 성능”은 어떤 benchmark 평균인지, 어떤 baseline과 비교한 수치인지 추가 확인이 필요하다.
- MimicGen 점수가 성공률이라는 설명은 나오지만, 성공률 측정 조건, random seed, pose variation 범위, 실패 기준은 transcript 요약만으로는 충분히 특정하기 어렵습니다.
- 자막 기반 정리: 타임스탬프가 있는 자막을 기준으로 정리했으며, 고유명사·수치·인용은 원문 확인 필요 시 별도 검증한다.
- 영상 속 주장: 발표자의 해석·전망·비교는 확인된 외부 사실이 아니라 영상 속 주장으로 분리해 읽는다.
- 검증 필요: 수치, 기업 실적, 정책·시장 전망은 발행 전 최신 자료로 별도 검증이 필요하다.
✅ 액션 아이템
- Equivariant diffusion policy, RGB sphere embedding, Raven, Pix to Act를 “입력 표현 / 기하 구조 / 필요한 calibration / 장점 / 한계” 기준으로 비교표로 정리한다.
- MimicGen 관련 수치에서 100개·200개·1,000개 demonstration 조건, pretraining 여부, baseline 종류, success rate 정의를 원 발표 자료나 논문에서 확인한다.
- 현재 관심 있는 로봇 조작 과제를 pose variation이 큰 과제, 정밀 삽입이 중요한 과제, 다중 카메라가 필요한 과제로 나누고 어떤 표현이 적합한지 매핑한다.
- VLA 구조에서 기하 정보가 position encoding 수준에 머물고 self-attention에서 희석된다는 주장에 대해, 실제 사용 중인 VLA 아키텍처와 비교해 병목 지점을 점검한다.
❓ 열린 질문
- 큰 VLA 모델 자체에 등변성이나 reference frame 구조를 넣으면, 단순한 데이터 증강보다 데이터 효율성이 얼마나 더 좋아질까요?
- 기하적 inductive bias를 강하게 넣을수록 모델이 가능한 해를 배제할 위험이 있는데, 어떤 수준의 제약이 실제 로봇 작업에서 가장 안전한 균형점일까요?
- point cloud, RGB sphere embedding, 3D ray, stereo image 중 어떤 표현이 실제 하드웨어 환경에서 calibration 오류와 센서 노이즈에 가장 강할까요?