본문 바로가기
전설.설화

RT-2 말하면 움직인다 : 로봇에게 '상식 + 행동'을 부여하다

by legendpark 2026. 3. 19.
반응형

[AI의 진화 시리즈 #4]

 

가토(Gato)'여러 가지 일을 할 수 있는 뇌'를 증명했다면, 오늘 소개할 **RT-2(Robotics Transformer 2)**는 그 뇌에 **'현실 세계의 상식'**을 장착한 사례입니다. AI가 화면 밖으로 나와 우리 집 거실에서 심부름할 준비를 마친 셈이죠.


RT-2: "나 졸려"라고 말하니 에너지 드링크를 가져왔다?

안녕하세요! 지난 포스팅에서 600가지 일을 해내는 팔방미인 AI '가토'를 만나보셨죠? 이제 AI는 한 단계 더 진화했습니다. 단순히 로봇 팔을 움직이는 수준을 넘어, 인간의 **'추상적인 명령'**을 알아듣고 행동하기 시작한 것이죠.

오늘의 주인공, 구글 딥마인드의 RT-2 이야기입니다.

 

🤖 로봇에게 "쓰레기를 치워줘"라고 하면 벌어지는 일

예전의 로봇들에게 "쓰레기를 치워줘"라고 하면 로봇은 고장 난 것처럼 멈춰버렸을 겁니다. 로봇 입장에서는 무엇이 쓰레기인지, 그걸 어디에 버려야 하는지 하나하나 코딩해줘야 했기 때문이죠.

하지만 RT-2는 다릅니다. 이 로봇에게는 따로 가르쳐주지 않아도 다음과 같은 **'상식'**이 있습니다.

  • 먹다 남은 과자 봉지는 쓰레기다.
  • 쓰레기는 쓰레기통에 버려야 한다.

RT-2는 인터넷상의 방대한 텍스트와 이미지를 미리 공부했기 때문에(VLM 기술), 별도의 로봇 학습 없이도 **"아, 인간들이 말하는 쓰레기가 저런 거구나!"**라고 스스로 판단해서 행동합니다.

 

🧠 VLA: 보고(Vision), 읽고(Language), 행동하라(Action)!

RT-2가 똑똑한 이유는 이른바 VLA 모델이기 때문입니다.

  1. Vision(시각): 카메라를 통해 눈앞의 사물을 봅니다.
  2. Language(언어): "졸린 사람을 도와줘"라는 인간의 말을 이해합니다.
  3. Action(행동): '졸음'과 '에너지 드링크'의 상관관계를 추론해 드링크를 집어 전달합니다.

놀라운 점은 RT-2 한 번도 본 적 없는 물체 앞에서도 당황하지 않는다는 거예요. 예를 들어, 로봇 학습 데이터에는 한 번도 등장하지 않았던 '새로 나온 공룡 인형'을 보고도 "멸종된 동물 인형을 집어줘"라는 명령을 수행해냅니다. 인터넷에서 배운 지식을 실제 근육(로봇 팔)으로 연결한 덕분이죠.

 

🏠 우리 집 거실로 들어올 AI 비서

RT-2의 등장은 AI가 모니터 속 디지털 세상에만 갇혀 있지 않을 것임을 선언한 사건입니다.

  • "식탁 위에 지저분한 것 좀 치워줘"
  • "아이들이 다치지 않게 위험한 물건을 옮겨줘"

이런 막연한 명령을 수행할 수 있는 로봇 비서의 시대가 성큼 다가온 것이죠. 물론 아직은 움직임이 조금 느리고 연산량이 많다는 숙제가 있지만, **'뇌와 몸이 완벽하게 연결된 AI'**의 탄생은 그 자체로 거대한 혁명입니다.


💬 마무리 한마디

가토가 "나 이것도 할 줄 알고, 저것도 할 줄 알아!"라고 자랑하는 단계였다면, RT-2"네가 뭘 원하는지 알아, 내가 직접 가서 해줄게"라고 말하는 단계입니다. 이제 로봇은 더 이상 공장의 기계가 아니라, 우리의 말을 알아듣는 똑똑한 파트너가 되어가고 있네요.

"여러분이 집에 로봇 비서가 있다면, 가장 먼저 시키고 싶은 심부름은 무엇인가요?"


[다음 편 예고] 

 

[AI의 진화 #5] 알파코드(AlphaCode): "코딩은 이제 제가 할게요, 주인님은 기획만 하세요" 

로봇 팔을 움직이는 것보다 더 정교한 논리가 필요한 영역, 바로 프로그래밍입니다. 인간 개발자들을 긴장하게 만든 코딩 천재 AI, 알파코드 이야기를 다음 시간에 나눠볼게요!

 

[추가 정보 분석]

 

가토(Gato)가 "다양한 일을 할 수 있는 뇌"를 증명했다면, **RT-2(Robotics Transformer 2)**는 그 뇌를 실제 로봇의 몸과 완벽하게 결합한 '비전-언어-행동(VLA)' 모델의 결정체입니다. 2023년 구글 딥마인드가 발표한 RT-2는 인공지능이 화면 속 데이터를 넘어 물리적 현실을 어떻게 '이해'하고 '조작'하는지를 보여줍니다.

RT-2의 혁신성과 기술적 깊이를 분석합니다.


[분석] "말하면 움직인다"… RT-2, 로봇에게 '상식'과 '근육'을 동시에 부여하다

과거의 로봇에게 "쓰레기를 치워줘"라고 명령하려면 쓰레기가 무엇인지, 어떻게 줍는지, 어디에 버리는지를 수만 번 학습시켜야 했습니다. 하지만 RT-2는 다릅니다. 이 모델은 인터넷의 방대한 지식을 바탕으로 "쓰레기"라는 개념을 스스로 이해하고, 별도의 추가 학습 없이도 처음 보는 물체를 치울 수 있는 수준에 도달했습니다.

 

1. 기술적 진화: VLM에서 VLA로 (Vision-Language-Action)

RT-2의 핵심은 기존의 시각-언어 모델(VLM)에 **'행동(Action)'**을 직접 통합한 것입니다.

구분 RT-1 (이전 모델) RT-2 (현재 모델)
기반 기술 로봇 동작 데이터 위주의 학습 거대 언어-시각 모델 (PaLM-E, PaLI-X)
학습 방식 명령과 동작의 1:1 매칭 웹 데이터(상식) + 로봇 동작 데이터 결합
추론 능력 학습된 동작만 반복 추론 및 일반화 (처음 본 물체 처리 가능)
결과물 단순 동작 신호 텍스트 토큰 형태의 동작 명령

2. RT-2의 3대 혁신 포인트

  • 상식의 전이 (Knowledge Transfer): RT-2는 웹상의 수조 개의 텍스트와 이미지를 학습한 거대 모델을 기반으로 합니다. 덕분에 "공룡 인형을 멸종된 동물 옆에 놔줘"라는 복잡한 명령을 받으면, '공룡'이 '멸종된 동물'이라는 상식을 활용해 작업을 수행합니다. 로봇에게 '멸종'이 무엇인지 따로 가르칠 필요가 없어진 것입니다.
  • 동작의 토큰화 (Action as a Language): RT-2는 로봇의 팔을 움직이는 수치 데이터마저 '언어'처럼 처리합니다. "오른쪽으로 10cm 이동"이라는 명령을 하나의 단어(토큰)처럼 인식하여, 언어 모델의 강력한 예측 능력을 로봇 제어에 그대로 이식했습니다.
  • 제로샷(Zero-shot) 및 추론 능력: 학습 과정에서 한 번도 본 적 없는 새로운 환경이나 물체를 마주해도, 기존에 알고 있던 시각적 정보와 논리를 결합해 최선의 행동을 찾아냅니다. 특히 '연쇄 법칙(Chain-of-thought)' 추론을 적용하면 "나 지금 너무 졸려"라는 말에 '에너지 드링크'를 가져다주는 수준의 다단계 판단도 가능합니다.

 

3. 현실 세계의 게임 체인저가 된 RT-2

 

RT-2는 AI가 단순히 모니터 속의 비서가 아니라, 우리 집 거실이나 공장에서 직접 일을 돕는 '물리적 에이전트'로 진화했음을 상징합니다.

  • 범용 로봇의 탄생: 특정 공정만 반복하는 로봇이 아니라, 말귀를 알아듣고 유연하게 대처하는 로봇의 시대를 열었습니다.
  • 복잡한 명령 수행: "안경 쓴 사람에게 음료를 가져다줘"나 "가장 가벼운 물체를 골라줘" 같은 상대적이고 추상적인 명령을 실시간 시각 정보를 통해 해결합니다.

"RT-2는 고도의 논리적 사고와 저수준의 물리적 제어 사이의 벽을 허물었다. 이제 로봇은 세상을 보고, 읽고, 행동한다."
— 구글 딥마인드 연구팀

 


함께 주목할 변화:

 

RT-2는 모델 규모가 매우 커서 실시간 제어 속도(약 1Hz)가 다소 느리다는 숙제가 있었습니다. 하지만 최근에는 이를 경량화하여 더 빠르게 움직이게 하거나, **제미나이(Gemini)**와 같은 최신 멀티모달 모델을 로봇에 이식하려는 시도가 이어지고 있습니다.

다음으로 무엇이 궁금하신가요?  다음 편에서는 [AI의 진화 #5] 알파코드(AlphaCode)에 관해서 알아보겠습니다.