본문 바로가기
카테고리 없음

Google의 Gemini AI 로봇 - 인간의 행동을 배우다

by 디지털 리퍼블릭 2025. 3. 14.
반응형

Google DeepMind가 2025년 3월 12일 발표한 Gemini Robotics는  "AI를 현실세계로 가져온다: Gemini Robotics brings AI into the physical world") 라는 블로그를 발표하였다.

 

Gemii AI 로봇 기술 개요:

Gemini 2.0을 기반으로 설계된 AI 모델로, 로봇이 물리적 세계를 이해하여 물체를 다루고 공간을 탐색하며,  인간의 지시(자연어)로 지능적으로 동작할 수 있다. 이 기술은 Gemini RoboticsGemini Robotics-ER (Embodied Reasoning) 두 가지 주요 모델로 나뉜다

  1. Gemini Robotics는 시각-언어-행동(VLA) 모델로, 텍스트, 이미지, 오디오, 비디오 등 다중 모달 데이터를 활용해 로봇이 새로운 상황에서도 스스로 추론하고 행동하도록 지원한다.  
  2. Gemini Robotics-ER은 경량화된 축소 버전으로, 공간 추론 능력을 개선하여 로봇 연구자들이 자신만의 AI 시스템을 훈련할 수 있도록 설계되었다. Gemini Robotics-ER은 공간적 추론에 특화된 모델로, 로봇이 물체의 위치와 상호작용 가능성을 파악해 복잡한 작업을 계획하고 실행하게 한다.

주요 특징:

  • 일반화된 지능: 새로운 작업 및 환경에 빠르게 적응
  • 멀티모달 학습: 텍스트, 이미지, 현실 데이터를 처리해 복합 작업 수행
  • 손재주 및 문제 해결: 종이접기, 물품 포장 등 정밀한 작업 수행 가능
  • 안전성 강화: 위험 평가 데이터셋 도입
  • 산업 응용: Apptronik 등과 협력해 차세대 휴머노이드 로봇 개발

DeepMind의 노력은 자율 로봇 도입을 현실화할 중요한 단계가 될 수 있다. 

AI 로봇 구현 :

 
로봇은 다양한 형태와 크기로 존재하기 때문에, Gemini Robotics는 서로 다른 로봇 유형에 쉽게 적응할 수 있는  다중 구현 (Multiple Embodiments)이 가능하도록 설계되었다.
딥마인드는 주로 양팔 로봇 플랫폼인 ALOHA 2(https://aloha-2.github.io/) 에서 수집된 데이터를 통해 훈련시켰지만, 학계 연구실에서 널리 사용되는 Franka 팔을 기반으로 한 양팔 플랫폼도 제어할 수 있음을 입증했다.
 
딥마인드는 Apptronik(https://apptronik.com/)의  휴머노이드 로봇  Apollo와 같은 과 같은 훨씬 복잡한 모델에 적용 가능하며, 다양한 하드웨어에서 일반화된 성능을 보여준다고 밝혔다.
 
아래와 같이 Gemini Robotics는 다양한 로봇에서 작동 가능하다.
 
 
로봇은 과일 옮기기, 종이접기, 주사위 맞추기 등 정밀한 손재주가 필요한 작업을 수행할 수 있다는 것을 보여 주었다.
동작 수행중 명령이 바뀌거나 환경이 변해도 실시간으로 적응한다. 예를 들어, 과일을 담을 통의 종류를 바꾸라고 명령하거나, 통의 위치가 바뀌어도 실시간으로 수용한다.
 
 
이 기술은 로봇의 이해력, 상호작용성, 적응성, 정밀성을 강화하며, 안전성을 위해 ASIMOV 벤치마크와 같은 새로운 평가 기준도 도입했다.

(참고) ASIMOV 벤치마크: 로봇이 물리적 세계에서 안전하고 책임감 있게 작동하도록 보장하는 데 기여 목적으로 로봇의  안전성에 대한 평가와 개선을 위한 중요한 도구, 로봇의 의미론적 안전성을 평가하고 향상시키기 위한 대규모 데이터셋 모음. 이 벤치마크는 텍스트와 이미지 생성 기술을 활용하여 실제 시각적 장면과  바람직하지 않은 상황을 생성하여 구축

예를 들어, 로봇이 커피잔을 인식하고 손잡이를 잡아 안전하게 이동하거나, 위험한 행동을 피하도록 훈련된다. Google은 이를 통해 가정, 직장 등 실생활에서 유용한 범용 로봇 개발을 목표로 삼고 있다.

https://youtu.be/HyQs2OAIf-I

 

기존 AI 로봇 기술 대비 차별점:

  1. 다중 모달 통합과 일반화: 기존 AI 로봇 기술(예: Google의 RT-2, Physical Intelligence의 모델)은 주로 특정 작업에 특화되거나 사전 훈련된 시나리오에 의존했다. 반면, Gemini Robotics는 Gemini 2.0의 멀티모달 추론 능력을 활용해 새로운 객체, 명령, 환경에서도 학습 없이 일반화된 행동을 수행한다.
  2. 실시간 적응성: 기존 모델은 환경 변화나 명령 수정에 즉각 대응하는 데 한계가 있었다. Gemini Robotics는 상황 변화를 감지하고 작업을 조정하며, 중단 후에도 스스로 작업을 재개할 수 있다.
  3. 정밀성과 공간 추론: Gemini Robotics-ER은 물체의 공간적 관계와 상호작용 가능성을 분석해 섬세한 작업(예: 종이접기)을 가능하게 한다. 이는 기존 로봇이 단순 반복 작업에 머물렀던 점과 차별화된다.
  4. 안전성 강조: 기존 기술은 AI 로봇의 오작동이나 위험 행동에 대한 대비가 부족했다. Gemini Robotics는 안전 평가 프레임워크(ASIMOV)를 통해 위험을 최소화하며, 윤리적 로봇 행동을 보장하려 한다.

Gemini Robotics 응용 방안 예시:

  1. 산업 응용:
    • 제조업: 공장에서 부품 조립, 포장 등 정밀 작업을 자동화하려면, Gemini Robotics를 기존 로봇 팔에 통합하고, 작업 환경 데이터를 실시간으로 학습시키는 시스템을 구축해야 한다.
    • 물류: 창고에서 물품 분류 및 운반을 위해 로봇에 카메라와 센서를 장착하고, Gemini Robotics-ER로 공간 인식과 경로 최적화를 훈련시킬 수 있다.
  2. 가정용 로봇:
    • 주방에서 요리 보조나 청소를 위해 로봇을 배치하려면, 다양한 가정 환경(가구 배치, 물체 종류)에 대한 사전 데이터 수집과 Gemini의 일반화 능력을 활용한 사용자 맞춤형 설정이 필요하다.
  3. 의료 분야:
    • 수술 보조나 환자 돌봄에 적용하려면, 로봇에 고해상도 카메라와 촉각 센서를 추가하고, Gemini Robotics-ER을 통해 의료 기기와 환자의 상태를 분석하도록 훈련시켜야 한다.
  4. 개발 및 배포:
    • 오픈소스 활용: Google은 Gemini Robotics-ER을 신뢰받는 테스터(예: Boston Dynamics)에게 제공 중이므로, 협업을 통해 특정 산업용 모델을 커스터마이징할 수 있다.
    • 하드웨어 통합: 로봇의 저수준 컨트롤러(움직임 제어 시스템)에 Gemini 모델을 연결하려면, API 개발과 실시간 데이터 처리 속도 향상이 필수다.

Gemini Robotics는 AI와 물리적 세계를 연결하는 혁신적인 기술로, 기존 로봇의 한계를 넘어 범용성을 제공한다.

이제 로봇 기술은 AI와 결합하여 현실세계로 들어와 인간이 하는 모든 행동을 학습하여, 인간의 행동을 모방하고, 나아가 창조할 것이다. 

쿼바디스 AI and Human being ~

 

반응형