카메라로 모든 걸 보고 있다는 착각
카메라를 달면 로봇이 '본다'고 생각하기 쉽다. 틀렸다. 카메라는 빛을 전기 신호로 바꾸는 장치일 뿐이다. 그 신호를 '이것이 사람이고, 저것이 상자이며, 저 물체는 옮겨야 한다'는 판단으로 전환하는 것은 전혀 다른 계층의 문제다. 사람의 눈과 뇌가 하는 일의 복잡성을 우리는 평소에 의식하지 못한다. 너무 자연스럽게 이루어지기 때문이다. 로봇 공학자들은 그 자연스러움이 사실 얼마나 방대한 계산의 결과인지를, 그것을 기계로 재현하려는 과정에서 비로소 실감한다.
아직까지, 로봇은 '훈련받은 것'만 보는 한계가
로봇의 시각 시스템은 방대한 이미지 데이터로 학습한다. 수백만 장의 사진으로 '이런 형태가 의자다', '이런 윤곽이 사람이다'를 익힌다. 문제는 그 학습이 끝난 순간, 로봇의 시각은 사실상 고정된다는 점이다. 로봇은 훈련 데이터 안에서 익힌 세계는 비교적 잘 인식하지만, 그 바깥에서는 인식 정확도가 크게 떨어진다.
연구자들은 이것을 '분포 외 상황(OOD: Out-of-Distribution)'이라 부른다. 미국전기전자공학회(IEEE)와 일본로봇학회(RSJ)가 공동 주관하는 국제 지능형 로봇·시스템 학술대회(IROS)는 로봇공학 분야 최고 권위의 국제 학술대회다. 2025년 10월 항저우에서 열린 IROS 2025를 계기로 공개된 'RoboSense 2025 챌린지' 보고서는 이 문제를 정면으로 다룬다. 16개국 85개 기관 143개 팀이 참여한 이 대회는 로봇 인식 시스템이 센서 노이즈, 환경 변화, 플랫폼 이동이라는 실제 조건 아래 얼마나 쉽게 무너지는지를 체계적으로 측정했다. 보고서는 "최첨단 방법론도 훈련 때 보지 못한 조건 아래에서는 성능이 저하되는 경우가 많다"고 명시하며, 이것이 현재 로봇 인식 연구의 핵심 미해결 과제임을 확인한다.
빛이 바뀌면 눈이 먼다
구체적으로 무슨 일이 벌어지는가. 조명이 달라지면 로봇은 같은 물체를 다른 물체로 인식하거나 아예 감지하지 못하는 경우가 생긴다. 반사가 심한 금속 표면은 카메라에 전혀 다른 질감으로 잡힌다. 앞에 다른 물체가 겹치면, 즉 가려짐(occlusion)이 생기면 로봇은 물체가 사라졌다고 판단하기 쉽다. 사람이라면 물체의 일부만 보여도 전체를 유추하지만, 로봇은 그 유추를 훈련받은 범위 안에서만 할 수 있다. 훈련 때 본 적 없는 방식으로 가려진 물건은, 없는 것에 가깝다.
이 실패가 사소해 보이지 않는 이유는, 현실의 모든 환경이 예외 없이 OOD 조건을 포함하기 때문이다. 아침과 저녁 햇빛의 각도가 다르고, 창고의 형광등은 깜박이고, 병원 복도의 바닥 광택은 계절마다 달라진다. 로봇이 배치되는 어떤 현장도 그 로봇의 훈련 환경과 완벽하게 동일하지 않다. 그 간극이 곧 시각의 공백이 되고, 시각의 공백은 행동의 오류가 된다.
자기의 몸을 눈으로 배우는 로봇들
이 한계를 다른 방향에서 건드리는 연구가 있다.
2025년 6월 25일, 미국 매사추세츠공과대학교(MIT) 컴퓨터과학·인공지능연구소(CSAIL) 리 시저 레스터(Sizhe Lester Li) 연구팀이 학술지 '네이처(Nature)'에 발표한 논문이 그것이다. '뉴럴 자코비안 필드(NJF: Neural Jacobian Fields)'라 이름 붙인 이 시스템에서 로봇은 무작위로 움직이면서 그 움직임을 여러 대의 카메라로 관찰하고, 명령과 신체 반응 사이의 관계를 스스로 추론한다. 학습이 끝나면 단 하나의 카메라만으로 실시간 제어가 가능해진다. 외부 세계의 사물을 분류하는 것이 아니라, 자신의 몸 구조를 이해하는 데 시각을 사용하는 방식이다. 연구팀은 "이것은 로봇을 프로그래밍하는 방식에서 가르치는 방식으로의 전환"이라고 설명한다.
NJF가 OOD 문제를 직접 해결하는 것은 아니다. 로봇이 자기 신체를 이해하는 방법을 바꾼 것이지, 훈련 범위 밖의 세계를 더 잘 인식하게 만드는 연구가 아니다. 다만 시각을 고정된 분류 도구가 아니라 스스로를 관찰하는 수단으로 쓴다는 접근은, 로봇 시각의 역할에 대해 새로운 질문을 던진다.
우리가 보아야 할 것
기술이 정교해질수록 그것이 무엇을 보지 못하는지는 더 잘 감춰진다. 로봇의 눈이 특히 그렇다. 매끈하게 작동하는 시스템일수록 실패 조건은 안으로 숨고, 그 실패가 수면 위로 드러날 때는 이미 사고가 된 이후인 경우가 많다.
병원 이송 로봇이 어두운 복도에서 쓰러진 환자를 장애물로 판단할 수 있다. 창고 로봇이 평소와 다른 각도로 놓인 상자 앞에서 멈추지 않고 밀어버릴 수 있다. 돌봄 시설의 로봇이 익숙하지 않은 조명 아래 노인의 낙상을 감지하지 못할 수 있다. 이런 가능성들은 성능 사양서에 적히지 않는다. 제조사가 숨기기 때문이 아니라, 그 조건 자체가 훈련 데이터에 없었기 때문이다.
로봇을 도입하는 병원, 물류 현장, 돌봄 시설은 성능 수치보다 먼저 이 질문을 던져야 한다. "이 로봇은 어떤 조건에서 실패하는가." 그 답을 요구하고 확인하는 것이 피지컬 AI 시대의 도입 원칙이 되어야 한다. 로봇이 정말 모든 것을 보고 있는지는, 도입 후가 아니라 도입 전에 따져야 할 문제다.
최홍규 연구위원(EBS) / 미디어학 박사
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지