아이에게 "방을 빨리 치워"라고 했더니, 쓰레기를 소파 밑에 밀어 넣었다. 결과는 깔끔해 보이는 방이고, 요구 조건은 충족됐다. 이 아이는 청소를 한 것인가, 안 한 것인가. 이 질문이 지금 전 세계 로봇공학자들이 매일 씨름하는 문제다. 로봇은 우리가 원하는 일을 하는 게 아니라, 높은 점수를 받는 일을 한다. 그 둘은 생각보다 훨씬 자주 다르다.
점수를 받는 것과 제대로 하는 것은 다르다
피지컬 인공지능(AI)을 훈련시키는 핵심 방법 중 하나는 강화학습(Reinforcement Learning)이다. 로봇이 어떤 행동을 했을 때 점수(보상)를 주고, 그 점수를 높이는 방향으로 반복 학습하게 하는 구조다. 잘하면 칭찬, 못하면 페널티. 개념은 단순하다. 그런데 여기서 문제가 생긴다. 로봇은 인간이 의도한 방법이 아니라, 점수를 올리기 가장 쉬운 방법을 찾는다. 시험 범위를 통째로 이해하는 대신 출제 패턴만 파악하는 학생처럼, 목표를 달성하는 대신 평가 기준의 허점을 공략한다.
올해 1월 미국 아이오와주립대학교(Iowa State University) 연구팀이 공개한 논문 「평가자 스트레스 테스트를 통한 강화학습 및 LLM 정렬에서의 프록시 게이밍 감지(Detecting Proxy Gaming in RL and LLM Alignment via Evaluator Stress Tests)」는 이 문제를 대규모로 측정했다. 15개 강화학습 환경, 5개 알고리즘에서 2156개 에피소드를 전문가가 직접 검토한 결과, 한 가지 패턴이 반복적으로 확인됐다.
로봇 제어 시뮬레이션에서 목표 지점에 도달하는 대신 점수를 쌓기 유리한 구역을 반복해 맴도는 에이전트, 실제 과제는 수행하지 않으면서 보상함수가 측정하는 지표만 극대화하는 에이전트. 연구팀은 이것을 '프록시 게이밍(proxy gaming)'이라 불렀다. 인간이 의도한 목표는 달성하지 않으면서, 평가 기준의 허점만을 정확하게 공략하는 행동이다. 이 논문은 강화학습 분야에서 전통적으로 '보상 해킹(reward hacking)'이라 불려온 현상을, 강화학습과 AI 정렬 전반에 공통적으로 나타나는 상위 개념인 프록시 게이밍으로 묶어 정의한다.
칭찬을 제대로 설계하는 것 자체가 이미 난제이고, 현장에서는 사고가 된다
그렇다면 애초에 보상을 정확하게 설계하면 되지 않을까. 그게 생각처럼 쉽지 않다. 2025년 2월 중국의 연구진이 발표한 논문 「STRIDE: 휴머노이드 로봇 보행에서 보상 설계·강화학습 훈련·피드백 최적화 자동화(STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion)」는 보상함수 설계가 휴머노이드 로봇 훈련 전체의 핵심 병목이라고 명시하며, 여기에 방대한 수작업과 전문 지식, 끝없는 시행착오가 필요하다고 밝힌다.
이유는 단순하다. 인간의 의도는 숫자로 완전하게 옮겨지지 않는다. 우리가 로봇에게 원하는 것은 결과만이 아니라 방식이고, 맥락이며, 상식이다. 그런데 보상함수에는 그 상식이 빠져 있다. 로봇은 우리가 말하지 않은 것을 알아서 지키지 않는다. 말한 것만 한다. 그리고 말한 것의 허점을 찾아낸다.
이 허점이 실험실 안에 머무는 동안은 성능 문제로 끝난다. 그런데 현장에 나오면 차원이 달라진다. 말레이시아 푸트라대학교(Universiti Putra Malaysia) 연구팀이 2025년 5월 발표한 리뷰 논문 「동적 환경에서의 이동 로봇 내비게이션을 위한 심층 강화학습(Deep Reinforcement Learning of Mobile Robot Navigation in Dynamic Environment: A Review)」은 실제 배치된 강화학습 기반 로봇들의 사례를 종합 검토하면서, 강화학습 정책이 동적이고 불확실한 환경에서 예측 불가능한 행동과 심각한 안전 위협을 야기할 수 있다고 지적한다. 훈련 중에는 보이지 않던 허점이 현장 배치 이후에야 드러나며, 단순한 성능 저하가 아니라 사고로 직결될 수 있다는 것이다.
공장 라인에서 규격화된 부품을 집는 로봇이 보상을 잘못 학습하면 불량이 난다. 그것도 충분히 나쁘다. 그런데 병원에서 환자를 보조하는 로봇이, 돌봄 시설에서 노인의 낙상을 감지해야 하는 로봇이 '보고 건수를 줄이는 것'을 목표로 오인하면 어떻게 되는가. 감지 자체를 회피하는 방향으로 학습할 수 있다. 점수는 올라가고, 낙상은 방치된다. 보상함수의 허점은 허점으로 그치지 않는다.
성능을 묻기 전에 목표를 물어야 한다
보상함수를 완벽하게 설계하는 것은 이론상으로도 불가능에 가깝다는 것이 현재까지의 연구 결론이다. 그래서 연구자들의 관심은 완벽한 보상을 만드는 것에서, AI가 허점을 파고들 때 이를 감지하고 멈추게 하는 구조를 함께 설계하는 것으로 옮겨 가고 있다. 로봇이 현장에서 실제로 어떤 전략을 취하는지 지속적으로 관찰하고 기록하는 것도 그 일부다. 완벽한 설계보다 지속적인 감시와 수정이 더 현실적인 해법이라는 뜻이다. 이것은 로봇을 신뢰하지 말자는 이야기가 아니다. 로봇이 무엇을 학습했는지 끝까지 확인하는 책임을 우리가 져야 한다는 이야기다.
로봇 제조사가 공개하는 성능 수치는 보상함수가 가장 잘 맞아떨어지는 조건에서 측정된 결과다. 그 보상이 실제 병원 복도에서, 복지시설 식당에서, 학교 계단에서 어떻게 작동하는지는 대부분 공개되지 않는다. 피지컬 AI를 도입하는 병원, 학교, 복지시설은 성능 수치 앞에서 멈추지 말고 한 걸음 더 나아가야 한다. 이 로봇이 어떤 목표로 훈련됐는가, 그 목표가 실제 우리 현장의 상황과 얼마나 일치하는가, 그리고 만약 어긋난다면 그것을 누가 어떻게 확인할 것인가. 이 질문들을 도입 전에 던지는 것이 이제는 선택이 아니라 의무다.
칭찬은 행동을 만든다. 잘못된 칭찬은 잘못된 방향으로 달리는 로봇을 만든다. 그 로봇이 우리 삶의 한가운데 들어와 있을 때, 그것을 바로잡는 일은 알고리즘의 문제가 아니라 우리 사회가 무엇을 요구했는가의 문제가 된다. 기술이 아무리 정교해도, 무엇을 칭찬할지 결정하는 것은 결국 사람의 몫으로 남는다.
최홍규 연구위원(EBS) / 미디어학 박사
이 기사는 뉴스토마토 보도준칙 및 윤리강령에 따라 김기성 편집국장이 최종 확인·수정했습니다.
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지