(헬스&사이언스)메타 강화학습의 한계 돌파: 낯선 환경에서도 쉽게 적응하는 AI
UNIST 연구팀 '과제 인식형 가상 훈련(Task-Aware Virtual Training)' 기법 개발
훈련받지 않은 상황에 약한 피지컬 AI의 난제 해결에 새로운 가능성 열려
2025-08-27 09:30:59 2025-08-27 14:07:46
피지컬 AI는 훈련받지 않은 상황을 일반화할 수 있는 능력이 떨어지는 한계가 있다. (사진=게티이미지뱅크)
 
[뉴스토마토 서경주 객원기자] 인공지능(AI)의 발전은 눈부십니다. 체스와 바둑을 제패하고, 자율주행차를 도로에 등장시킨 것도 AI의 강화학습 덕분입니다. 그러나 강화학습은 늘 한 가지 약점을 안고 있었습니다. 바로 훈련되지 않은 상황(out-of-distribution, OOD)에 대한 일반화 부족입니다. 
 
예를 들어보겠습니다. 걷고 달릴 수 있는 사람이라면 ‘빠르게 걷기’쯤은 식은 죽 먹기입니다. 발을 얼마나 자주 떼고, 보폭을 어떻게 조절하는지 배우지 않아도 ‘감’으로 알기 때문입니다. 반면 피지컬 AI 로봇은 걷기나 전력 질주를 잘 배웠더라도 적당히 달리는 새로운 임무를 받으면 다리 각도나 힘 조절을 제대로 못 해 엉뚱한 동작을 하거나 멈출 수 있습니다. 
 
이번에 발표된 “과제 인식형 가상 훈련: 분포 밖 과제를 위한 메타 강화학습의 일반화 능력 향상(Task-Aware Virtual Training: Enhancing Generalization in Meta-Reinforcement Learning for Out-of-Distribution Tasks)”은 바로 이런 난제를 해결하기 위한 새로운 접근을 제시합니다. 연구진은 메타 강화학습(meta-reinforcement learning, Meta-RL)과 가상훈련(virtual training)을 결합하여, AI가 낯선 상황에서도 유연하게 적응하도록 설계했습니다. 
 
메타 강화학습의 한계 극복
 
메타 강화학습은 한마디로 “학습하는 법을 학습한다”는 개념입니다. 단일한 작업에 특화된 기존 모델과 달리, Meta-RL은 여러 작업 경험을 통해 새로운 과제에도 빠르게 적응하도록 훈련됩니다. 그러나 문제는 여전히 남아 있습니다. 메타 강화학습이 ‘범용성’을 지녔다고 해도, 결국은 훈련 데이터가 커버하는 범위 내에서만 잘 작동한다는 점입니다. 훈련 중 한 번도 보지 못한 상황, 즉 분포 밖 과제(OOD tasks)까지 일반화하는 능력이 없습니다. 
 
제1저자인 울산과학기술원(UNIST) 김정모 연구원은 “기존 강화학습은 하나의 임무에서 최적의 정책을 익히도록 설계돼, 새로운 상황에서는 성능이 급격히 떨어집니다. 다양한 임무를 경험하게 하는 메타 강화학습 기법도 있지만, 훈련 범위를 벗어난 상황(Out-Of-Distribution)에서는 여전히 적응이 쉽지 않습니다”라고 설명했습니다. 연구진이 제안한 핵심 아이디어는 “AI가 훈련 중 가상적으로 새로운 과제를 경험하도록 만드는 것”입니다. 
 
이를 위해 '과제 인식형 가상 훈련', 곧 TAVT 기법은 훈련 단계에서 실제 주어진 과제를 변형·재구성하여, 기존 데이터 분포를 벗어난 가상 시나리오를 만들어냅니다. 이렇게 가상으로 확장된 환경에서 메타 강화학습 모델은 마치 ‘낯선 상황을 미리 연습해 본 듯한 효과’를 얻게 됩니다. 
 
연구진은 이 과정을 “과제 인식형 변형(task-aware perturbation)”이라고 명명했습니다. 단순히 무작위 잡음을 추가하는 것이 아니라, 과제의 본질적 속성(목표, 제약 조건, 보상 구조)을 유지한 채 주변 요소만 다양하게 변화시킨다는 점에서 차별화되는 방법입니다. 
 
실험은 로봇 제어와 가상 환경에서 진행됐습니다. 예를 들어, 로봇 팔이 물체를 잡는 과제를 학습할 때, 가상 훈련에서는 물체의 모양, 위치, 마찰 계수 등을 무작위로 바꾼 시나리오가 추가되었습니다. 
 
그 결과 TAVT를 적용한 Meta-RL 모델은 기존 방법보다 분포 밖 환경에서 최대 35% 높은 성공률을 기록했습니다. 특히 주목할 점은, 모델이 실제로 본 적 없는 환경에서도 빠르게 적응하며 학습 속도도 유지한 것입니다. 
 
‘안전한 자율 AI’로 가는 청신호
 
이 연구의 파급력은 상당할 것으로 기대됩니다. 자율주행차를 예로 들면, 도로 환경은 시시각각 달라집니다. 날씨, 교통 체계, 보행자 행동이 훈련 데이터와 달라지는 경우는 허다합니다. 기존 모델이라면 당황할 수 있지만, TAVT 기반 학습을 거친 자율주행 AI라면 “처음 보는 상황에서도 대응할 수 있는 능력”을 지닐 수 있습니다. 또한 드론 탐사, 우주 로봇, 의료 로봇 등 데이터 수집이 어렵고 환경 변화가 심한 분야에서도 안정성을 크게 높일 수 있을 것으로 기대됩니다. 
 
이번 연구의 교신저자인 한승열 교수는 “이번 기법은 AI 에이전트의 임무 일반화 성능을 높일 수 있는 방식으로, 피지컬 AI 로봇이나 자율주행차·드론 등 다양한 상황에서 유연한 대응이 필수적인 분야에 폭넓게 활용될 수 있을 것”이라고 전망했습니다. 
 
그러나 일부 연구자들은 TAVT가 여전히 훈련 환경 설계자의 주관에 크게 의존한다고 지적합니다. “어떤 변형을 가상으로 넣어야 할지”를 사람이 정하는 과정에서 편향이 생길 수 있다는 것입니다. 또한, 훈련에 추가된 가상 시나리오가 지나치게 많아지면 계산 비용이 증가할 수 있습니다. 
 
연구진도 이러한 한계를 인정하며, 향후 연구 과제로 자동화된 가상 과제 생성과 효율적 샘플링 전략 개발을 제시했습니다. 즉, AI 스스로 ‘어떤 새로운 상황을 시뮬레이션해야 일반화에 가장 도움이 되는지’를 판단하는 단계로 나아가야 한다는 것입니다. 
 
관련 논문 링크: https://arxiv.org/abs/2502.02834
 
피지컬AI의 적응력을 높일 수 있는 메타강화학습 기법을 개발한 울산과학기술원(UNIST) 한승열 교수와 연구팀은 이 학습법을 적용해, 치타로봇이 새로운 목표 속도에 맞춰 주행하도록 하는 데 성공했다. (이미지=UNIST)
 
서경주 객원기자 kjsuh57@naver.com
이 기사는 뉴스토마토 보도준칙 및 윤리강령에 따라 강영관 산업2부장이 최종 확인·수정했습니다.

ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지

관련기사
0/300

뉴스리듬

    이 시간 주요 뉴스

      함께 볼만한 뉴스