전 세계에서 가장 널리 사용되며 확장 가능한 실시간 개발 플랫폼의 강력한 기능을 활용하여
혁신을 가속화하고 빠르게 변화하는 업계 환경에서 차별화된 경쟁력을 확보하세요.
유니티를 통한 손쉬운 강화학습 환경 설계: 2021 RL 코리아 드론 딜리버리 챌린지 수상자를 만나다
주최사 | RL Korea
2022.02.15조회수 4,202
Indie Clinic
유니티 코리아가 후원하고 RL 코리아(Reinforcement Learning Korea, 강화학습 코리아)가 주최한 ‘2021 RL 코리아 드론 딜리버리 챌린지’ 행사가 성공적으로 종료되었습니다. 2017년 설립된 국내 최대 규모의 강화학습 관련 오픈 커뮤니티인 RL 코리아(Reinforcement Learning Korea )는 유니티로 구현된 시뮬레이션 환경에서 드론이 창고에서 물품들을 목적지로 빠르고 안전하게 배송하는 것을 목표로 효율적인 강화학습 알고리즘 설계를 위한 챌린지를 열었습니다. 총 28개 팀이 도합 861회의 챌린지 모델을 제출한 모습에서 강화학습에 대한 뜨거운 관심을 확인할 수 있었습니다. 가장 뛰어난 성적으로 최우수상을 받은 rmnz팀과, 유니티 머신러닝 에이전트(Unity Machine Learning Agents, 이하 ML 에이전트) v2.0에서 제공하는 알고리즘인 PPO 및 SAC를 사용하여 가장 우수한 성적을 받아 유니티 특별상을 받은 두 팀, Hwang팀과 NewBe팀과 함께 생생한 ‘2021 RL 코리아 드론 딜리버리 챌린지’의 이야기를 들어보았습니다.
현실감 있는 시뮬레이션 환경 현실에서 드론에 적용하기 위한 배달 강화학습 알고리즘을 수차례 시험하기엔 여러 제약 조건들이 많습니다. 반복된 시도와 실패를 통한 수정을 포함한 실제 상황을 가정한 선행연구가 강화학습 과정에는 중요하지만 현실에서 이를 수행하기에는 어려움이 컸습니다. 그러나 우수한 물리엔진을 탑재한 유니티를 통해 다양한 현실의 변수이 반영된 시뮬레이션 환경을 구축할 수 있었습니다.
“유니티를 활용하여 경우 간단하게 멋진 시뮬레이션 환경을 개발하는 것이 가능했습니다." - 민규식, RL 코리아 연구원
“유니티의 기존 장점인 렌더링의 우수함과 함께 강화학습 시뮬레이터 역할로도 매우 잘 만들어진 프로그램이라고 생각이 들은 기회였습니다.”
- 이현호, 2021 RL 코리아 드론 딜리버리 챌린지 최우수상 수상팀 rmnz
효율적인 배송 학습을 위한 다양한 시도
자칫 단순하게 보일 수 있는 드론을 통한 무인배달이라는 상황은 다양한 변수에 대한 고민이 필요했습니다. 팀 rmnz의 경우 드론이 현재 위치에서 가장 가까운 목적지를 선택하여 경로를 정할 경우 비효율적인 경로로 갈 수 있음을 알게 되어 전체 목적지를 고려한 경로의 탐색 알고리즘을 구현하고, 실제 학습에서 얻은 데이터를 활용하여 드론이 학습 시작 시 최단경로를 설정할 수 있도록 하였습니다.
현재 위치에서 가까운 목적지 순서로 이동하는 경로(파란색)가 전체 목적지를 고려한 경로(녹색)보다 길다.
또한 강화학습을 위한 알고리즘 역시 각 팀마다 다양한 알고리즘을 선택하여 학습을 진행했습니다. 각 알고리즘의 단계에서는 더 나은 학습 진행을 위해 데이터 전처리 및 보상함수 설정 등의 설계가 뒤따르기도 했습니다. 수치적 관측으로 충분한 데이터를 얻을 수 있었기에 불필요한 시각적 관측을 진행하지 않았고, 이를 통해 학습 시간을 단축시킬 수 있었습니다. 드론의 속도가 빠를수록, 비행 높이가 낮을수록 양의 보상을 주고, 이동 거리가 길어질 수록 음의 보상을 주게끔 구현하여 효율적인 이동경로를 학습하게 했습니다.
"드론이 목적지를 계산하면서 배달하는 경우 시간, 성능 측면에서 비효율적이라고 판단하였습니다. 따라서 목적지 계산과 물품 배달을 나누어서 진행하도록 변경하였습니다. 또한 강화학습 알고리즘도 중요하지만 데이터 전처리에 많은 노력을 기울였습니다.”
-이현호, 2021 RL 코리아 드론 딜리버리 챌린지 최우수상 수상팀 rmnz
반면 알고리즘 설계 과정에 집중하기 보다 유니티 ML 에이전트의 도움을 적극 받는 방법을 택해 우수한 성적을 낸 팀들도 있었습니다. 유니티 특별상을 받은 팀 Hwang은 유니티 ML 에이전트에서 제공하는 PPO(Proximal Policy Optimization)와SAC(Soft Actor Critic)을 이용하여 강화학습을 진행하여 전체 4등이라는 쾌거를 이루었습니다. 직접 구현하는 것에 비해서는 자유도가 낮지만 ML 에이전트에서 제공하는 접근성 높은 RND, ICM과 같은 모듈을 적극 활용한 결과였습니다. 강화학습 분야에서 완전한 초보였던 팀 NewBe 역시 ML 에이전트-learn을 통해 강화학습을 배우고, 여러 사례를 참고하여 좋은 결과를 만들었습니다.
“강화학습 영역을 완전한 백지에서 시작했는데, ML 에이전트를 사용하여 명령어 한줄만으로도 드론이 스스로 학습하는 것을 본 경험은 지금까지도 생생합니다.”
- 임찬우, 2021 RL 코리아 드론 딜리버리 챌린지 유니티 특별상 수상팀 NewBe
파라미터 설정을 통한 효율적인 강화학습 환경 세팅 강력하고 다양한 성능을 가진 ML 에이전트-learn을 100% 활용하기 위해서는 수많은 파라미터 튜닝이 필요합니다. 팀 Hwang 역시 초반에 여러 개의 파라미터를 맞추는 것에 큰 어려움을 겪었지만 ML 에이전트 설치 시 제공되는 예제와 공식 문서를 참고하여 많은 팁을 얻었습니다. 그 결과 time_scale, num_envs 등의 파라미터를 통해 학습을 빠르게 진행하고, checkpoint_settings, resume 기능을 통해 간편하게 모델을 저장 및 불러오기하는 등 여러 기능들을 능숙히 다뤄 강화학습을 수월하게 진행할 수 있었습니다. 마찬가지로 팀 NewBe의 경우 비슷한 환경에서 수행된 다른 훈련들을 참고하여 파라미터 튜닝의 기준점을 잡는 데 큰 도움을 얻고, 이를 바탕으로 기본이 되는 파라미터 설정에 공들여 시간에 쫓기는 와중에도 좋은 결과를 냈습니다.
“저희 팀의 첫 학습 모델은 배송 완료까지 10일이 넘게 걸려 처음으로 성공하기 전까지는 확신도 쉽게 서지 않고, 시간이 많이 부족했습니다. 하지만 파라미터 튜닝을 먼저 공들여 다져둔 덕에 계속된 배달 달성 이후 확신이 생겨 점차 속도도 붙을 수 있었습니다.”
- 임찬우, 2021 RL 코리아 드론 딜리버리 챌린지 유니티 특별상 수상팀 NewBe
파이썬(Python)과의 강력한 연계 기능
이번 챌린지에 참가한 28개의 팀 중 17 팀은 ML 에이전트가 제공하는 자체 알고리즘을 통해 학습을 진행했고, 나머지 팀은 파이썬 API를 통한 알고리즘을 사용했는데, 직접 짠 파이썬의 강화코드를 ML 에이전트의 기능을 사용하여 구현할 수 있었습니다. 이는 ML 에이전트의 핵심 기능 중 하나로, ML 에이전트는 파이썬과 유니티 환경이 서로 통신할 수 있게 다양한 함수들을 제공합니다. 강화학습을 위해 채택한 알고리즘 방식과는 상관없이 모든 팀은 챌린지에 참여하는 동안 ML 에이전트를 다방면으로 사용하면서 ML 에이전트의 강점을 느낄 수 있었습니다.
더욱 진화된 ML 에이전트 v2.0 2017년 처음 출시된 유니티 ML 에이전트는 복잡한 시뮬레이션 환경하에서 강화학습 관련 연구 프로젝트나 자가 학습을 통해 스스로 진화하는 콘텐츠가 포함된 게임 등을 제작하는 데 활용되고 있습니다. 2021년 5월 새롭게 공개된 ML 에이전트 v2.0은 협동형 동작을 훈련시키는 기능, 에이전트가 환경 내 다양한 엔티티를 관찰하는 기능, 여러 작업을 훈련하도록 지원하는 작업 파라미터화 기능 등 새로운 개선 사항들을 통해 복잡한 협동형 환경을 보다 완벽하게 지원합니다. 이번 챌린지에서도 과반수가 넘는 제출작이 ML 에이전트에서 제공된 알고리즘을 사용했으며, 그 중 7팀이 상위 10위권 내에 드는 우수한 성적을 보이며 ML 에이전트의 뛰어남을 엿볼 수 있었습니다.
“유니티의 ML 에이전트를 사용하면 강화학습 전문가부터 초보자들까지 누구나 쉽게 챌린지에 참여할 수 있을 것으로 생각하여 유니티와 ML 에이전트를 기반으로 챌린지 환경을 개발하게 되었습니다. 이번 챌린지를 통해 참가자 분들이 파이썬 API의 사용부터 ML에이전트를 통한 학습까지 ML 에이전트의 다양한 기능들을 사용해볼 수 있는 기회가 되었을 것으로 생각합니다.”
- 민규식, RL 코리아 연구원
향후 계획 올해 첫 개최였던 ‘2021 RL 코리아 드론 딜리버리 챌린지’ 행사는 RL 코리아가 쌓아온 영향력과 노하우에 ML 에이전트 v2.0의 발전된 기술력이 잘 융합된 결과 성공적인 첫걸음을 떼며 다음 챌린지에 대한 기대를 불렀습니다.
“최근 들어 가장 흥미진진하게 진행한 프로젝트였습니다. 앞으로도 이런 유익한 주제와 목적을 가진 대회가 많이 진행된다면 좋겠습니다.”
- 이현호, 2021 RL 코리아 드론 딜리버리 챌린지 최우수상 수상팀 rmnz
김인숙 유니티 코리아 대표는 “올해 처음 진행된 행사를 통해 강화학습 분야에서 뛰어난 재능을 가진 팀들과 우수한 결과를 보여준 알고리즘들을 확인할 수 있어 기뻤습니다. 참가자들이 유니티로 구현된 시뮬레이션 환경에서 ML 에이전트가 제공하는 뛰어난 안정성과 성능을 다시 한 번 확인할 수 있는 좋은 기회였으며, 앞으로도 크리에이터들이 쉽고 편리하게 개발할 수 있도록 노력할 것입니다.”라고 말하며 강화학습의 미래를 위한 의지를 보였습니다.