딥러닝에서도 운이 중요하다고? Lottery Ticket Hypothesis
지난 12월에 열린 NeurIPS 2019에서 발표된 "One ticket to win them all: Generalizing lottery ticket initializations across datasets and optimizers"라는 논문에 대해 이야기하고자 합니다. 해당 논문은 lottery ticket hypothesis에 대해 다루고 있으며, 우리말로 번역하자면 복권 가설 정도가 될 것 같습니다. 처음 들으면 뭔가 상당히 기대하게 만드는 이름인데 우선 lottery ticket hypothesis에 대해 알아보겠습니다.
Lottery ticket hypothesis란 딥 뉴럴 네트워크를 학습할 때, 모든 매개변수들이 다 중요한 것이 아니라 그 중 초기화가 잘 이루어진 일부 매개변수들이 성능 확보에 있어 특히 중요하다는 내용의 가설입니다. 이렇게 초기화가 잘 이루어진 매개변수들을 winning ticket이라고 하며, 많은 매개변수들 중 일부만이 winning ticket이 되므로 이를 복권에 비유한 것입니다. 기대와는 다르게 복권 당첨과 관련된 내용을 담고 있지는 않지만, 딥러닝에 있어서 상당히 중요하고 앞으로도 활용 가치가 높은 이론입니다.
그림을 통해서 좀 더 쉽게 설명드리겠습니다. 우선 위의 그림은 일반적인 뉴럴 네트워크 학습 과정을 나타낸 것입니다. 학습이 진행됨에 따라 정확도가 점점 향상되는 것을 볼 수 있습니다. 또한 학습이 완료된 후에는 모든 매개변수들이 같은 세기를 가지는 것이 아니라 상대적으로 작은 세기를 가지는 매개변수들도 있고 강한 세기를 가지는 매개변수들도 있는 것을 알 수 있습니다. 선이 두꺼울수록 강한 연결임을 나타낸 것이고, 따라서 절대값이 큰 매개변수라고 보시면 됩니다.
그리고 다음으로는 pruning, 즉 가지치기를 통해 작은 세기를 갖는 매개변수들을 삭제하는 과정을 거칩니다. 그리고 가지치기를 한 후 남은 매개변수들에 대해서 학습된 최종 값이 아닌 맨 처음에 초기화했을때의 값을 적용하면 아래와 같이 winning ticket들이 만들어집니다.
한번 더 정리하자면,
1) 네트워크 학습을 진행하고,
2) 가지치기를 통해 중요한 매개변수들만을 남긴 뒤,
3) 해당 매개변수들을 초기 값으로 되돌리면
winning ticket들을 추출할 수 있습니다.
이렇게 확보한 winning ticket들로 다시 학습을 진행했을 경우, 원본 네트워크보다 더 적은 매개변수들을 가지고도 같은 성능이나 혹은 더 높은 성능을 달성한다는 것이 lottery ticket hypothesis의 주된 내용입니다. 간단한 방식으로 네트워크의 크기도 줄이고 성능도 더 높일 수 있다니 이론적으로도 흥미롭고 실제로 활용하기에도 좋아보입니다.
그렇다면 이러한 lottery ticket hypothesis가 서로 다른 데이터셋에도 적용되는지, 혹은 서로 다른 optimizer에도 적용되는지에 대해 확인한 논문이 바로 오늘 소개드릴 논문입니다. 결론부터 말씀드리면, 동일한 종류의 문제(예: 이미지 인식)에 대한 데이터셋이라면 서로 다른 데이터셋에서도 적용되며, 특히 큰 데이터셋에서 확보한 winning ticket이 다른 데이터셋에서도 좋은 성능을 보였다고 합니다.
위 그림은 ImageNet과 Places365 데이터셋에 대한 winning ticket 실험 결과입니다. 그래프 오른쪽에 각각 어떤 데이터셋에서 확보된 winning ticket인지가 나와있는데, 더 큰 데이터셋에서 확보한 winning ticket일수록 더 높은 성능을 보입니다. 또한, winning ticket은 optimizer에 독립적이라서 특정한 optimizer를 이용하여 확보한 winning ticket을 다른 optimizer로 학습시켜도 좋은 성능을 보였다고 합니다.
해당 연구팀의 또 다른 논문에 따르면, 이미지 분류에서만 lottery ticket hypothesis가 적용되는 것이 아니라 NLP, RL과 같이 다른 도메인에서도 winning ticket이 동작하는 것을 확인하였다고 합니다. 아래에 첨부한 Facebook 연구팀의 게시글에서 좀 더 많은 내용을 보실 수 있습니다. 앞으로도 lottery ticket hypothesis처럼 재미있고 활용가치가 높은 연구결과들이 많이 나오길 기대해봅니다.
관련 자료:
- Facebook 연구팀의 lottery ticket hypothesis 관련 게시글
- One ticket to win them all 논문
- Lottery ticket hypothesis 원본 논문
댓글
댓글 쓰기