1월, 2020의 게시물 표시

딥러닝에서도 운이 중요하다고? Lottery Ticket Hypothesis

이미지
지난 12월에 열린 NeurIPS 2019에서 발표된 "One ticket to win them all: Generalizing lottery ticket initializations across datasets and optimizers"라는 논문에 대해 이야기하고자 합니다. 해당 논문은 lottery ticket hypothesis에 대해 다루고 있으며, 우리말로 번역하자면 복권 가설 정도가 될 것 같습니다. 처음 들으면 뭔가 상당히 기대하게 만드는 이름인데 우선 lottery ticket hypothesis에 대해 알아보겠습니다. Lottery ticket hypothesis란 딥 뉴럴 네트워크를 학습할 때, 모든 매개변수들이 다 중요한 것이 아니라 그 중 초기화가 잘 이루어진 일부 매개변수들이 성능 확보에 있어 특히 중요 하다는 내용의 가설입니다. 이렇게 초기화가 잘 이루어진 매개변수들을 winning ticket이라고 하며, 많은 매개변수들 중 일부만이 winning ticket이 되므로 이를 복권에 비유한 것입니다. 기대와는 다르게 복권 당첨과 관련된 내용을 담고 있지는 않지만, 딥러닝에 있어서 상당히 중요하고 앞으로도 활용 가치가 높은 이론입니다. 그림을 통해서 좀 더 쉽게 설명드리겠습니다. 우선 위의 그림은 일반적인 뉴럴 네트워크 학습 과정을 나타낸 것입니다. 학습이 진행됨에 따라 정확도가 점점 향상되는 것을 볼 수 있습니다. 또한 학습이 완료된 후에는 모든 매개변수들이 같은 세기를 가지는 것이 아니라 상대적으로 작은 세기를 가지는 매개변수들도 있고 강한 세기를 가지는 매개변수들도 있는 것을 알 수 있습니다. 선이 두꺼울수록 강한 연결임을 나타낸 것이고, 따라서 절대값이 큰 매개변수라고 보시면 됩니다. 그리고 다음으로는 pruning, 즉 가지치기를 통해 작은 세기를 갖는 매개변수들을 삭제하는 과정을 거칩니다. 그리고 가지치기를 한 후 남은 매개변수들에 대해서 학습된 최종 값이 아닌 ...