2020의 게시물 표시

페이스북은 어떻게 가짜 계정을 잡아낼까?

이미지
페이스북은 지난 2019년 매 분기당 20억 개에 달하는 가짜 계정들을 차단하였다고 합니다. 가짜 계정은 스팸, 피싱, 악성코드 유포 등 다양한 사이버 범죄 목적으로 사용할 수 있기 때문에 빨리 찾아내고 차단하는 것이 중요합니다. 페이스북에서는 이러한 가짜 계정들의 생성을 막기 위해 규칙 기반 및 간단한 기계학습 기반의 필터링을 진행하고 있습니다. 그러나 이러한 노력에도 불구하고 많은 가짜 계정들이 필터링을 뚫고 생성되어 활발히 활동하고 있으며, 사람이 하나하나 검사하기에는 너무도 많아 자동으로 걸러내는 방법이 필요합니다. 이미 활성화된 계정들 중 악의적 목적을 가진 가짜 계정들만을 걸러내는 일은 매우 어렵고, 잘못하면 일반 사용자의 계정을 차단할 위험도 있습니다. 이에 페이스북에서는 Deep Entity Classification (DEC)라는 딥러닝 기반 가짜 계정 탐지 기술을 활용하고 있다고 합니다. DEC에 대해 소개하기 전에 일반적으로 떠올릴만한 머신러닝을 이용한 가짜 계정 탐지 방식을 살펴보겠습니다. 먼저 다수의 계정 데이터를 확보합니다. 그리고 각 계정의 위치, 친구, 연령, 직업 등의 정보들을 특징점으로 사용하고, 해당 계정이 가짜 계정인지 일반 계정인지를 구분하여 학습용 데이터셋을 만듭니다. 그리고 모델을 학습시켜서 사용하면 왠지 잘 될 것 같습니다. 하지만 이러한 고전적인 접근 방식에는 크게 두 가지 문제가 존재합니다. 첫 번째로 , 이와 같은 방식으로는 제한된 수의 특징점만을 활용할 수 있으며 악의적인 사용자들이 특징점으로 사용되는 정보를 조작하여 시스템을 통과할 수 있습니다. 예를 들어, 친구가 3명 이하인 계정이 가짜 계정일 확률이 높다고 판단한다면 가짜 계정끼리 친구를 많이 맺어 시스템을 속일 수 있는 것이죠. 두 번째로 , 많은 수의 계정 데이터에 대해 일반 사용자인지 가짜 계정인지 라벨링, 즉 구분해주기가 어렵습니다. 라벨링을 위해선 사람이 직접 판단해줘야 하는데, 앞서 언급했듯이 사람이 직접 가짜인지 진...

딥러닝에서도 운이 중요하다고? Lottery Ticket Hypothesis

이미지
지난 12월에 열린 NeurIPS 2019에서 발표된 "One ticket to win them all: Generalizing lottery ticket initializations across datasets and optimizers"라는 논문에 대해 이야기하고자 합니다. 해당 논문은 lottery ticket hypothesis에 대해 다루고 있으며, 우리말로 번역하자면 복권 가설 정도가 될 것 같습니다. 처음 들으면 뭔가 상당히 기대하게 만드는 이름인데 우선 lottery ticket hypothesis에 대해 알아보겠습니다. Lottery ticket hypothesis란 딥 뉴럴 네트워크를 학습할 때, 모든 매개변수들이 다 중요한 것이 아니라 그 중 초기화가 잘 이루어진 일부 매개변수들이 성능 확보에 있어 특히 중요 하다는 내용의 가설입니다. 이렇게 초기화가 잘 이루어진 매개변수들을 winning ticket이라고 하며, 많은 매개변수들 중 일부만이 winning ticket이 되므로 이를 복권에 비유한 것입니다. 기대와는 다르게 복권 당첨과 관련된 내용을 담고 있지는 않지만, 딥러닝에 있어서 상당히 중요하고 앞으로도 활용 가치가 높은 이론입니다. 그림을 통해서 좀 더 쉽게 설명드리겠습니다. 우선 위의 그림은 일반적인 뉴럴 네트워크 학습 과정을 나타낸 것입니다. 학습이 진행됨에 따라 정확도가 점점 향상되는 것을 볼 수 있습니다. 또한 학습이 완료된 후에는 모든 매개변수들이 같은 세기를 가지는 것이 아니라 상대적으로 작은 세기를 가지는 매개변수들도 있고 강한 세기를 가지는 매개변수들도 있는 것을 알 수 있습니다. 선이 두꺼울수록 강한 연결임을 나타낸 것이고, 따라서 절대값이 큰 매개변수라고 보시면 됩니다. 그리고 다음으로는 pruning, 즉 가지치기를 통해 작은 세기를 갖는 매개변수들을 삭제하는 과정을 거칩니다. 그리고 가지치기를 한 후 남은 매개변수들에 대해서 학습된 최종 값이 아닌 ...