페이스북은 어떻게 가짜 계정을 잡아낼까?

페이스북은 지난 2019년 매 분기당 20억 개에 달하는 가짜 계정들을 차단하였다고 합니다. 가짜 계정은 스팸, 피싱, 악성코드 유포 등 다양한 사이버 범죄 목적으로 사용할 수 있기 때문에 빨리 찾아내고 차단하는 것이 중요합니다. 페이스북에서는 이러한 가짜 계정들의 생성을 막기 위해 규칙 기반 및 간단한 기계학습 기반의 필터링을 진행하고 있습니다. 그러나 이러한 노력에도 불구하고 많은 가짜 계정들이 필터링을 뚫고 생성되어 활발히 활동하고 있으며, 사람이 하나하나 검사하기에는 너무도 많아 자동으로 걸러내는 방법이 필요합니다. 이미 활성화된 계정들 중 악의적 목적을 가진 가짜 계정들만을 걸러내는 일은 매우 어렵고, 잘못하면 일반 사용자의 계정을 차단할 위험도 있습니다. 이에 페이스북에서는 Deep Entity Classification (DEC)라는 딥러닝 기반 가짜 계정 탐지 기술을 활용하고 있다고 합니다. DEC에 대해 소개하기 전에 일반적으로 떠올릴만한 머신러닝을 이용한 가짜 계정 탐지 방식을 살펴보겠습니다. 먼저 다수의 계정 데이터를 확보합니다. 그리고 각 계정의 위치, 친구, 연령, 직업 등의 정보들을 특징점으로 사용하고, 해당 계정이 가짜 계정인지 일반 계정인지를 구분하여 학습용 데이터셋을 만듭니다. 그리고 모델을 학습시켜서 사용하면 왠지 잘 될 것 같습니다. 하지만 이러한 고전적인 접근 방식에는 크게 두 가지 문제가 존재합니다. 첫 번째로 , 이와 같은 방식으로는 제한된 수의 특징점만을 활용할 수 있으며 악의적인 사용자들이 특징점으로 사용되는 정보를 조작하여 시스템을 통과할 수 있습니다. 예를 들어, 친구가 3명 이하인 계정이 가짜 계정일 확률이 높다고 판단한다면 가짜 계정끼리 친구를 많이 맺어 시스템을 속일 수 있는 것이죠. 두 번째로 , 많은 수의 계정 데이터에 대해 일반 사용자인지 가짜 계정인지 라벨링, 즉 구분해주기가 어렵습니다. 라벨링을 위해선 사람이 직접 판단해줘야 하는데, 앞서 언급했듯이 사람이 직접 가짜인지 진...