본 포스트에서는 [Anomaly Detection : A Survey]를 읽어보고 정리하였습니다.
14. Anomaly Detection : A Survey 14
원문에는 Anoamly Detection(이상감지)에 대한 포괄적인 설명들이 포함되어 있습니다.
본 포스트에서는 이상감지 기법에 대해서는 소개하지 않을 것 입니다. 원문에서 소개한 이상감지 기법은 전통적인 기법들(룰 베이스, 클러스터링 등)이기 때문에 정리하지 않았습니다.
본 포스트의 목적은 이상감지의 전반적인 설명과 힘든점, 이상 유형, 여러 데이터 등에 대해서 정리해서 공유하는 것 입니다.
Abstract
이상감지(Anomaly Detection)은 다양한 도메인 분야에서 중요한 연구분야 입니다. 많은 이상감지 기법들은 특정 애플리케이션 도메인 용으로 특별히 개발되어 있습니다. 본 조사(Paper)에서는 이상감지에 대한 전반적인 내용들을 체계적으로 보여줄 것 입니다. 특정 기술을 특정 도메인에 적용 할 경우 가이드라인으로서 참고할 수 있을 것 입니다. 각 카테고리마다 기본적인 이상감지 기법을 제공하고, 기존의 기법과 어떻게 다른지도 볼 수 있을 것 입니다. 이 템플릿은 각 카테고리에 대한 기법을 쉽고, 간단하게 이해할 수 있도록 할 것입니다. 게다가 각 카테고리의 기법 마다 장점과 단점에 대해서도 설명할 것 입니다. 본 조사를 통해 기존에 적용하지 않았던 분야에 다양한 기법들을 적용할 때, 많음 도움이 되었으면 좋겠습니다.
Intruduction
이상감지(Anomaly Deteciton)는 예상되지 않은 패턴을 데이터에서 찾아내는 것 입니다. 여러 용어들이 있지만, 비정상(anomalies)과 이상치(outliers)는 이상탐지에서 가장 자주 사용되는 용어입니다. 이상감지는 사기 신용카드 감지, 보험 또는 건강관리, 사이버 보안관리, 중요 시스템 이상감지, 적 활동 이상 감지 등 다양한 분야에서 사용될 수 있습니다.
이상 탐지의 중요성은 이상 현상이 다양한 애플리케이션 영역에서 의미있는(종종 중요한)정보로 변환된다는 사실 때문이빈다. 예를 들어 이상현상이 있는 MRI 영상에는 악성종양이 있을 수 있고, 신용카드의 이상 거래는 신용 도용일 수도 있습니다.
본 조사에서는 이상 탐지 연구에 대해 체계적이고, 포괄적으로 설명하려고 합니다.
비정상(anomalies)이란 무엇인가?
비정상은 정상적인 행동에 대해 잘 정의된 패턴을 따르지 않은 데이터 패턴입니다. 그림 1은 간단한 2차원의 데이터 셋에서 비정상 데이터를 보여줍니다. 대부분의 관측치가 두 영역에 있기 때문에 데이터에는 두 개의 정상 영역 인 N1과 N2가 있습니다. 두 영역과 멀리 떨어져 있는 포인트들은 비정상 데이터 입니다. (ex. point o1, o2와 point 영역 o3)
악의적인 활동(공격)등 다양한 사유로 인해 비정상 데이터가 생길 수 있습니다. (ex. 사기 신용카드, 사이버 침입, 테러리스트 활동 이나 시스템 고장) 그러나 모든 비정상 상황에는 공통적인 특징이 있고, 이는 분석가들에게 굉장히 흥미로운 부분입니다.
Challenges
추상적인 관점에서, 이상(anomaly)은 예상되는 정상적인 행동을 따르지 않는 패턴으로 정의합니다. 따라서 복잡하지 않은 이상감지는 정상적인 행동을 나타내는 영역을 정의하고 관측치가 정상 영역에 속하지 않으면, 그 데이터는 이상으로 판단합니다. 그러나 몇 가지 이유로 단순한 접근 방식이 매우 어려워졌습니다.
-
가능한 정상 영역을 모두 포함하여 정의하는 것은 매우 어렵습니다. 게다가 정상과 비정상의 경계를 나누는 것은, 정밀하지 않을 수 있습니다. 따라서 경계에 가깝게 존재하는 비정상적인 관측치들은 실제로 정상적일 수 있으며, 그 반대의 경우도 같습니다.
-
이상이 악의적인 공격으로 인해 발생될 경우 적(악의적인 공격을 행한 상대방)들은 비정상 관측치들을 정상처럼 보이도록 할 것입니다. 그렇게 함으로써, 정상 행동에 대한 정의는 더욱 어려워 질 것입니다.
-
많은 도메인 분야에서 정상적인 행동은 발전하고 있으며, 정상적인 행동에 대한 현재의 개념은 미래에는 맞지 않을 수 있습니다.
-
도메인 분야마다 이상의 정의가 달라질 수 있습니다. 예를 들어, 의료분야에서 사소한 변화는(몸의 체온 등) 이상으로 정의될 수 있으나, 주식시장에서의 사소한 변화는 정상으로 정의될(사소한 변화를 의료분야처럼 예민하게 받아들이지 않는 다는 뜻) 수도 있는 것 입니다. 따라서 한 분야에서 적용된 이상감지 기법을 다른 분야에 적용하는 건 간단하지 않습니다.
-
이상감지 모델에 사용되는 학습/검증 레이블 데이터의 유효성(가용성/availability)은 큰 문제입니다.
-
종종 데이터에 이상과 유사한 노이즈가 포함되어 있기 때문에, 이를 구별하고 제고하는 것은 어렵습니다.
위의 문제들 때문에 이상감지 문제는 가장 일반적인(범용적인) 형태로 해결하기가 쉽지 않습니다.