이상 감지의 의미와 개념에 대해 알아보겠습니다.
이상 탐지의 의미와 개념 이해
이상 탐지는 대량의 데이터에서 정상적인 패턴에서 벗어나는 비정상 데이터를 식별하고 제거하는 기술을 말합니다. 이상 탐지는 데이터에서 예상치 못한 패턴을 보이는 데이터, 객체 및 재료를 찾는 방법입니다. 머신러닝 통계학 분야에서 다루는 기술입니다. 머신 러닝 분야에서는 세 가지 유형의 이상 탐지 방법이 있습니다. 지도 이상 탐지, 반지도 이상 탐지, 비지도 이상 탐지입니다. 통계학 분야에서는 두 가지 유형의 이상 탐지 방법이 있습니다. 표준 편차 기반 및 사분위 범위 기반입니다. 이상치 범주는 세 가지 유형으로 분류할 수 있습니다. 점 이상, 맥락 이상, 집합적 이상입니다. 이상 탐지는 금융, 의학, 사이버 보안, 행동 패턴 등 다양한 분야에 적용됩니다.
이상 탐지 의미 및 개념 설명
이상 탐지는 데이터의 정상적인 패턴에서 벗어나는 데이터를 식별하는 기술을 말합니다. 이상 탐지는 데이터에서 예상치 못한 패턴을 보이는 객체나 데이터를 찾는 것입니다. 이상 탐지는 대부분 데이터가 보여주는 주류 추세에서 벗어나는 비정상적인 항목, 이벤트 및 관찰을 식별하는 기술입니다. 이상 탐지는 머신 러닝 및 통계 분야에서 다루는 중요한 기술입니다. 머신 러닝 분야의 이상 탐지는 학습 데이터를 기반으로 기존 데이터와 다른 특성을 보이는 데이터를 찾는 모델을 만드는 것입니다. 머신 러닝 분야에서 이상 탐지는 크게 세 가지 유형으로 분류할 수 있습니다. 머신 러닝 기반 이상 탐지 유형의 세 가지 분류는 지도 이상 탐지, 반지도 이상 탐지, 비지도 이상 탐지입니다.[머신러닝 기반의 이상 탐지 유형 3가지 분류]
지도식 이상 탐지는 학습 데이터에 정상 데이터와 비정상 데이터 레이블이 모두 존재하는 경우를 말합니다. 분류 관점에서도 볼 수 있으며, 비정상 데이터가 거의 없기 때문에 데이터 불균형 문제가 발생할 가능성이 있습니다. 지도식 이상 탐지는 모델 성능을 평가할 수 있습니다. 반지도식 이상 탐지는 정상 데이터만으로 학습하는 경우를 말합니다. 이 유형은 현재 보유한 모든 데이터가 정상 데이터이지만, 앞으로 이러한 정상 데이터와 다른 이상 데이터를 감지하고 싶을 때 사용할 수 있습니다. 정상 데이터의 특징만 학습하기 때문에 비정상 데이터가 입력되면 정상 특징과 일치하지 않으므로 이상이라고 판단할 수 있습니다. 비지도식 이상 탐지는 학습 데이터에 정상 데이터와 비정상 데이터가 레이블되지 않은 경우를 말합니다. 데이터에 대한 가정이 없고, 모든 데이터를 사용하여 학습하는 경우이지만, 모델링 후에 정상과 비정상을 구분할 필요가 있을 수 있습니다. 통계학 분야에서는 변수의 분포에서 비정상적으로 벗어나는 값을 검출하는 것을 말합니다. 통계학에서 비정상 값을 이상치라고 하며 이상치 검출은 이러한 이상치를 찾아내는 이상치 검출 기술입니다. 통계학에서 이상치를 검출하는 방법은 두 가지가 있습니다. 통계학에서 이상치를 검출하는 두 가지 방법은 표준편차 기반 방법과 사분위 기반 방법입니다.[통계학의 이상치 탐지 방법 2가지]
표준편차 기반은 데이터의 평균과 표준편차를 계산한 후 정상 범위를 벗어난 데이터를 이상치로 판별하는 방법입니다. 예를 들어, 평균에서 3표준편차 이상 떨어진 데이터는 이상치로 판별할 수 있습니다. 사분위 범위 기반은 데이터를 사분위로 나누고 IQR(사분위 간 범위)을 계산하여 정상 범위를 벗어난 데이터를 이상치로 판별하는 방법입니다. IQR을 사용하여 이상치를 탐지하는 방법은 가장 효과적인 방법 중 하나로 간주됩니다. 이상치는 데이터의 중간 50% 범위인 IQR을 사용하여 정의하고 탐지합니다. 사분위 기반 방법은 데이터 분포의 중심 경향 및 분산에 영향을 받지 않고 데이터의 상위 25%와 하위 25% 사이의 범위를 계산하여 사용됩니다. 이상 탐지는 예를 들어 제조 공정에 적용할 수 있습니다. 이상 탐지 기술을 제조 공정에 적용하면 공정 중에 발생하는 데이터 중에서 정상 범위를 벗어난 데이터를 탐지하여 불량 제품을 식별하여 제거할 수 있다. 예를 들어 신용카드 거래에서 신용카드 거래에서 비정상적인 거래 패턴을 탐지하여 비정상적인 사용을 식별하거나 예방할 수 있다. 1,000만원 미만의 소액을 이체하던 사람이 갑자기 100억 원을 이체하면 비정상적인 거래로 예상하여 조치를 취할 수 있다. 하지만 이상 탐지로 확인된 결과에 대해서는 무조건 신뢰하기보다는 한 번 더 개입하여 검증하는 것이 좋다. 이상 탐지 기술의 기본 원리는 많은 데이터 중에서 패턴으로 학습된 정상 패턴을 기반으로 정상적인 패턴과 다른 값을 이상치로 탐지하는 것이다. 이상 탐지 기술은 적용되는 분야에 따라 다양한 형태로 구현할 수 있다. 이상 탐지에서는 이상치에 대한 기준이 중요하다. 이상치란 비정상적인 데이터를 말한다. 이상치(이상치, 이상치, 예외)는 도메인 컨텍스트나 데이터 유형에 따라 달라질 수 있으며 다양한 이름으로 불립니다. 이상치는 세 가지 범주로 나눌 수 있습니다. 이상치의 세 가지 범주는 점 이상치, 컨텍스트 이상치, 그룹 이상치입니다.[이상점의 3가지 범주]
Point Anomaly는 데이터의 특정 값이 나머지 데이터와 비교했을 때 비정상적으로 나타나는 경우입니다. Context Anomaly는 데이터의 특정 값이 특정 상황이나 맥락에서 비정상으로 판단되는 것을 의미합니다. Collective Anomaly는 데이터의 각 값은 괜찮지만 여러 값을 동시에 고려했을 때 특정 범주를 구성하는 값 집합이 비정상으로 판단되는 것을 의미합니다. 다양한 데이터가 이상 탐지에 사용됩니다. 이상 탐지에 사용되는 데이터의 예로는 비정상 거래 탐지, 의료 이상 탐지, 산업 이상 탐지, 로그 이상 탐지 등이 있습니다.[이상 탐지에서 사용하는 데이터 종류]
이상 탐지는 분류와 다릅니다. 분류는 두 가지 범주를 구분할 수 있는 경계를 찾는 것이지만 이상 탐지는 여러 범주를 고려하여 이상 탐지가 아닌 데이터 영역을 구분하는 것입니다. 이상 탐지는 4차 산업 혁명의 중요한 핵심 기술이며 금융, 제조, 유통, 의료 등 다양한 산업에서 적극적으로 적용되고 활용되고 있습니다.