[논문 분석] Deep Learning-Based Vehicle Anomaly Detection by Combining Vehicle Sensor Data (KAIS 2021)
Deep Learning-Based Vehicle Anomaly Detection by Combining Vehicle Sensor Data
PART 1: Background
기존 이상탐지 방법은 제한된 데이터를 다루는 전통적인 통계 방법에 의존한다. 이 논문은 **AI 기반 보다 효과적인 이상탐지 방법을 제안한다.
자동차의 공회전 센서 및 **이상 탐지 간의 상관관계를 분석하여 인공지능 모델을 설계하였다.
기존의 SVM이나 PCA 모델 등은 다양한 데이터 분포를 가진 이상탐지가 어렵다는 한계점을 갖고 있다.
따라서, 다양한 특징을 가진 데이터에서의 분석이 가능한 최신 모델인 CNN과 LSTM과 같은 딥러닝 모델을 사용하였다.
이 둘 중에서, 활용할 데이터 분포에서 LSTM 보다 더 나은 예측성능을 자랑했던 CNN으로 모델을 설계한다.
- CNN을 활용하여 회전 기계의 고장 진단을 위한 모델(예측 정확도: 99.41%)을 개발한다.
LSTM은 RNN의 확장모델이다.
전통적인 통계 방법: 이상 탐지 소요 시간이 길고, 실시간으로 이루어지기 힘들다는 한계점과 여러 개의 데이터를 한 번에 처리 하기 어렵다.
차량의 센서 데이터를 활용해서 딥러닝 기반 분류 모델을 구축하여 높은 성능의 이상 탐지 시스템을 만들고자 한다.
이를 토대로, 인간이 발견하기 어려운 정보 내에 패턴 탐지와 분포가 상이한 데이터에서 이상의 징후 탐지를 인공지능 기술의 활용으로 식별하여 이상탐지를 가능케한다.
이상탐지
이상한 것을 탐지하는 즉, 보편적이지 않은 것을 찾아내는 것이다.
해당 논문에서는 이미 정의된 이상탐지를 위한 규칙들이 존재하기 때문에 높은 정확도를 위해 본 연구에서는 지도이상탐지를 진행한다.
또한, 높은 정확도의 이상탐지 가능성을 확인하기 위해 다양한 센서를 조합하여 학습을 진행한다.
지도 이상탐지(Supervised Anomaly Detection),
- 주어진 학습 데이터 셋에 정상 샘플과 비정상 샘플의 데이터와 라벨이 모두 존재
- 높은 정확도
반지도 이상탐지(Semi-supervised Anomaly Detection),
- 정상인 데이터만을 가지고 학습하는 방법이며
- 정확도가 낮다
- 대표 모델: SVM
- Auto encoder, GAN
비지도 이상탐지(Unsupervised Anomaly Detection)
- 데이터의 정상/비정상의 라벨이 없는 상태로 학습을 진행하는 방법
- 데이터의 라벨이 불필요하다는 장점이 존재하지만, 데이터 분포가 비선형 적이거나, 데이터의 성향이 벗어나는 경우 정확도가 낮으며, 하이퍼 파라미터(Hyper Parameter)에 매우 민감
- PCA, Audio encoder
PART 2: Observing the dataset and model
차량의 센서 데이터는 차량 주행 데이터로 다양한 운전자가 차량을 운전한 데이터이다 (해당 논문 참조 요망).
자동차 공회전 센서는 ‘LPG 연료 레일 압력’을 측정하는 센서이다.
- 해당 센서의 측정값이 214이상으로 5분 이상 지속되었을 때가 이상으로 정의한다.
독립변수가 되는 5가지 카테고리
- LPG 연료 레일 압력 이상
- 연소분사 시간 및 실린더 이상
- 산소센서전압S1(좌측) 이상
- 산소센서전압(우측)이상
- 배터리전압 이상
활용한 데이터 개수는 총 12,816개이다.
Preprocessing
DB에 저장된 센서 데이터를 전처리하고 시계열 데이터를 이미지화(Sensor2IMG)한다.
여기서 전처리란, 수집된 데이터를 본 연구에 적용하기 위해서 데이터에 이상에 대한 라벨을 작성하는 것을 의미한다.
분석 모듈 3가지
Training set: test set = 7:3으로 나누어 Accuracy를 도출한다.
시간 축의 크기에 따른 정확도 비교
센서 데이터를 이미지화하여 삽입하기 위해 x축(시간 축)의 크기를 통일시켜야 모델에 데이터를 입력하기 용이하고, 높은 정확도를 얻을 수 있다.
하지만, x축인 시간 간격을 어떻게 설정하느냐에 따라 이미지에서 담을 수 있는 데이터의 양이 달라기며, 이는 곧 모델의 예측 정확도에 직접적 영향을 줄 것이다.
따라서, 실제 고장을 탐지하는 규칙의 시간 기준의 1배, 1.2배, 1.5배를 나누어 수행하여 최적의 시간 간격을 도출해본다.
[Sensor2IMG Result]
x축은 시간, y축은 센서에서 감지한 값을 나타내며, 궁극적으로 시간간격을 1.5배한 모델의 정확도가 가장 높은 것을 볼 수 있다.
따라서, 본 논문은 실데이터로 주어진 전통적인 통계 규칙의 시간간격의 1.5배한 값을 모델에 적용한다.
공회전 데이터만이 아닌 전체 주행 데이터 사용에 따른 정확도 비교
전체 주행 데이터를 사용하는 것이 의미가 있을지 확인한다.
이를 위해, 설계한 CNN 모델에서 입력 피처를 공회전과 전체 데이터로 각각 달리 설정하고 학습시킨 결과를 비교한다.
[Result of CNN case 2]
상기 테이블은 공회전 데이터만을 활용하였을 때 더 높은 정확도를 보여주는 것을 보여준다.
이러한 결과는 일반 데이터를 사용하게 되면 이상을 탐지에 불순한 데이터가 함께 사용되기 때문이다.
이러한 불순한 데이터를 걸러낼 정도로 학습 데이터가 충분하지 않은 점이 낮은 정확도에 대한 근거일 것이다.
만약, 데이터 수를 더 높인다면, 불순 데이터를 무시하고 일반 주행 데이터를 활용하여 높은 정확도를 이룰 수 있을 것이다.
이상을 탐지하는 하나의 센서만이 아닌 다른 센서를 함께 사용했을 때에 따른 정확도 비교
사용한 하나의 센서가 아닌 다른 센서와의 조합을 통해 정확도를 증가시킬 수 있을 것으로 예상하였다 (마치, 레이더 센서의 Pod 통합 모듈을 떠올린다).
본 논문에서는 다른 센서로 LPG 연료 레일 압력 센서와 관련 가능성이 높은 다른 9개의 센서를 선택한다
- 엔진 회전수
- 흡기압센서
- 냉각수온센서
- 산소 센서 전압 1
- 산소 센서 전압 2
- 연소 분사시간
- 에어컨 컴프레서
- 타이머
- ETC모터 듀티)
[Result of CNN case 3]
- 하나의 센서 만을 사용했을 때의 정확도: 80.59%
- 다양한 센서의 조합으로 사용했을 때의 정확도: 모두 85%이상의 정확도
이 중에서는 산소센서전압의 센서와 함께 사용하였을 때 97.06%로 가장 높은 정확도를 나타낸다.
PART 3: LSTM vs. CNN
앞서 언급한 세 가지 분석 모듈에 대해 LSTM 모델 또한 같은 수행을 반복한다.
결과적으로 대부분의 모듈에서 CNN 기반 이상탐지 방법이 더 높은 정확도를 나타내었다.
이것은 CNN의 강점인 이미지 데이터 특징을 뽑아내는 데 높은 정확도를 보인다는 점에 기인한 결과이다 (입력 데이터를 이미지로 변환).
- 반면, LSTM 모델은 시계열 데이터를 활용하였을 때 높은 결과를 도출한다는 모델의 특징이 있다.
한 가지 주목할만한 점은, 두 번째 모듈에서 LSTM을 활용하였을 때가 CNN보다 더 높은 정확도가 도출되었다.
이는 LSTM 모델의 특징이 반영된 결과로, 이전의 데이터를 기억하여 다음 학습에 반영하는 LSTM의 특징이 잘 녹아든 결과이다.
- 일반 데이터로 학습시키게 되어도 불순 데이터를 무시하기 위한 데이터가 충분히 존재해서 가능한 일이다.
그 외 모듈들에 대해선, 같은 작업을 반복한 것이므로 더 이상의 언급은 삼가한다.
LSTM 성능 결과표가 궁금한 독자는 해당 논문을 참조하길 바란다.
PART 4: Conclusion
해당 논문에서 활용한 CNN 모델은 일반적으로 99% 이상의 정확도를 보일 수 있는 모델이다.
하지만, 현실 데이터 불충분 문제로 이보다 낮은 수준의 정확도를 보이고 있는 실정이다.
따라서, 아직 해당 모델을 완벽하게 적용하는 데는 한계가 있으므로 기존의 전통적인 방법과 접목하는 수준에서 활용할 필요가 있다.
만약, 이후에 다양한 데이터 변형 기법들(ImageGenerator, etc.)을 활용하여 데이터를 풍부하게 할 수 있다면, 현실에서도 사용가능한 신빙성 있는 높은 정확도의 모델을 구축할 수 있을 것으로 예상된다.
댓글남기기