Allen's 데이터 맛집
[2] 머신러닝으로 스마트 팩토리의 실질적인 적용 본문
스마트 팩토리에서 가장 흥미로운 순간은 데이터를 기반으로 실제 문제를 해결하는 단계입니다.
이번 글에서는 제가 품질 이상 탐지 및 진단을 위해 어떻게 머신러닝 모델을 활용했는지 소개하려고 합니다.
이상 탐지의 핵심: "정상"을 정의
머신러닝 모델을 설계하며 가장 먼저 고민했던 것은 "정상 데이터란 무엇인가?" 였습니다.
품질 이상을 감지하려면 먼저 정상적인 공정 상태의 패턴을 이해해야 하기 때문입니다.
예를 들어, 온도와 pH, 압력 등의 값이 어떤 범위 내에 있을 때 정상으로 간주할 수 있는지를 명확히 정의해야 했습니다.
제가 사용한 크로메이트 데이터는 정상 상태와 이상 상태가 명확히 레이블링되어 있어 다행히도 이 작업을 쉽게 시작할 수 있었습니다.
하지만 실제 데이터를 분석하다 보니, "정상"과 "이상"의 경계가 항상 명확하지는 않았습니다.
예를들면 온도가 정상 범위 안에 있어도, pH가 극단적으로 변하면 품질 문제가 발생할 가능성이 있었습니다.
그래서 머신러닝 모델은 이런 복잡한 상관관계를 학습하는 데 중점을 두었습니다.
Isolation Forest: 이상을 탐지하는 첫 번째 모델
제가 첫 번째로 선택한 모델은 Isolation Forest였습니다.
이 모델은 데이터의 "밀도"를 분석해, 다른 데이터와 멀리 떨어져 있는 이상치를 효과적으로 탐지합니다.
왜 Isolation Forest인가?
- 빠르고 효율적: 비교적 큰 데이터셋에서도 빠르게 작동.
- 비지도 학습: 이상 데이터의 패턴을 미리 알지 않아도 작동 가능.
- 직관적 결과: 이상치 점수를 통해 어느 데이터가 이상인지 쉽게 파악 가능.
모델을 훈련시키고, 이상치를 시각화한 결과, 대부분의 이상 데이터가 온도와 pH가 동시에 임계값을 초과한 경우에 해당했습니다.
특히 공정 초기에 데이터가 급격히 변화하는 패턴에서 이상치가 자주 발생했는데, 이를 통해 공정 초기의 모니터링이 얼마나 중요한지 알게 되었습니다.
딥러닝의 도전: AutoEncoder로 이상 감지
Isolation Forest가 간단하고 직관적인 이상 탐지에 적합했다면, 다음 단계는 더 복잡한 데이터 패턴을 학습할 수 있는 AutoEncoder를 적용하는 것이었습니다.
AutoEncoder는 딥러닝 기반의 모델로, 정상 데이터를 학습한 뒤 이상 데이터가 입력되었을 때 복구 오류를 통해 이상 여부를 감지합니다.
AutoEncoder의 작동 원리
- 입력 데이터 축소: AutoEncoder는 입력 데이터를 낮은 차원으로 압축(인코딩).
- 복원 시도: 다시 원래 데이터로 복원(디코딩)하며 정상 데이터의 특징을 학습.
- 재구성 오류 분석: 복원이 제대로 되지 않는 데이터(오류가 큰 데이터)를 이상으로 간주.
훈련 결과, AutoEncoder는 온도와 pH의 비정상적인 상호작용을 빠르게 탐지했습니다.
특히, 정상 데이터에 기반한 학습 덕분에 새로운 유형의 이상 상황도 잘 감지할 수 있었습니다.
이 모델의 재구성 오류를 히트맵으로 시각화했을 때, 이상치 데이터가 전체 데이터의 약 5%를 차지하는 것으로 나타났습니다.
흥미롭게도 이 5%는 공정 중 불량률과 거의 일치했습니다.
모델의 성능 평가: 숫자로 보는 결과
모델을 평가하며 가장 중요하게 본 지표는 정확도(Accuracy)와 정밀도(Precision), 그리고 재현율(Recall) 이었습니다.
정밀도는 이상 데이터라고 판단한 데이터가 실제로 이상 데이터일 확률을, 재현율은 실제 이상 데이터를 얼마나 잘 찾아냈는지를 나타냅니다.
모델 | 정확도(Accuracy) | 정밀도(Precision) | 재현율(Recall) |
Isolation Forest | 92% | 88% | 85% |
AutoEncoder | 95% | 91% | 89% |
AutoEncoder가 약간 더 높은 성능을 보였지만, Isolation Forest 역시 간단한 설정으로도 꽤 좋은 결과를 보여줬습니다.
시각화: 데이터를 보는 즐거움
결과를 공유하면서 가장 유용했던 것은 시각화였습니다.
복잡한 분석 결과도 시각화하면 누구나 쉽게 이해할 수 있었습니다.
- 이상 데이터 분포:
- 정상 데이터와 이상 데이터를 시각적으로 비교할 수 있는 산점도를 그렸습니다.
- 재구성 오류 히트맵:
- AutoEncoder의 재구성 오류를 시각화하여 이상 패턴을 명확히 표시.
이런 시각화는 공정 관리 팀에게 데이터를 설명할 때 특히 유용했습니다.
단순한 수치보다 시각적 자료가 더 큰 설득력을 갖는다는 점을 깨달았습니다.
남은 과제
- 실시간 분석 시스템 구축:
- 공정 데이터를 실시간으로 처리하여 이상 상황을 즉각 감지하고 알림을 보낼 수 있는 시스템을 만드는 것이 다음 목표입니다.
- 공정 초기 데이터 관리:
- 초기 공정에서 발생하는 이상 데이터를 더 면밀히 분석하여, 개선 방안을 제시할 예정입니다.
다음 글에서는 프로젝트의 결과와 이를 실제 공정에 어떻게 적용했는지, 얻은 인사이트를 중심으로 정리해보겠습니다.
스마트 팩토리의 품질 관리에 관심이 있으시다면 기대해 주세요!
siilver94/Quality-Anomaly-Detection-Analysis
Contribute to siilver94/Quality-Anomaly-Detection-Analysis development by creating an account on GitHub.
github.com
인공지능 제조 플랫폼
제조AI데이터셋 소개 크로메이트 공정에서 발생하는 데이터를 분석하여 완제품의 품질을 예측하기 위한 제조AI 분석과정을 담은 데이터셋과 가이드북입니다. 온도, pH, 전압, 시간 데이터를 수집
www.kamp-ai.kr