PEMFC 촉매 SEM 이미지 열화 분류에 대한 SHAP 및 CRAFT의 모델 구조별 비교 분석
🏆 학부생·고등학생 논문경진대회 동상 — ASK 2026 (한국정보처리학회 연차 학술발표대회)
연구 배경
신재생에너지 분야에서 인공지능을 활용한 소재 개발 가속화가 활발히 이루어지고 있다. PEMFC는 백금(Pt) 촉매를 사용하여 수소와 산소의 전기화학 반응으로 전기를 생산하는 장치로, 수소 전기차의 핵심 모듈이다. 촉매층은 장기 운전 중 열화가 진행되며, 출력 저하로 이어진다. 따라서 열화 상태의 정확한 진단이 PEMFC 시스템의 수명 예측에 중요하다.
촉매층의 열화 상태는 SEM으로 관찰할 수 있으며, 최근 딥러닝 기반 분류 연구가 시도되고 있다. 그러나 높은 정확도를 달성하더라도 판단 과정이 블랙박스이므로 도메인 전문가의 신뢰를 얻기 어렵다. 이를 극복하기 위해 XAI 기법이 제안되어 왔으나, 대부분의 연구는 단일 모델에 대해 수행되어 모델 구조가 달라져도 같은 설명이 나오는지에 대한 검증이 부재하다.
연구 질문
본 연구에서는 PEMFC 촉매 SEM 이미지의 열화 분류에 기여도 분석 기법(SHAP)과 개념 추출 기법(CRAFT)을 각각 적용하고, 아키텍처 유형이 상이한 3종 대표 모델에서 XAI 설명의 일관성과 차이를 비교하였다. 구체적으로 두 가지 연구 질문에 답하고자 한다.
- 기여도 분석 기법(SHAP)의 설명은 모델 구조에 무관하게 일관되는가?
- 개념 추출 기법(CRAFT)이 추출하는 개념은 모델 구조에 따라 달라지는가?
데이터셋 및 분류 모델
- 초기 샘플(0 cycles) 22장, 열화 샘플(200K cycles) 50장의 촉매 SEM 이미지 (50K 배율, 2 kV, SE), 총 72장.
- 8:2 비율로 학습/테스트 분할, ImageNet 사전학습 가중치를 초기값으로 사용.
- 8종 CNN/Transformer 모델 학습 결과, 테스트셋(초기 5장 + 열화 10장)에서 모두 100% 분류 정확도 달성.
- 아키텍처 유형이 상이한 3종 모델 선정: GoogLeNet (Inception 모듈), DenseNet121 (Dense connection), MaxViT-T (Multi-axis Vision Transformer).
- Random seed 42로 고정.
- 사전학습 없이 학습 시 MaxViT-T는 80%에 그쳐, 소규모 데이터에서 전이 학습이 필수적임을 확인하였다.
전 모델이 100% 정확도를 달성하여 성능 차이로 모델을 선택할 수 없으므로, XAI 설명의 모델 의존성 비교가 핵심이 된다.
전문가 판단 기준
동일 위치 SEM(IL-SEM) 연구[Shokhen 2022; Strandberg 2024]에서 보고된 열화 지표를 전문가 판단 기준으로 사용하였다. 초기 샘플은 균질하고 평탄한 표면, 열화 샘플은 Pt 응집·탄소 수축·균열·어두운 영역이 특징이다.
Pt 응집체 정량 분석 결과, 열화 샘플(200K)에서 이미지당 응집체 개수가 131±15에서 209±24로 60% 증가, 개별 면적의 중앙값은 78px에서 67px로 14% 감소하여, Pt가 더 많고 작은 응집체로 재분포됨을 통계적으로 확인하였다.
SHAP 메타 분석 결과
가우시안 블러(σ=128) 마스커로 픽셀 수준 Shapley 값을 계산하고, 7종 세그멘테이션 알고리즘의 26개 설정으로 집계하는 메타 분석을 수행하였다.
- 3종 모델의 공통 합의 영역은 0K에서 2.7%, 200K에서 0.8%에 불과
- 모델 간 IoU는 0.1–0.2 — 기여도 분석에서도 모델마다 중요 영역이 달랐다
- 그러나 200K에서 Pt 응집체 영역과 3 모델 공통 합의의 34%가 겹쳐, 도메인 지식을 결합하면 합의 영역이 물리적으로 의미 있는 구조에 대응함을 확인
CRAFT 분석 결과
3종 모델 × 4종 패치 크기(16, 32, 48, 64 px)의 조합으로 CRAFT를 실행하여 우세 개념의 Top-K 크롭을 비교하였다. 패치 크기는 원본 SEM의 픽셀 크기(스케일바 실측 기준 3.97 nm/px)를 224×224 축소 후 14.2 nm/px로 환산하여, 각각 약 227 / 454 / 680 / 907 nm 물리 영역에 대응한다.
- 16px에서 GoogLeNet은 밝기 37의 어두운 미세 구조 추출 (탄소 지지체 부식 영역과 부합)
- MaxViT-T는 밝기 118, DenseNet121은 81 — 세 모델 모두 0K(136–163)보다 어두운 영역에 주목하는 공통 경향
- 패치가 커질수록 0K와 200K 간 밝기 차이가 감소, 48–64 px에서는 값이 역전되는 경우도 발생 — CRAFT 해석에 도메인 지식을 결합하려면 미세 구조를 포착할 수 있는 소형 패치가 필요
결론
두 기법 모두 모델 구조에 따른 차이가 있었으나, SHAP에서는 공통 합의 영역이 Pt 응집체 부근에 집중되고 CRAFT에서는 0K에서 밝은 표면, 200K에서 어두운 구조를 포착하는 등 열화 지표와 부합하는 공통 경향이 확인되었다.
이는 동일 정확도의 모델이라도 XAI 설명이 달라질 수 있으므로 복수 기법과 복수 모델의 비교, 그리고 도메인 지식의 결합이 필요함을 시사한다.
향후에는 0K와 200K의 이진 분류를 넘어 50K, 100K, 150K 등 열화 단계별 샘플을 포함한 다중 분류 모델에 대해 XAI 분석을 확장하여, 열화 진행에 따른 모델 판단 근거의 변화를 추적하고자 한다.
감사의 글
본 연구는 한국에너지기술연구원의 기본사업(C6-2402-08)을 재원으로 수행한 연구과제의 결과입니다.