티스토리 뷰

1. 개요
 현실성있는 시나리오를 분석하기 위하여, 종종 계절별 기후 데이터를 활용한다.
 출처가 굉장히 중요한데, 현재 미국에서 연구를 수행 중에 미국 각 주의 공항 근처 관제소에서 계측한 데이터를 활용할 수 있었다.

2. 결측 데이터 처리
 중간중간 결측치가 있었고, 이것을 우선 채워주는 작업이 필요하다.
  Hampel filter: 아웃라이어를 보정해주는 작업이다. window size와 threshold factor가 하이퍼파라미터라고 알려져있다.
  Isolation forest: 이상탐지 기법이다. 

3. 모델 검증
  MSE/RMSE/MAE/R2로 모델의 성능을 주로 평가하고, 그 외에 SNR이라는 지표가 있다.
 Signal-to-noise ratio (SNR): This measures the ratio of the signal power (the variance of the true data) to the noise power (the variance of the difference between the filtered data and the true data). A higher SNR indicates better performance.
 모델의 정답을 알지 못하기에 생기는 문제를 극복해야 한다. 다시 말하여, 우리가 만든 예측 모델이 얼마나 잘 맞는지를 평가해야 하는데, 결측치에 대해서는 정답이 없기 때문에 모순에 빠진다.
이를 해결하기 위하여 grounded-truth를 활용하는 것과 cross-validation을 활용할 수 있다.

4. MATLAB: 유용한 명령어
  rng: random number generater의 약자이다. rng(xx) xx에 임의의 양의 정수를 집어 넣어, 랜덤으로 생성한 시드를 고정하여 시뮬레이션의 재현성을 확보할 수 있다.
 fitensemble: MATLAB에서 제공하는 앙상블 모델이다.

 

이를 활용해서 기후 분석이 반영된 시나리오를 만들어 보자 :)

 

오늘의 일기 끝!

'AI STUDY > 기타' 카테고리의 다른 글

[알고리즘 / 모식도] 기호 정의 (Flowchart Symbol)  (0) 2023.04.11