인체에 유해하다고 알려진 미세먼지의 수준을 건강에 대한 영향과 연계하여 보고하기 위해 우리나라를 비롯한 세계 각국은 대기질 지수를 발표한다. 우리나라의 경우 미세먼지, 초미세먼지와 4가지 기타 대기오염물질의 측정치를 바탕으로 통합대기환경지수를 계산하여 발표 및 예보하고 있다. 예보를 위해서는 정확한 예측이 필수적이며 하나의 값으로 예측하는 것보다 분포적합을 통해 예측구간을 제공하는 것이 더 많은 정보를 줄 수 있다. Value-at-Risk (VaR) 와 같은 리스크 측도 계산을 위해서도 적절한 예측값의 분포를 찾아내는 것이 필요하며, 통합대기환경지수처럼 여러 오염물질의 관측값을 이용하는 경우 상관관계를 고려한 다변량분포를 적합할 필요가 있다. 오염물질 관측값 자체는 랜덤표본이라고 보기 어려우므로 이 논문에서는 대기오염에 영향을 줄 수 있는 설명변수를 선택하여 예측모형을 적합한 후, 그 잔차에 다변량분포를 적합하는 2단계 모형으로 미세먼지의 리스크를 측정하고자 하였다. 설명변수로는 대기오염물질의 과거 관측치와 기상변수 등을, 예측모형으로는 선형회귀모형, 랜덤포레스트와 시계열모형을, 잔차의 분포로는 코퓰라를 이용한 결합분포 및 다변량 정규분포, 다변량 normal inverse Gaussian (MNIG) 분포를 사용하였다. 잔차의 다변량 분포적합 후에는 이 분포와 예측모형 적합결과로부터 대기오염물질 예측값의 분포를 생성하고, 통합대기환경지수의 VaR를 계산하여 분포적합 결과를 검증하였다. VaR의 violation rate 계산 결과 선형회귀모형과 다변량 정규분포, MNIG 분포를 적용한 경우의 성능이 가장 좋았다.
원문 다운로는 여기를 클릭하세요.
Comments