앙상블 학습을 이용한 재생에너지 발전량 예측

화석연료의 고갈 뿐만 아니라 지구 온난화로 인한 각종 환경 문제까지 발생하면서, 재생에너지에 대한 관심이나 수요가 높아진 지는 오래다. 특히 독일은 일본의 원전 사고 이후 수 년간 태양광 발전 산업에 막대한 투자를 벌이면서 2019년에는 태양광을 최대 발전원으로 사용하는 국가가 되었다. 그러나 독일마저도 이러한 재생에너지 시설을 운영하면서 부딪힌 문제가 있다.
재생에너지 산업의 절반 이상을 차지하는 것이 풍력과 태양광 발전이다. 풍력과 태양광 모두 그 날의 날씨에 매우 크게 의존하기 때문에, 발전량을 예측할 수 없다. 재생에너지 만으로는 해당 지역이나 국가의 전력 수요를 모두 충족시킬 수 없어 보통 기존 발전 시설을 같이 사용하게 되는데, 이 과정에서 전력 등 경제적 손실이 매우 크다. 독일의 경우 환경조건이 충족되었을 때 필요 에너지의 90% 이상을 수급할 수 있으나, 날씨가 따라주지 않게 되면 발전을 거의 못하는 상황까지 발생할 수 있다. 기상 상태가 변할 때마다 기존의 발전소의 가동, 중지를 반복하면서 발생하는 손실 비용이 연간 약 5억 달러에 달한다고 한다. 이는 스마트 그리드 등에서 해결해야 할 또다른 과제가 되었다.

방법이 없지는 않았다. 우리는 일기예보를 위해 미래의 기상 상황을 항상 예측해왔기 때문이다. 그러나 기존의 수치 기반의 일기예보들에 완전히 의존할 수는 없었다. 에너지 분야에서는 더 높은 정확도를 요구했고, 치명적인 오보가 발생했을 시에 발생하는 경제적, 환경적 부담이 상당했기 때문이다. 이러한 문제들의 개선을 위해 IBM에서는 2013년부터 미국 에너지부와 함께 신재생 에너지 예측을 위한 연구를 진행해왔으며, 현재는 약 200여개 기업과 계약을 맺어 기상 예측 정보를 제공하고 있다. 구글 딥마인드의 경우 재생 에너지 프로젝트의 일환으로 700MW에 해당하는 시설에 머신 러닝 알고리즘을 적용하여 가동하고 있다. 기상 예측과 터빈 데이터 기록을 바탕으로 36시간 이후의 풍력 발전 전력을 예측하는 기술을 개발하였다.

Eulerian | Lagrangian | Numerical weather models | Climate models |
---|---|---|---|
Weather stations | Advection-based models | NAM (North American mesoscale) | GCM (general circulation model) |
Radar | Time-series analysis | HRRR (high-resolution rapid refresh) | CGCM (coupled general circulation model) |
RAP (rapid refresh) |
위의 그래프는 기상 예측 방법의 예측 시간에 따른 정확도를 나타내는 그래프이고, 위 표는 각각의 방법에 대한 예시이다. 기존에는 기계학습보다는 기존의 기상 상황을 바탕으로 한 수치적 접근이 주를 이루었다. 각 종류의 모델들은 예측 시간에 따른 정확도 양상이 뚜렷하게 구별된다. Lagrange Model의 경우 단기간 예측에는 매우 높은 정확도를 보이고 있으나, 예측 기간이 늘어날수록 급격히 감소하게 되고, Climate 모델의 경우에는 평균 정확도가 낮은 편이지만 그 정확도를 장기간 예측에도 유하게 된다는 점에서 장점을 가진다. 이를 혼합하여 기상예측을 진행하겠다는 것이 IBM의 방식인데, 단순히 이 모델들의 결과값의 평균이나 최빈값을 활용하기에는 어떠한 모델이 어떤 정확도를 나타내는지 기상 상황에 따라 다를 것이므로 그 정확도를 보장할 수가 없다. 따라서 머신 러닝 기법 중 하나인 Ensemble Learning이 도입된다.
Ensemble Learning(앙상블 학습)
Ensemble Learning, 앙상블 학습이란 다수의 머신 러닝 기술을 하나의 모델로 결합하는 방식이다. 보통 하나의 문제에 대해 다수의 모델이 낮은 성능의 문제나 과적합 문제를 지니고 있을 때 사용된다. 앙상블 학습은 그 목적에 따라 대표적으로 Bagging과 Boosting이 있다.
Bagging
Bagging은 bootstrap aggregation의 뜻으로 다양한 결과값들의 분산을 줄이는 기능을 한다. 예를 들어, \(f_{1}(x), f_{2}(x), f_{3}(x), ... f_{n}(x)\)로 \(n\)개의 예측 모델이 존재할 때, 데이터를 랜덤하게 샘플링하여 샘플링한 데이터에 대한 각 예측 모델의 학습 결과를 투표 또는 산술평균의 방법으로 집계하는 방법이다.

Boosting
Boosting은 약한 학습 모델(weak learner)을 강한 학습 모델(strong learner)로 바꾸는 과정이라고 볼 수 있는데, 이 과정에서 가중치가 활용된다. Boosting의 과정에서 각 학습 모델의 예측값의 정확도에 따라 그 가중치가 다르게 부여된다. 학습 모델을 순차적으로 추가해나가면서 그 가중치를 조절하여 정확도를 향상시킨다.

\[C_{\textrm{blend}}=\sum_{m}w_{m}(\tau,x,s(E))C_{m}(\tau,x)\]
다시 기상 예측 모델로 돌아와서, IBM의 혼합 시스템은 Boosting을 활용하여 장소 \(\tau\) 와 예측 대상 시간 \(x\)가 주어지면, 각각의 모델은 바람의 세기나 태양의 조도와 같은 예측 데이터 \(C_{m} (\tau, x) \)를 제공하는데, 혼합된 예측 \(C_{\textrm{blend}}\) 는 \(w_{m} C_{m} \) 의 결합으로 이루어진다. 이 때, 각 모델의 가중치 \(w_{m}\)은 각 모델에 대한 가중치이다. \(w_{m}\)을 특정 상수로 설정하는 기존의 접근 방식과 달리, 기계학습 기반 모델 혼합 방식은 \(\tau,x,s(E)\)를 학습 데이터로 하는 머신러닝에 의해 선정된다. 이 때 \(s(E)\)는 기상 상황 데이터이다.
따라서 에너지 혼합 모델은 각각의 기상 예측 모델의 예측값과 실제 기상 데이터를 비교하여 개별 모델의 유사도를 가지고 가중치를 차등적으로 부여함으로써 그 정확도를 높였다고 볼 수 있다. 이와 같은 혼합 모델에 관한 연구가 성공적으로 이루어진 사례가 있다.

이는 관련 연구에서 실제 애리조나 마라나 지역의 태양광 발전소의 2014년 1월부터 8월까지의 데이터에 대한 혼합 모델과 기존 모델들의 발전량 예측 결과와 오차값을 나타낸 그래프이다. 혼합 모델은 개별 모델 중 특정 예측 기간에서 가장 좋은 성능을 보였던 모델보다 최대 30%의 오차 감소량을 보였다. (Lu et al.)
에너지 산업에 기계 학습의 도입이 활성화되면서 이러한 발전량 예측 기술의 도입은 발전 과정에서의 경제적 효율성 뿐만 아니라 예비 발전소 가동 효율성에 있어 환경적 부담을 줄일 수 있다. Xcel Energy의 경우 재생에너지 발전량에 대한 예측 오류가 줄어들면서 소비자에게는 6천만 달러 가량의 경제적 부담이 감소했고, 재생에너지 대체 화력발전소에 대한 이산화탄소 배출량이 매년 25만 톤 감소했다고 발표했다. 재생에너지 예측 기술은 앙상블 학습이 활용된 성공적인 사례라고 할 수 있으며, 이는 발전 비용 절감 뿐만 아니라 오염물질 배출 감소까지 성취하는 기술이다.
자료 출처
Siyuan Lu et al. "Machine Learning Based Multi-Physical-Model Blending for Enhancing Renewable Energy Forecast – Improvement via Situation Dependent Error Correction."2015 European Control Conference (ECC)., 2015
Hamann, Hendrik, and Siyuan Lu. “Situation-Dependent Blending of Multiple Forecasting Models Based on Machine Learning.” Situation-Dependent Blending of Multiple Forecasting Models Based on Machine Learning, 2015, spie.org/news/6142-situation-dependent-blending-of-multiple-forecasting-models-based-on-machine-learning?SSO=1.
Rocca, Joseph. “Ensemble Methods: Bagging, Boosting and Stacking.” Medium, Towards Data Science, 5 May 2019, towardsdatascience.com/ensemble-methods-bagging-boosting-and-stacking-c9214a10a205.