Astma-Allergi Danmark - Machine Learning

Automatisk forudsigelse af dagens pollental

Astma-Allergi Danmark havde et ønske om at kunne forudsige pollental med hjælp fra målinger, kombineret med vejrdata. På den måde vil det være muligt dels at ramme ganske nøjagtigt og dels vil man kunne forudsige pollental flere dage frem. Der er også potentiale med flere målestationer, at lave langt bedre forudsigelser lokalt.

Hvordan løste vi opgaven

Miracle har færdiggjort en projektleverance til Astma-Allergi Danmark. Projektet havde til formål at opbygge en platform, som ved brug af machine learning kunne anvendes til at forudsige den kommende dags pollental på baggrund af vejrudsigten.

Vi benyttede følgende løsningsmetode:

Metoden består af tre trin:

1.      Dataindsamling og Præprocessering

Her indsamles og klargøres data således at de kan fortolkes af en træningsalgoritme.

2.      Træning af Modeller

Her trænes en eller flere modeller på de klargjorte data.

3.      Evaluering

Her testes modellens nøjagtighed. Er nøjagtigheden ikke høj nok, indsamler man enten nye data eller foretager yderligere præ-processering. Processen starter således forfra.

Ved at følge denne løsningsmetode har vi opnået en nøjagtighed på 76%, hvilket er sammenligneligt med den nøjagtighed eksperterne opnår når de manuelt forudsiger den kommende dags pollenniveau.

 

Vejr- og pollendata

Miracle har konstrueret en model, som på baggrund af vejrdata kan forudsige den efterfølgende dags pollental. Vejrdataene er trukket fra Danmarks Meteorologiske Institut og indeholder målepunkterne minimum-, maksimum- og gennemsnitstemperatur samt gennemsnitlig vindhastighed, vindretning, lufttryk og nedbør, alle på dagsbasis.

Dataene, som beskriver mængden af pollen i luften indsamles af Astma-Allergi Danmark, som driver og monitorer alle pollenfælder i Danmark. Astma-Allergi Danmark’s pollenvarsel kommer i tre niveauer: lav, mellem og høj. Der skulle således konstrueres en machine learning-model, baseret på de beskrevne vejr- og pollendata, som på baggrund af vejrudsigten kunne forudsige om pollenniveauet den efterfølgende dag ville lavt, mellem eller højt.

 

Konklusion

Med en nøjagtighed på niveau med eksperternes egne vurderinger, må projektet siges at være en succes. Udover at frigive tid hos eksperterne, giver modellen også helt nye muligheder.

Man kan for eksempel forestille sig at modellen kan anvendes i andre dele af landet. Gangbarheden af dette er afgjort af i hvor høj grad det er vejret og årstiderne, der bestemmer pollenniveauet, kontra hvor meget indflydelse den lokale flora har. Denne tilgang kan testes med data fra andre pollenmålestationer.

En anden meget interessant implikation er muligheden for at lave forudsigelser længere frem i tiden. Da modellen er baseret på vejrdata, kan man blot give den en 2- eller 3-døgns-vejrprognose og derved få en forudsigelse af pollenniveauet for den givne dag. Denne tilgang bliver selvfølgelig mere og mere unøjagtig des længere frem i tiden man forsøger at forudsige.

 

Det har været en enormt spændende og lærerig proces for os og vi er meget positivt overrasket over de flotte resultater. Vi ser frem til at fortsætte samarbejdet så vi også kan udvide dækningsområdet til flere steder i Danmark. Dette vil være til glæde for vores medlemmer og andre pollen allergikere, da vi fremover kan levere pollenvarslinger der er bedre end tilfældet er i dag” Thorkil Kjær, Administrerende direktør, Astma Allergi Danmark

 

Tekniske detaljer kan findes i denne LinkedIn artikel.

Algoritme

Vi anvendte balanceringsalgoritmen SMOTE (Synthetic Minority Over-sampling Technique) til at transformere datasættet så der kom til at være nogenlunde lige mange observationer af hver type.

SMOTE virker ved at modellere alle observationerne som punkter i et højdimensionelt rum. Der dannes herefter linjer mellem de punkter, som repræsenterer minoritetsobservationerne. Slutteligt dannes der nye og tilfældige punkter på langs disse linjer.

Træning af modellen

Når man skal træne en model, har man brug for præklassificeret data. I vores tilfælde ønskede vi at forudsige pollenniveauet på baggrund af vejrdata. Dette repræsenteres i to matricer: x, som er de data man forudsiger på baggrund og y, der er det man ønsker at forudsige. På denne måde kan vi løbende træne og udvide modellen med data.

Modeltype

Ud af de testede modeltyper viste random forest sig at være den mest nøjagtige. Random forest virker ved at lave en randomiseret opsplitning af datasættet, man får således en række mindre datasæt og på hver af dem trænes et decision tree.

Hvis du vil vide mere:

Jakob Svan

Afdelingsleder Dev. East

Ring på 3170 6495
jsn@miracle.dk