X

Astma-Allergi
Danmark

Automatisk forudsigelse af dagens pollental

Miracle opbyggede en platform, som ved brug af machine learning forudsiger pollental bedre lokalt

Udfordring

Astma-Allergi Danmark havde et ønske om at kunne forudsige pollental med hjælp fra målinger kombineret med vejrdata. Dermed vil det dels være muligt at ramme ganske nøjagtigt, og dels vil man kunne forudsige pollental flere dage frem. Der er også potentiale i – med flere målestationer – at lave langt bedre forudsigelser lokalt.

Løsning

Miracle har færdiggjort en projektleverance til Astma-Allergi Danmark. Projektet havde til formål at opbygge en platform, som ved brug af machine learning kunne anvendes til at forudsige den kommende dags pollental på baggrund af vejrudsigten.

Vi benyttede en løsningsmetode bestående af tre trin:

  1. Dataindsamling og Præprocessering
    Her indsamles og klargøres data, således at de kan fortolkes af en træningsalgoritme.
  2. Træning af modeller
    Her trænes en eller flere modeller på de klargjorte data.
  3. Evaluering
    Her testes modellens nøjagtighed. Er nøjagtigheden ikke høj nok, indsamler man enten nye data eller foretager yderligere præ-processering. Processen starter således forfra. Ved at følge denne løsningsmetode har vi opnået en nøjagtighed på 76%, hvilket er sammenligneligt med den nøjagtighed, eksperterne opnår, når de manuelt forudsiger den kommende dags pollenniveau.

Vejr- og pollendata

Miracle har konstrueret en model, som på baggrund af vejrdata kan forudsige den efterfølgende dags pollental. Vejrdataen er trukket fra Danmarks Meteorologiske Institut og indeholder målepunkterne minimum-, maksimum- og gennemsnitstemperatur samt gennemsnitlig vindhastighed, vindretning, lufttryk og nedbør – altsammen på dagsbasis.

Dataen, som beskriver mængden af pollen i luften, indsamles af Astma-Allergi Danmark, som driver og monitorerer alle pollenfælder i Danmark. Astma-Allergi Danmark’s pollenvarsel kommer i tre niveauer: lav, mellem og høj. Der skulle således konstrueres en machine learning-model, baseret på de beskrevne vejr- og pollendata, som på baggrund af vejrudsigten kunne forudsige om pollenniveauet den efterfølgende dag ville være lavt, mellem eller højt.

Konklusion

Med en nøjagtighed på niveau med eksperternes egne vurderinger, må projektet siges at være en succes. Udover at frigive tid hos eksperterne, giver modellen også helt nye muligheder.

Man kan for eksempel forestille sig at modellen kan anvendes i andre dele af landet. Gangbarheden af dette er afgjort af i hvor høj grad det er vejret og årstiderne, der bestemmer pollenniveauet, kontra hvor meget indflydelse den lokale flora har. Denne tilgang kan testes med data fra andre pollenmålestationer.

En anden meget interessant implikation er muligheden for at lave forudsigelser længere frem i tiden. Da modellen er baseret på vejrdata, kan man blot give den en 2- eller 3-døgns-vejrprognose og derved få en forudsigelse af pollenniveauet for den givne dag. Denne tilgang bliver selvfølgelig mere og mere unøjagtig des længere frem i tiden man forsøger at forudsige.

Tekniske detaljer kan findes i denne LinkedIn artikel.

perm_data_setting
Algoritme

Vi anvendte balanceringsalgoritmen SMOTE (Synthetic Minority Over-sampling Technique) til at transformere datasættet, så der kom til at være nogenlunde lige mange observationer af hver type.

SMOTE virker ved at modellere alle observationerne som punkter i et højdimensionelt rum. Der dannes herefter linjer mellem de punkter, som repræsenterer minoritetsobservationerne. Slutteligt dannes  nye og tilfældige punkter langs disse linjer.

sports_football
Træning af modellen

Når man skal træne en model, har man brug for præklassificeret data. I vores tilfælde ønskede vi at forudsige pollenniveauet på baggrund af vejrdata. Dette repræsenteres i to matricer: x, som er de data, man forudsiger på baggrund af y, der er det, man ønsker at forudsige. På denne måde kan vi løbende træne og udvide modellen med data.

account_tree
Modeltype

Ud af de testede modeltyper viste random forest sig at være den mest nøjagtige. Random forest virker ved at lave en randomiseret opsplitning af datasættet. Man får således en række mindre datasæt, og på hver af disse trænes et decision tree.

Om kunden

Astma-Allergi Danmark arbejder for, at alle berørt af astma, allergi, høfeber og eksem får en bedre hverdag.
Det gør vi blandt andet ved at give råd og vejledning til mennesker berørt af astma, allergi, høfeber og eksem. Udvikle værktøjer, der kan hjælpe konkret i hverdagen (herunder app’s og kurser). Indsamle viden om, hvordan hverdagen ser ud for patienter og pårørende. Følge med i forskningen. Blande os i debatten og sætte politisk fokus på området.

Vi arbejder også på at styrke forebyggelsen. I dag er omkring 1,5 millioner danskere berørt af astma, allergi eller anden overfølsomhedssygdom, og tallet er stigende.

Vil du vide mere

 

Jakob Svan
Afdelingsleder Dev. East og Open Source Infrastruktur
Der anvendes cookies for at løfte brugeroplevelsen
Got it