Tagarchief: Statistiek

De correlatie van temperatuur en sterftekans

In 2015 – zo lang geleden alweer – schreef ik een blogje naar aanleiding van een onderzoek dat voor allerlei plekken in de wereld het verband tussen temperatuur en sterftekans in beeld bracht. Het resultaat was opmerkelijk. Vrijwel overal in de wereld is de sterfte het laagst bij een zogenaamde optimale temperatuur, die iets boven het jaargemiddelde ligt. De overlijdenskans wordt groter naarmate de temperatuur meer afwijkt van die optimale waarde. Het patroon is nagenoeg overal hetzelfde, maar de optimale temperatuur is heel verschillend, afhankelijk van het lokale klimaat. In koude gebieden ligt die een stuk lager dan in warme klimaatzones. De afbeelding hieronder geeft het patroon schematisch weer.

Schematische weergave van het verband tussen overlijdenskans en temperatuur. Bron: Hannah Ritchie / Our World in Data

Bij extremen aan de koude en warme kant is de sterftekans flink hoger, maar die extremen komen niet vaak voor. De meeste mensen overlijden dus bij een meer ‘normale temperatuur’. Die ligt wat vaker onder dan boven de optimale temperatuur, want de optimale temperatuur is wat hoger dan het gemiddelde (of eigenlijk: de mediaan). Logisch dus dat de meeste sterfgevallen optreden bij een relatief koele temperatuur. Het resultaat van de studie uit 2015 is sindsdien bevestigd door andere onderzoeken, vooral van het internationale samenwerkingsverband MCC Collaborative Research Network.

De vraag is hoe je deze resultaten moet interpreteren. Het is statistisch, epidemiologisch onderzoek, dat een correlatie aantoont, maar daarmee nog niet direct iets zegt over een oorzakelijk verband. En daar gaat het nogal eens mis. Bij pseudosceptici natuurlijk, maar daar niet alleen. De afgelopen tijd waren bijvoorbeeld ook Hannah Ritchie op Our World in Data en Jesse Frederik op De Correspondent wat slordig, ook al benoemden ze verschillende belangrijke nuances wel. En ook de onderzoekers zelf gaan wel eens kort door de bocht. Hieronder ga ik in op enkele slordige interpretaties. Moraal van het verhaal: pas op met het trekken van stellige conclusies op basis van statistische verbanden alleen.

Lees verder

Wat is principale componenten analyse (PCA)?

Gastblog van Dr Peter Roessingh (Universiteit van Amsterdam)

Een PCA (principale componenten analyse) is een methode om de variatie in een dataset handig samen te vatten en samenhang tussen de gegevens zichtbaar te maken. PCA is een vorm van factoranalyse. In wetenschappelijke stukken worden PCA’s zelden uitgelegd, en op het internet is de meeste uitleg op het eerste gezicht een brei van afkortingen en ondoorgrondelijke matrixalgebra. Daarom hierbij een poging om PCA op een voor leken begrijpelijke manier uit te leggen.

Stel je voor dat je (net de als de auteurs van het ijsbeer artikel) van een groep van 200 objecten 7 zeven eigenschappen hebt gemeten en die hebt gecodeerd. Voor ieder object heb je nu een rijtje van 7 getallen. In meer technische termen kan je zeggen dat je zeven variabelen hebt die de objecten beschrijven.

Je kan deze dataset weergeven in een tabel met 200 regels (voor de 200 objecten) en 7 kolommen waarin de scores voor de 7 eigenschappen staan. Zo’n blok met 1400 getallen is natuurlijk niet heel leesbaar, en dat maakt het lastig om in de tabel verbanden tussen objecten in te ontdekken.

Een plaatje zegt meer dan 1000 (of 1400) woorden, dus proberen we een grafiek van de gegevens te maken.

Om een idee te krijgen eerst maar een weergave waarin we twee van de eigenschappen tegen elkaar uitzetten in een zogenaamde “scatterplot” of “x-y plot”: de eerste score op de x-as, de tweede score op de y-as. Dit maakt de variatie en samenhang van beide variabelen zichtbaar (figuur A). De figuren zijn alleen ter illustratie; de weergegeven punten zijn geen daadwerkelijk geobserveerde data.

Lees verder