Gastblog van Dr Peter Roessingh (Universiteit van Amsterdam)
Een PCA (principale componenten analyse) is een methode om de variatie in een dataset handig samen te vatten en samenhang tussen de gegevens zichtbaar te maken. PCA is een vorm van factoranalyse. In wetenschappelijke stukken worden PCA’s zelden uitgelegd, en op het internet is de meeste uitleg op het eerste gezicht een brei van afkortingen en ondoorgrondelijke matrixalgebra. Daarom hierbij een poging om PCA op een voor leken begrijpelijke manier uit te leggen.
Stel je voor dat je (net de als de auteurs van het ijsbeer artikel) van een groep van 200 objecten 7 zeven eigenschappen hebt gemeten en die hebt gecodeerd. Voor ieder object heb je nu een rijtje van 7 getallen. In meer technische termen kan je zeggen dat je zeven variabelen hebt die de objecten beschrijven.
Je kan deze dataset weergeven in een tabel met 200 regels (voor de 200 objecten) en 7 kolommen waarin de scores voor de 7 eigenschappen staan. Zo’n blok met 1400 getallen is natuurlijk niet heel leesbaar, en dat maakt het lastig om in de tabel verbanden tussen objecten in te ontdekken.
Een plaatje zegt meer dan 1000 (of 1400) woorden, dus proberen we een grafiek van de gegevens te maken.
Om een idee te krijgen eerst maar een weergave waarin we twee van de eigenschappen tegen elkaar uitzetten in een zogenaamde “scatterplot” of “x-y plot”: de eerste score op de x-as, de tweede score op de y-as. Dit maakt de variatie en samenhang van beide variabelen zichtbaar (figuur A). De figuren zijn alleen ter illustratie; de weergegeven punten zijn geen daadwerkelijk geobserveerde data.