Wat is principale componenten analyse (PCA)?

Geplaatst op 4 december 2017door Bart Verheggen | 23 reacties

Gastblog van Dr Peter Roessingh (Universiteit van Amsterdam)

Een PCA (principale componenten analyse) is een methode om de variatie in een dataset handig samen te vatten en samenhang tussen de gegevens zichtbaar te maken. PCA is een vorm van factoranalyse. In wetenschappelijke stukken worden PCA’s zelden uitgelegd, en op het internet is de meeste uitleg op het eerste gezicht een brei van afkortingen en ondoorgrondelijke matrixalgebra. Daarom hierbij een poging om PCA op een voor leken begrijpelijke manier uit te leggen.

Stel je voor dat je (net de als de auteurs van het ijsbeer artikel) van een groep van 200 objecten 7 zeven eigenschappen hebt gemeten en die hebt gecodeerd. Voor ieder object heb je nu een rijtje van 7 getallen. In meer technische termen kan je zeggen dat je zeven variabelen hebt die de objecten beschrijven.

Je kan deze dataset weergeven in een tabel met 200 regels (voor de 200 objecten) en 7 kolommen waarin de scores voor de 7 eigenschappen staan. Zo’n blok met 1400 getallen is natuurlijk niet heel leesbaar, en dat maakt het lastig om in de tabel verbanden tussen objecten in te ontdekken.

Een plaatje zegt meer dan 1000 (of 1400) woorden, dus proberen we een grafiek van de gegevens te maken.

Om een idee te krijgen eerst maar een weergave waarin we twee van de eigenschappen tegen elkaar uitzetten in een zogenaamde “scatterplot” of “x-y plot”: de eerste score op de x-as, de tweede score op de y-as. Dit maakt de variatie en samenhang van beide variabelen zichtbaar (figuur A). De figuren zijn alleen ter illustratie; de weergegeven punten zijn geen daadwerkelijk geobserveerde data.

Deze figuur laat de correlatie tussen de beide variabelen zien, objecten met hoge scores voor zowel de eerste eigenschap als de tweede eigenschap staan rechtsboven in de grafiek. Objecten met lage scores voor beide eigenschappen juist linksonder.

Nu zou je natuurlijk graag alle 7 eigenschappen op deze manier willen plotten in de grafiek om hun variatie en samenhang te zien, maar dat is helaas niet mogelijk. Een derde variabele toevoegen gaat nog net, met een derde (Z) as die loodrecht op de andere twee staat (figuur B). De punten vormen nu een wolk in de driedimensionale ruimte, bepaald door de eerste drie eigenschap-assen. Maar dan houdt het wel op. Voor de vierde variabele hebben we een vierde as nodig, weer loodrecht op de eerste drie, dus een 4-dimensionale ruimte. Dat gaat ons voorstellingsvermogen al ruim te boven, laat staan 7 dimensies voor 7 variabelen.

Gelukkig heeft de wiskunde geen moeite met multi-dimensionale ruimtes, daar kunnen we gewoon doorgaan en een beschrijving maken van de data in 7 dimensies, zodat ieder object 7 coördinaten heeft die de positie van dat punt weergeven. Net zoals in figuur B is het ook in 7 dimensies mogelijk om groepen te vinden van punten die dicht bij elkaar staan.

Maar hoe maak je nu een plaatje van een 7-dimensionale ruimte? De PCA is een oplossing voor dit probleem, en daarnaast vooral een methode voor data-reductie (het handig samenvatten van de gegevens met een paar nieuwe variabelen). In plaats van scores direct te plotten op hun 7 eigen assen gebruiken we nieuwe, loodrecht op elkaar staande assen (de principale componenten), die zo gekozen zijn dat het maximum aan variatie in de puntenwolk zichtbaar wordt. In de meeste gevallen zal de maximale variatie ook de meest nuttige informatie vertegenwoordigen.

In 3D kan je je de procedure om de PCA uit te voeren nog net voorstellen. Stel dat de puntenwolk de vorm heeft van een streng van twee verse worstjes die een beetje platgedrukt zijn zodat het twee dikke pannenkoekjes zijn geworden die in de ruimte hangen met de zijkant van de pannenkoekjes naar ons toe, en dan schuin omhoog de ruimte in (figuur B). Pak deze hele puntenwolk in gedachten vast en draai net zo lang totdat de grootste variatie in de wolk (van de voorkant tot de achterkant van de streng platte worstjes) parallel aan de X as loopt (figuur C). De x-as is nu principale component 1 (PC1).

Vervolgens draai je de streng rond deze as, net zo lang tot je de maximale variatie op de Y-as hebt gevonden. Dat is het geval als de platte kanten van de twee platgedrukte worstjes naar ons toe wijzen. De variatie langs de Z as die eerder onzichtbaar was, is nu zichtbaar geworden langs Y as (figuur D). De Y as noemen we nu PC2. Voor meerdimensionale data kan je dit proces doorzetten totdat er geen noemenswaardige variatie meer over is, en alle variatie in de dataset verklaard wordt door een set principale componenten. Het aantal principale componenten dat nodig is om het merendeel van de variatie samen te vatten is meestal een stuk minder dan het aantal oorspronkelijke variabelen; dit leidt tot data reductie, met maar beperkt verlies aan informatie.

Door nu een scatterplot van PC1 en PC2 tekenen (figuur E) kunnen we de maximale variatie in de eerste 3 variabelen weergegeven in een 2-dimensionaal plaatje. Inderdaad, datareductie! We hebben een dimensie minder nodig. Dat gaat dan wel ten koste van informatie over de dikte van de pannenkoekjes. Die (relatief geringe) variatie is nu niet meer uit de figuur af te lezen. Vaak kan deze reductie nog veel groter zijn, en zullen de eerste twee PCs het merendeel van de variatie weergeven.

De bijdrage van de oorspronkelijke variabelen aan de nieuwe assen kun je weergeven als pijlen in de nieuwe ruimte (zie figuur 2 in het besproken paper). Daaruit is de bijdrage van ieder van de variabelen aan een PC af te lezen door die pijl te projecteren op de betreffende PC. Vaak (maar niet altijd) maakt dit het mogelijk om deze combinatie van bijdragen aan een PC te interpreteren als nieuwe (samengestelde) variabelen die een compactere beschrijving van de gegevens vormen.

Samengevat is het maken van een PCA dus niet veel anders dan de nadruk leggen op die delen van de data waar de grootste verschillen zitten, door een slim gezichtspunt te kiezen bij het bekijken van de ‘puntenwolk’ aan data!

In het besproken paper worden 7 variabelen samengevat door twee PC’s die te interpreteren zijn als een “Niets aan de hand as” (PC1) en een “IJsberen kunnen zich aanpassen” as (PC2). De wetenschappelijke artikelen hebben allemaal lage scores op de “Niets aan de hand as”, net als de helft van de blogs. De andere (pseudo-sceptische) helft van de blogs scoort juist hoog op deze as.

De tweede principale component wordt bepaald door het vertrouwen in het aanpassingsvermogen van de ijsbeer. Hier zijn het vooral een klein aantal scherp bekritiseerde wetenschappelijke papers en een flink aantal pseudo-sceptische blogs die hoge scores laten zien op deze as, terwijl het merendeel van de wetenschappelijke papers relatief lage waardes heeft. De wetenschappelijke papers spreken dus weinig vertrouwen uit in het aanpassingsvermogen van de ijsbeer op de wat langere termijn…

Tot slot kan je je afvragen of deze hele statistische analyse nu eigenlijk wel nodig was. De scheiding tussen de twee groepen blogs is namelijk ook zonder PCA al overduidelijk. Maar de analyse levert ook een objectieve maatstaf om de posities van de blogs met de literatuur te vergelijken. Door scores van papers en blogs te plotten in het zelfde coördinaat systeem blijkt dat een groot deel van de (breed gelezen!) blogs ver van de wetenschappelijke positie staat. De nietsvermoedende burger die op het internet op zoek gaat naar informatie over dit onderwerp, zal dus ruwweg de helft van de keren terecht komen op een site vol doelbewuste, en uiterst effectief gepresenteerde, misinformatie. De belangrijkste boodschap van het paper is daarom dat het dringend nodig is daar wat aan te doen, en dat juist wetenschappers een belangrijk rol hebben bij het op een begrijpelijke manier informeren van het grote publiek.

Dit bericht werd geplaatst in Statistiek, wetenschap en getagged met factoranalyse, ijsberen, PCA, Peter Roessingh, principale componenten analyse, Statistiek. Maak dit favoriet permalink.

23 Reacties op “Wat is principale componenten analyse (PCA)?”

Boels | 4 december 2017 om 12:25 |

Dank!
Voor de Excel-liefhebbers:
http://blog.learningtree.com/principal-component-analysis/

LikeLike
Wieke Dubelaar-Versluis | 4 december 2017 om 12:42 |

Beste Bart en klimaatgenoten,

Een reactie op onderstaande citaat:
De nietsvermoedende burger die op het internet op zoek gaat naar informatie over dit onderwerp, zal dus ruwweg de helft van de keren terecht komen op een site vol doelbewuste, en uiterst effectief gepresenteerde, misinformatie. De belangrijkste boodschap van het paper is daarom dat het dringend nodig is daar wat aan te doen, en dat juist wetenschappers een belangrijk rol hebben bij het op een begrijpelijke manier informeren van het grote publiek.

Hoe krijgen we dat het beste voor elkaar? Wie is de meest geschikte persoon voor populair wetenschappelijke teksten; een wetenschapper, communicatiedeskundige of journalist?

Wie haalt niet teveel info weg maar brengt wel de boodschap juist over.. van wetenschappelijke kennis tot gefundeerde begrijpelijke teksten.

Ik vind dit nog steeds een prangende en boeiende vraag.

MvG,
Wieke Versluis
GeoSpatie

LikeLike
Boels | 4 december 2017 om 13:50 |

“.. zal dus ruwweg de helft van de keren terecht komen op een site vol doelbewuste, en uiterst effectief gepresenteerde, misinformatie.”

Ik vrees dat het voor vrijwel alle onderwerpen het geval is.
Vrijheid van meningsuiting of zoiets en daar valt van alles onder: reclame, misleiding, propaganda en indoctrinatie.
En glashard liegen.

Ik weet de oplossing niet en kijk dan maar naar wat elementen die de “waarheid” kunnen beïnvloeden: geld (“follow the money”), status, aanhang, geloofwaardigheid in het verleden, spontane bereidheid tot het toegeven van fouten, gezag toe-eigenend, …
Heel subjectief, maar ik weet niet iets beters.
Maar ik ben dan ook geen klimaatgenoot 😉

LikeLike
Pepijn van Erp | 4 december 2017 om 14:09 |

Bart Verheggen lichtte in een commentaar op het vorige stuk toe dat de datapunten een beetje verschoven zijn tov hun werkelijke positie (‘jittering of datapoints’). Ik neem aan dat dat gebeurt nadat de PC1 en PC2 bepaald zijn en het puur voor de grafische weergave is, toch?

Wat ik nog steeds niet zo goed begrijp waarom het citeren van Crockford als extra variabele is meegenomen in deze principale-componentenanalyse. Als ik afga op de grafiek dan lijkt die nauwelijks extra informatie te verschaffen die de splitsing duidelijker maakt. En wanneer is er voor gekozen die variabele toe te voegen? In de tekst wordt nl. alleen gesproken over de zes andere variabelen. Is daar de PCA eerst mee uitgevoerd?
In mijn ogen is het wel belangrijk dat hier duidelijkheid over verschaft wordt gezien de commotie die jullie artikel nu veroorzaakt bij de ‘tegenpartij’ (als dat het een vooropgezette afrekening met Crockford zou zijn).

Als het gaat om een tweede analyse dan had ik het logischer gevonden om die met een compleet nieuwe set variabelen te doen, met ‘citeert Crockford’, ‘citeert Stirling’, ‘citeert Armstrup’ of iets dergelijks.

Ik begrijp van Verheggen ook dat de data vrij gegeven worden en eigenlijk meteen met de publicatie beschikbaar zouden zijn. Staan daar dan ook de formules voor PC1 en PC2 bij?

Van PCA weet ik niet heel veel af, maar ik begrijp wel dat het gebruik er van bij binaire data niet geheel onomstreden is. Ben daarom ook wel benieuwd hoe Peter Roessingh daar tegen aan kijkt bij deze dataset.

LikeLike
Bob Brand | 4 december 2017 om 14:19 |

Hallo Wieke,

Op dit blog doet men z’n best om wetenschappelijke kennis, soms heel actuele kennis, in gefundeerde en begrijpelijke teksten te vatten.

De oproep aan onderzoekers om zelf (nog) méér in contact te treden met het grote publiek bijvoorbeeld via stukken in de zaterdagbijlagen, lezingen, een programma op tv, etc. lijkt me wel belangrijk want dan omzeil je de ‘middleman’ in de communicatie.

“De nietsvermoedende burger die op het internet op zoek gaat naar informatie over dit onderwerp, zal dus ruwweg de helft van de keren terecht komen op een site vol doelbewuste, en uiterst effectief gepresenteerde, misinformatie.”

Dat kan nog wel ’s meevallen doordat bijvoorbeeld Google de gezaghebbende bronnen (zoals NASA, NOAA, wetenschappelijke academies) hoger in de zoekresultaten laat zien. Het kan soms de wens zijn van de ‘nietsvermoedende burger’ om bij voorkeur informatie tot zich te nemen die al bestaande vooroordelen (of wantrouwen) bevestigt. Dat doet hen dan vervolgens bij WUWT en Climate Depot etc. belanden: ‘cognitive bias’.

LikeLike
Bob Brand | 4 december 2017 om 14:33 |

Beste Pepijn van Erp,

Volgens mij is je vraag al beantwoord onder het voorgaande blogstuk, je vraagt: “En wanneer is er voor gekozen die variabele toe te voegen? In de tekst wordt nl. alleen gesproken over de zes andere variabelen. Is daar de PCA eerst mee uitgevoerd?”

Dat had Bart al beantwoord: “Het citeren van Crockford is idd meegenomen als 7de variabele in de PCA”, hier: https://klimaatverandering.wordpress.com/2017/11/29/er-was-eens-een-ijsbeer-wetenschap-versus-de-blogosfeer/#comment-22402

In de publicatie staat dat ook onder Figure 2 vermeld: “Principle component analysis of scores for six statements, three about Arctic ice and three about about polar bears, and citations of Susan Crockford.” Dat zijn dan in totaal 7 variabelen, zoals hierboven ook genoemd door Peter Roesingh.

Mijns inziens is het wel degelijk een relevant verschijnsel dat de 45 ‘denier blogs’ enerzijds de uitkomsten van 92 wetenschappelijke publicaties negeren, maar anderzijds wél (althans 80% van deze blogs) zich baseren op één ongepubliceerde bron, namelijk Crockford.

LikeLike
Pepijn van Erp | 4 december 2017 om 15:10 |

Beste Bob,

Dat er 7 variabelen zijn gebruikt voor de weergegeven PCA in figuur 2 is duidelijk. Het maakt volgens mij wel uit of vooraf bedacht was om die 7e variabele mee te nemen, of dat je de analyse eerst met de 6 andere uitvoert. Als de ‘Crockfordcitatie’-variabele namelijk al van te voren bedacht was, dan laadt je sterk de verdenking van een voorbedachte afrekening op je. Niet dat dat per se niet zou mogen van mij, maar het artikel suggereert min of meer dat de sterke ‘Crockfordcitatie’ correlatie naar voren komt ná objectieve analyse.
Ik vind het vooral erg onhandig. De PCA met alleen de zes in de lopende tekst genoemde variabelen geeft denk ik bijna hetzelfde plaatje. Als je op basis van die splitsing dan kijkt of je nog andere ‘splitsers’ kunt identificeren en dan de ‘Crockfordcitatie’ vindt (maar je zou het ook wat neutraler als ‘peer-reviewed’ vs ‘non peer-reviewed’ kunnen doen) dan heb je een sterker verhaal in mijn ogen.

LikeLike
Peter Roessingh | 4 december 2017 om 15:36 |

Dag Pepijn,

Dank voor je zeer relevante vragen. Ten eerste de jitter. Je hebt inderdaad goed ingeschat dat de grafische weergave helemaal los staat van de PCA zelf. Je kan de jitter ook wel weglaten, maar van vallen er veel punten over elkaar en valt de informatie over het aantal punten op de verschillende plaatsen grotendeels weg. De gejitterde figuur is veel informatiever.

Crockford citeren is meegenomen omdat een belangrijk doel van de PCA was de samenhang van de variabelen te laten zien. En nee, de analyse is van het begin af aan met zeven variabelen uitgevoerd. Maar omdat die andere zes over de zes gebruikte uitspraken gaan (die ook in figuur 1 staan) zijn die apart benoemd. Maar de tekst is inderdaad niet helemaal gelukkig kozen.

Dan de binaire data. Dat is inderdaad niet onomstreden, maar wiskundig gezien kan het gewoon, zeker in dit geval, waar het is het signaal in de data zo duidelijk is.

Meer in het algemeen ben ik niet zo’n fan van PCA als analysemethode. Ik denk dat het vooral geschikt is om een idee te krijgen van de patronen in een dataset en voor wat complexere data ga ik daarna altijd lineaire modellen gebruiken om de verschillen echt te toetsen. Maar dat is voor deze dataset overkill. Een simpele tekentoets zou al genoeg zijn. De PCA is echt bedoeld om een overzicht van de samenhang van de gegevens te krijgen.

Peter.

LikeLike
Bob Brand | 4 december 2017 om 15:53 |

Beste Pepijn,

Ik vind je opmerkingen heel inconsistent.

Eerst maak je bezwaar tegen het achteraf toevoegen van het wel/niet citeren van Crockford als zevende variabele. Vervolgens ga je bezwaar maken tegen het vooraf meenemen van deze 7e variabele in de PCA-analyse:

“Als de ‘Crockfordcitatie’-variabele namelijk al van te voren bedacht was, dan laadt je sterk de verdenking van een voorbedachte afrekening op je.”

Oh? Het mag niet achteraf meegenomen worden? En niet vooraf?

Aangezien de andere 6 variabelen ook binair met ja/nee beantwoord zijn is er helemaal niets op tegen om als 7e binaire variabele het wel/niet citeren van Crockford mee te nemen in de analyse. Het is van belang omdat niet alléén de 90 blogs maar ook de 92 wetenschappelijke publicaties geanalyseerd zijn op deze zeven variabelen.

Stel dat Crockford wél geciteerd was in een beduidend aantal van de wetenschappelijke publicaties, dan was dit in de analyse naar voren gekomen. Dan was het ook minder een ‘differentiator’ gebleken tussen: papers enerzijds – denier blogs anderzijds.

Dat Crockford het niet ‘leuk’ vindt dat zij op 80% van de ‘denier’ blogs wordt geciteerd (terwijl daar de resultaten van 92 wetenschappelijke publicaties genegeerd worden), is begrijpelijk. Maar de analyse maakt dit alleen maar zichtbaar.

LikeLike
mrooijer | 4 december 2017 om 16:06 |

@Pepijn – formules? Als wiskundige zou je dat moeten weten. Niet-wiskundigen mogen de volgende paragraaf overslaan.

Formules voor PC1 en PC2 zijn standaard lineaire algebra. Principle Components zijn de eigenvectoren van de correlatiematrix geordend naar de grootte van de eigenwaarden. Omdat de correlatiematrix symmetrisch is zijn alle eigenwaarden reëel.

Google gebruikt eenzelfde soort algoritme om bij zoekopdrachten gerelateerde artikelen te vinden.

LikeLike
Pepijn van Erp | 4 december 2017 om 16:39 |

@mrooijer Natuurlijk weet ik dat, maar ik ben nieuwsgierig naar hoe zwaar die ‘Crockfordcitatie’ meeweegt in PC1. Als de data beschikbaar was, was dat natuurlijk zo uitgerekend 😉

LikeLike
Pepijn van Erp | 4 december 2017 om 16:45 |

@Bob waar ik enigszins bezwaar tegen heb is de onduidelijkheid. Van mij mag je best vooraf bedenken dat je specfiek naar de Crockfordfactor kijkt, maar zoals het opgeschreven is, lijkt het alsof de onderzoekers daar vanzelf op stuitten ná de PCA, maar dat kan niet kloppen als die al als variabele is meegenomen.

LikeLike
Raymond Horstman | 4 december 2017 om 16:59 |

Dit en het vorige artikel is heel interessant maar waar het mijn inziens ontbreekt en er beslist in zou moeten staan zijn de populaties gegevens van ijsberen over pakweg de afgelopen 40 jaar. Als ik er even voor het gemak van uit ga dat deze gegevens bestaan. Waarom worden deze gegevens niet vermeld. Wat is het nut van model berekeningen, literatuur onderzoek enz. als je niet controleert hoe het werkelijk met de ijsbeer populatie gaat? Misschien gaat het heel goed met de populaties?

LikeLike
Paai | 4 december 2017 om 21:47 |

Leuk! Ik word er helemaal nostalgisch van! En een duidelijke uiteenzetting, waarvoor hulde.

(Het volgende alleen over de statistiek, niet over klimaat)

In de klassieke full-text information retrieval (IR) worden documenten gerepresenterd als woordvectoren, waarbij ieder trefwoord (attribuut) een dimensie is. PCA is een van de manieren waarop de documenten vervolgens kunnen worden gegroepeerd. Echter, in de IR heb je nog een paar andere leuke maten: de tf.idf van een trefwoord en de discriminatiewaarde ervan. De tf.idf is het aantal keren dat een woord in een specifiek document voorkomt gedeeld door het aantal documenten waarin het woord voorkomt (met een handvol normalisaties) en de discriminatiewaarde is de mate waarin het weghalen of toevoegen van een woord de documentwolk over al die dimensies in elkaar doet krimpen of uit doet dijen (nauw verwant aan de ‘gain’). Ik ben twintig jaar geleden gepromoveerd op dit onderwerp, dus het ligt me na aan het hart.

Ik zou het leuk vinden om van Peter Roessingh te horen of soortgelijke maten ook in zijn wereldje voorkomen. Verder of hij zich Timbl nog herinnert, een memory based machine learning programma dat we in Tilburg (uiteraard) veel gebruikten.

En tot slot een verzuchting: toen ik nog dagelijks bezig was met dit spul ergerde ik me mateloos aan het feit dat de gebruikte termen voor een en dezelfde datamanipulatie over de verschillende vakgebieden en disciplines zozeer verschilden, dat je soms dagen aan het puzzelen was op een nieuwe techniek om er dan achter te komen dat het iets was dat je al jaren gebruikte onder een andere naam…

Paai

LikeLike
Bob Brand | 4 december 2017 om 23:06 |

Hallo Pepijn,

“… maar zoals het opgeschreven is, lijkt het alsof de onderzoekers daar vanzelf op stuitten ná de PCA”

Uiteraard weten de onderzoekers pas ná de analyse gedaan te hebben, hoeveel van de ‘denier blogs’ zich precies baseren op Crockford.

Er wordt eerst beschreven hoe men de ‘scores’ voor de 90 blogs en 92 wetenschappelijke papers bepaald en geanalyseerd heeft. Daarna volgt er een nieuwe paragraaf met de titel: ‘Science-based and -denier blogs take completely different positions on Arctic ice extent and polarbear status‘, waar de uitkomsten in Figure 1 en Figure 2 toegelicht worden. Daar heeft men het over de ‘published literature’:

Science-based blogs overwhelmingly used […], whereas those written by deniers did not (figure 2). Science-denier blogs instead focused on the remaining uncertainties regarding the effects of AGW on Arctic ice extent, suggesting that those uncertainties cast doubt on the present and future demographic trends of polar bears.

Oké, dat roept de vraag op waar de ‘denier’ blogs zich dan wel op baseren. Dat blijken geen wetenschappelijke publicaties te zijn maar het blog van Crockford:

Aangezien deze 45 blogs, in 80% van de gevallen, Crockford aanhalen en de resultaten van 92 wél wetenschappelijk gepubliceerde studies naast zich neerleggen, lijkt het me alleszins redelijk dat men vervolgens nader ingaat op de argumentatie van Crockford. Tenslotte is dat waar 80% van deze blogs aan blijkt te refereren?

LikeLike
Lieuwe Hamburg | 5 december 2017 om 01:39 |

“Misschien gaat het heel goed met de populaties?” (Raymond)

Hoe groot is de kans dat dit grote roofdier floreert onder de huidige omstandigheden Raymond? Het beest is voor een belangrijke mate afhankelijk van zee-ijs. Is Crockford instaat wetenschappelijk te bewijzen dat de ijsbeer een prima leventje heeft onder de huidige omstandigheden? Moeten jij en zij dan niet met het bewijs komen? Ik lees nergens in beide artikelen dat de ijsbeer het lot van de Dodo volgt.

Het gaat over de argeloze internetbezoeker (lezer) die bij het scrollen bijna net zoveel onzin leest als wetenschappelijk onderbouwde kennis over het klimaat op de Aarde. Jij op jouw beurt mag ons dan weer verwarren met de temperatuur op de Maan: lekker wetenschappelijk… Bijna net zo belabberd
als de bijdragen van Crockford. Het ontkennen van een probleem is makkelijker dan het verzamelen van de feiten die een bepaalde situatie schragen.
https://raymondhorstman.wordpress.com/

LikeLike
Raymond Horstman | 5 december 2017 om 12:50 |

Beste Lieuwe,
Ik vroeg slechts om een onderbouwing van de theorie dat het slecht zou gaan met de ijsberen door populatie gegevens van de ijsbeer te verlangen. Sinds wanneer ben je dan een ontkenner. En wat precies probeer ik dan te ontkennen. Ik verwar nergens mee. Dit is onderzoek waar ik al jaren mee bezig ben. Of het een goed model is wat hier wordt presenteert is iets heel anders. Maar dit staat los van het feit dat je beweringen dient te onderbouwen vanuit de werkelijkheid. Dus populatiegegevens van de ijsbeer over pakweg de laatste 40 jaar.

LikeLike
Marco | 5 december 2017 om 13:37 |

Raymond, moeilijk te zeggen, overall gezien.
http://pbsg.npolar.no/en/status/pb-global-estimate.html
en
http://pbsg.npolar.no/en/status/population-map.html

Een probleem, zoals zo vaak in de wetenschap, zijn de veranderingen over tijd in meetmethodes, maar meer specifiek ook in de jacht op ijsberen.

LikeLike
Hans Custers | 5 december 2017 om 13:54 |

Raymond,

Je doet wat veel pseudosceptische blogs ook steeds doen als het over ijsberen gaat: een stropop opzetten. Noch in het artikel van Harvey at a., noch in de blogs van Bart over dat artikel wordt er beweerd dat het slecht zou gaan met de ijsberenpopulatie.

Wel wordt er gewezen op een niet-lineair effect dat er volgens de wetenschappelijke literatuur te verwachten is. Als het op blijft warmen en het zeeijs af blijft nemen komt naar verwachting een moment waarop de populaties zwaar onder druk komen te staan en dan kan het heel hard gaan.

Pseudosceptici verdraaien die waarschuwing steeds weer tot een bewering alsof de populaties al lange tijd sterk af zouden nemen. Vervolgens vergelijken ze de huidige aantallen met die uit een periode toen de populaties sterk onder druk stonden door de jacht. Door een strenge regulering van de jacht hebben populaties zich kunnen herstellen, maar dat zegt absoluut niets over de toekomstige risico’s van klimaatverandering.

LikeLike
Bob Brand | 5 december 2017 om 13:57 |

Beste Lieuwe,

Je zegt over Raymond: “Jij op jouw beurt mag ons dan weer verwarren met de temperatuur op de Maan: lekker wetenschappelijk… Bijna net zo belabberd als de bijdragen van Crockford.” Dat lijkt me ietwat overdreven. De reacties van Raymond op ons blog ervaar ik niet als klimaatontkenning. Het is niet allemaal even succesvol, maar Raymond verdient wel een compliment dat hij sommige zaken (zo goed en zo kwaad als het gaat) zelf probeert na te rekenen.

Raymond, je zegt: “Ik vroeg slechts … populatie gegevens van de ijsbeer te verlangen.” Het blogstuk en de besproken publicatie gaan daar niet over. Het gaat erover hoe 90 verschillende blogs de wetenschappelijke resultaten wel-of-niet correct weergeven.

Héél in het kort over de populatie: begin jaren ’70 ging het allerbelabberdst met de ijsberen, er waren er waarschijnlijk (!) nog maar ca. 5000 over als gevolg van intensieve bejaging. In 1973 is de jacht verboden:

https://en.wikipedia.org/wiki/Agreement_on_the_Conservation_of_Polar_Bears

Sinds 1973 heeft de populatie zich razendsnel hersteld naar vermoedelijk (!) ca. 25.000 ijsberen. Het gaat dus geweldig, toch? Nou, dat is een onjuiste conclusie want begin jaren ’70 was de ijsbeer vermoedelijk het uitsterven nabij. Het herstel sinds 1973 is puur doordat de jacht toen streng verboden is (m.u.v. jaarlijks bepaalde, kleine aantallen die door de lokale Inuit ‘harvested’ mogen worden.)

Het ‘tellen’ van ijsberen is bijzonder lastig omdat die dieren natuurlijk voortdurend ‘on the move’ zijn, zich goed kunnen camoufleren en grote delen van het Arctische gebied niet toegankelijk zijn. Er zijn 19 subpopulaties en sommige daarvan worden intensief gevoigd, andere niet. Het is heel lastig om de resultaten van één subpopulatie te extrapoleren naar alle andere subpopulaties – want aanwas van één subpopulatie kan juist het gevolg zijn van het onder druk staan van de ijsberen in een ander gebied! De dieren ‘verhuizen’ dan waardoor in een naburige subpopulatie de aantallen toenemen en er later voedseltekorten kunnen ontstaan. Lees verder:

https://www.skepticalscience.com/polar-bears-global-warming.htm
http://pbsg.npolar.no/en/index.html
https://blog.nature.org/science/2013/12/03/what-science-polar-bear/
http://www.iucnredlist.org/details/22823/0
https://polarbearsinternational.org/climate-change

“In 2005, the IUCN Polar Bear Specialist Group (PBSG) classified the Polar Bear as a vulnerable species. In 2009, they reported that of the 19 subpopulations of Polar Bears:

8 are declining
3 are stable
1 is increasing
7 are without sufficient data

This compares with, in 2005:

5 declining
5 five stable
2 increasing
7 data deficient”

LikeLike
Lieuwe Hamburg | 5 december 2017 om 15:59 |

Bob,

Je hebt een punt en als Raymond meeleest; ik had me moeten beperken tot alleen jouw reactie van 4 dec. 16.59. Die reactie wekte bij mij de nodige ergernis en achterdocht op. Ik vraag mij nog steeds af waarom jij vroeg naar de populatie gegevens van de afgelopen 40 jaar.

LikeLike
Raymond Horstman | 5 december 2017 om 16:39 |

IK ben tevreden gesteld. Het is slechts dat ik te vaak allerlei beweringen hoor doen die vrijwel uitsluitend op modelberekeningen zijn gebaseerd. In het verleden bijvoorbeeld een huiveringwekkend verhaal over kool of pimpelmeesjes die door klimaatveranderingen geen voer meer voor hun kuikens konden vinden. Ook toen geen enkele controle of het verhaal wel klopt aan hand van populatiegegevens. Natuurlijk is het niet makkelijk om goede en betrouwbare cijfers over ijsberen te krijgen en misschien is het niet helemaal relevant maar je mag toch op zijn minst de vraag stellen zonder meteen in het kamp van de klimaat ontkenners te worden geplaatst. Dit gezegd te hebben sluit ik de discussie verder af. Een prettige middag ook al lijkt het al avond in deze donkere dagen in veel opzichten incluis het klimaat.

LikeLike
Peter Roessingh | 5 december 2017 om 17:56 |

Dag Paai (december 4, 2017 om 21:47 )

Dank voor het compliment over het gastblog.

Ik ben van huis uit een neurofysioloog, en gebied waar PCA niet echt veel gebruikt wordt. In de ecologie wel meer, maar zoals ik al schreef in het antwoord aan Pepijn ben ik niet zo’n fan van deze methoden voor wat meer diepgaandere analyse. De belangrijkste reden is dat het soms lastig kan zijn om de Principale Componenten te interpreteren. In deze eenvoudige dataset gaat dat nog goed, maar als het wat ingewikkelder wordt is het vaak helemaal niet meer zo duidelijk wat de nieuwe as nu precies voorstelt. Ik zie veel meer in Generalized Linear Models (GLM) of mixed models (GLMM). De resultaten zijn daar veel directer te interpreteren. Je ook makkelijker specifieke hypotheses formuleren en die dan testen. Maar met name in de community ecologie waar je met enorme aantallen variabelen te maken hebt (net zo als waarschijnlijk in de tekstanalyse) zijn ordinantie en classificatie technieken nog zeer gangbaar. Het zou zeker mogelijk zijn om de bijdragen van de verschillende verklarende factoren te berekenen, maar dat was dat helemaal niet de bedoeling van deze PCA, het ging er primair om het gebrek aan overlap tussen (een deel van) de de blogs en de literatuur te laten zien.

Peter.

PS
Inderdaad, de terminologie in de verschillende vakgebieden is hoogst verwarrend, je frustratie is zeer herkenbaar!

LikeLike

Wat is principale componenten analyse (PCA)?

23 Reacties op “Wat is principale componenten analyse (PCA)?”

Plaats een reactie

Welkom op ons klimaatblog!

Meest recente berichten

Recente reacties

Email Subscription

Categorieën

Wat is principale componenten analyse (PCA)?

Beoordeel dit:

Dit delen:

Gerelateerd

23 Reacties op “Wat is principale componenten analyse (PCA)?”

Plaats een reactie

Welkom op ons klimaatblog!

Meest recente berichten

Recente reacties

Email Subscription

Categorieën