Valse correlatie
Wat is onechte correlatieIn statistieken verwijst een onechte correlatie of onechtheid naar een verband tussen twee variabelen dat causaal lijkt maar dat niet is. Valse relaties hebben vaak het uiterlijk van een variabele die van invloed is op een andere. Deze valse correlatie wordt vaak veroorzaakt door een derde factor die niet duidelijk is op het moment van onderzoek, soms een verwarrende factor genoemd.
Belangrijkste leerpunten
- Valse correlatie of onechtheid is wanneer twee factoren terloops lijken, maar dat niet zijn.
- Het verschijnen van een oorzakelijk verband is vaak het gevolg van een vergelijkbare beweging op een kaart die toevallig lijkt te zijn of wordt veroorzaakt door een derde "confounding" -factor.
- Valse correlatie kan vaak worden veroorzaakt door kleine steekproefgroottes of willekeurige eindpunten.
Hoe valse correlatie werkt
Wanneer twee willekeurige variabelen elkaar in een grafiek nauwlettend volgen, is het gemakkelijk om een verband of een verband tussen de twee factoren te vermoeden, waarbij een verandering de andere beïnvloedt. Afgezien van 'causation', een ander onderwerp, kan deze observatie de lezer van de grafiek doen geloven dat de beweging van variabele A gekoppeld is aan de beweging in variabele B of vice versa. maar soms, bij nader statistisch onderzoek, zijn de uitgelijnde bewegingen toevallig of veroorzaakt door een derde factor die de eerste twee beïnvloedt. Dit is een valse correlatie. Onderzoek met kleine steekproefomvang of willekeurige eindpunten is bijzonder gevoelig voor onechtheid.
Voorbeeld van onechte correlaties
Het is niet al te uitdagend om interessante correlaties te ontdekken. Velen zullen echter vals blijken te zijn. Voor de mannelijke soort op Wall Street hebben twee populaire valse correlaties betrekking op vrouwen en sport. Afkomstig uit de jaren 1920 is de roklengtetheorie, die stelt dat roklengtes en beursrichting gecorreleerd zijn. Als roklengten lang zijn, betekent dit dat de aandelenmarkt daalt; als ze kort zijn, gaat de markt omhoog. Rond eind januari is er sprake van de zogenaamde Super Bowl-indicator, die suggereert dat een overwinning van het AFC-team waarschijnlijk betekent dat de aandelenmarkt het komende jaar zal dalen, terwijl een overwinning door het NFC-team een stijging voorspelt in de markt. Sinds 1966 heeft de indicator een nauwkeurigheid van 80%. Het is een leuk gespreksonderwerp, maar waarschijnlijk niet iets dat een serieuze financieel adviseur zou aanbevelen als een beleggingsstrategie voor klanten.
Hier zijn nog enkele voorbeelden van veel voorkomende valse correlaties:
- Verdrinking stijgt wanneer de ijsverkoop stijgt. Het lijkt misschien dat de toegenomen verkoop van ijs meer verdrinking veroorzaakt, maar in werkelijkheid kan stijgende hitte ervoor zorgen dat meer mensen zwemmen en meer ijs kopen.
- Het aantal moorden in de VS van 2006-2011 daalde in hetzelfde tempo als het gebruik van Microsoft Internet Explorer.
- Leidinggevenden die vaker alsjeblieft en bedanken, genieten van betere prestaties bij het delen.
- Mensen die Oakland Raiders-teamkleding dragen, plegen vaker misdaden.
Hoe valse correlaties te herkennen
Statistici en andere wetenschappers die gegevens analyseren, moeten voortdurend op zoek zijn naar onechte relaties. Er zijn tal van methoden die ze gebruiken, waaronder:
- Zorgen voor een correct representatief monster.
- Het verkrijgen van een adequate steekproefomvang.
- Wees op uw hoede voor willekeurige eindpunten.
- Regelen voor zoveel mogelijk externe variabelen.
- Een nulhypothese gebruiken en controleren op een sterke p-waarde.