onsdag 14 oktober 2015

Ölexperiment och signifikans




Jag har vi några tillfällen ägnat mig åt bryggexperiment. Med detta menar jag inte att brygga ett experimentellt öl med något udda påhitt, utan att testa olika aspekter av bryggandet via systematiska experiment i vetenskaplig anda. Flera andra hembryggare har gjort liknande saker, men ofta saknas en systematisk utvärdering för att man ska nå hela vägen.

En som dock har satt en standard för hur dylika tester ska göras är bloggaren bakom Brülosophy. Hans exBeeriment är väl utförda och i synnerhet hans testprotokoll med blindning och trianguleringstest (se fotnot 1). Resultaten har verkligen vänt upp och ner på en del klassiska råd och rön inom hembryggningen. Oftast uppnår han ej statistiskt signifikans, vilket kan ge sken av att inget spelar någon roll inom hembryggning. Koktid, jästmängd, jästemperatur och så vidare kan göras lite hur som helst. Brülosopher själv är dock en modest person som inte drar för stora växlar på sina försök, och påpekar gärna att det är enstaka datapunkter i en stor och komplex rymd av möjliga parametervärden.

Det stämmer nog delvis, som exempelvis för hans koktidsexperiment. En annan bryggare med långsammare kylning eller lång whirlpool hade kanske fått ett annat resultat. För vissa andra experiment känns hans resultat dock mer allmänt applicerbara. Och framförallt ger de lite grand fingret åt alla överdrivna utsagor och husdjursteorier om vikten av ditt och datt.

Det finns dock en annan aspekt som gör att man inte kan stödja sig på hans experiment för att bli en slapp bryggare. Ofta finns indikationer på en liten effekt av de skillnader i bryggmetod som han undersöker, om än ej tillräckligt stor effekt för att bli statistiskt signifikant med de modesta antal försökspersoner han använder sig av. Däremot skulle flera små skillnader aggregerat kunna få en större effekt. Att koktid, jästmängd och jästemperatur var för sig inte ger någon tydlig skillnad, betyder inte att den sammantagna effekten är lika försumbar. För att reda ut detta mer noga behöver jag gräva ner mig lite i statistisk hypotesprövning, vilket är trevligt eftersom det kopplar till mitt civila yrke.

För att förklara statistisk hypotesprövning och begreppet statistisk signifikans, låt oss utgå från koktidsexperimentet. Vid hypotesprövning bildar man alltid en nollhypotes H0 som innebär att det inte finns någon effekt i det det man undersöker. I detta fall är effekten vi är intresserad av att det sensoriskt ska gå att känna skillnad på 30 respektive 90 minuters koktid, och således blir H0 = {det finns ingen sensoriskt detekterbar skillnad på 30 och 90 minuters kok}. Mot nollhypotesen ställer man en alternativhypotes H1 som enbart innebär att H0 är falsk, vilket man då tolkar som att det finns en effekt. Utgående från någon typ av observerad data X försöker man se om man kan förkasta H0, vilket i så fall ses som att man har visat att H1 är sann.

I koktidsexemplet väljer vi lämpligen X = antalet försökspersoner som korrekt identifierade det unika ölet i trianguleringstestet. Sedan ställer man sig följande fråga: givet att H0 är sann, hur troligt är det observerade värdet på X? Om H0 är sann innebär det att samtliga deltagare i trianguleringstestet gissade, och då kan vi i snitt förvänta oss att en tredjedel kommer gissa rätt, i vårt fall 6 av 18 deltagare, vilket faktiskt råkade bli utfallet. På grund av slumpens skördar kommer vi dock inte få samma resultat varje gång om vi gjorde om testet. Därför ställer man sig frågan: vad är sannolikheten för att 6 eller fler korrekt ska identifiera det unika ölet givet H0? Alternativt uttryckt, vad är sannolikheten för att minst 6 personer ska identifiera rätt öl givet att samtliga gissar? Denna sannolikhet brukar man kalla för p-värdet, och rent allmänt kan p-värdet uttryckas "sannolikheten för att vi ska observera minst lika extrema data som vi gjorde givet att H0 är sann". Ett lågt p-värde anses som skäl för att förkasta H0 och därmed bekräfta H1, och typiskt sätts gränsen något godtyckligt vid p=0.05 (se fotnot 1). I vårt fall fick vi föga överraskande ett betydligt högre värde (p=0.5) varför vi inte vågar utesluta H0.

Ett missförstånd som görs även av högt ansedda forskare och professorer (oftast inom medicin och samhällsvetenskap) är att tro att p är sannolikheten för H0 (givet data X). Denna missuppfattning är såpass utbredd att den till och med har ett eget namn; the inverse fallacy, the fallacy of the transposed conditional eller confusion of the inverse. Det handlar alltså om att man blandar ihop P(H0|X) med P(X|H0) (se fotnot 3 för en förklaring av notationen P(|) och begreppet betingad sannolikhet). Det är det sistnämnda som är p-värdet (eller snarare P(X>5|H0) eller liknande). Det förstnämnda är visserligen betydligt mer användbart, men kräver samtidigt en s.k. Bayesiansk ansats där vi i förväg måste ange subjektiva sannolikheter för H0 och H1.

Ett annat problem med p-värden är att de inte säger något om styrkan eller relevansen i en eventuell effekt, eftersom det i stor utsträckning beror på försökets storlek, i vårt exempel antalet testpersoner. Ett högt p-värde (ej statistisk signifikans) kan lika gärna bero på för lite testdata som på en låg eller obefintlig effekt. Och omvänt kan man få låga p-värden (statistisk signifikans) för närmast obefintliga effekter givet en stor datamängd. Det räcker därför inte att bara titta på p-värdet, men tyvärr är det alltför vanligt med ett ensidigt fokuserande på p-värden utan att bry sig om effektstorlekar, något som gett upphov till begreppet sizeless science (se fotnot 4). En intressant bok i ämnet är The cult of statistical significance som behandlas här tillsammans med annat matnyttigt vad gäller matematisk statistik.

Vad exBeeriments anbelangar så verkar faktiskt dessa ofta ha en svag effekt i det att fler än en tredjedel identifierar korrekt öl. Men på grund av de relativt få testpersonerna så blir denna effekt ändå ej statistisk signifikant. Med större testpaneler skulle troligen statistisk signifikans uppnås oftare. Dock blir ju inte effekterna större för det, och var för sig är dessa oftast högst blygsamma. Däremot är det högst troligt att man genom att aggregera experimenten skulle kunna få en tydligare effekt. Kanske ger liten jästmängd tillsammans med hög jästemperatur en stor skillnad som de flesta kan identifiera i ett trianguleringstest. Jämför exempelvis med opinionsundersökningar, där ett parti (säg Moderaterna) kan öka en procentenhet utan att det är statistiskt signifikant. Flera sådan små icke-signifikanta ökningar kan dock tillsammans utgöra en statistiskt signifikant ökning.

För att avrunda så ger alltså Brülosophys experiment inte något stöd till att mäsktemperatur, jästemperatur, jästmängd m.m. är oväsentligt. Däremot slår de sönder överdrivna påståenden om olika moments viktighet. Det är upp till var och en att avgöra vad som är viktigt och hur komplicerad man vill göra sin process. Och glöm inte att det faktiskt är en hobby.

Fotnot 1. Trianguleringstest innebär att att varje försöksperson blint får testa tre öl, varav ett är unikt medan de två andra är identiska. Detta är ett utmärkt sätt att testa om det går att känna skillnad på två öl.

Fotnot 2. Att man sätter p=0.05 som gräns för statistisk signifikans innebär således att man löper 5 % risk att felaktigt förkasta nollhypotesen i de fall den faktisk är sann. Bara detta gör att man bör vara försiktigt med att dra för stora växlar på statistisk signifikans.

Fotnot 3. Betingad sannolikhet låter sig kanske bäst förklaras med ett enkelt exempel. I klassisk sannolikhetslära-tradition tar vi exemplet från hasardspelens värld. Tänk dig att du kastar en symmetrisk tärning. Beteckna händelsen att en sexa kommer upp med A och händelsen att jämnt antal ögon kommer upp med B. Säg att vi av någon anledning fått veta att B har inträffat, men i övrigt inte har någon mer information. Då kan vi dra slutsatsen att antingen 2, 4 eller 6 ögon kommit upp med lika stor sannolikhet, som är 1/3. Således är sannolikheten för en 6:a 1/3, givet att antalet ögon är jämnt. Denna sannolikhet benämns generellt som den betingade sannolikheten för A givet B, och betecknas med P(A|B). I ovanstående enkla exempel är således P(A|B) = 1/3 och jag överlåter åt läsaren att övertyga sig om att P(B|A)=1.

Fotnot 4. Ett flagrant exempel på detta utgörs av en serie parapsykologiska försök där försökspersonerna via förment tankekraft skulle försöka påverka en binär slumptalsgenerator att producera så många ettor som möjligt. En sådan serie på miljontals försök gav ett genomsnitt på 50,05 % ettor. I all normal vetenskap hade detta betraktats som ett icke-resultat, men parapsykologi är inte normalt. Detta sågs som en framgång och ett bevis på tankekraft, eftersom avvikelsen mot 50 % faktiskt var statistiskt signifikant tack vare att antalet försök var så stort. Men statistisk signifikans är helt irrelevant när effekten är så liten och kan bero diverse skevheter i slumpgeneratorn eller andra metodfel som kan vara svåra att genomskåda. Men sådana resonemang biter inte på parapsykologer som desperat söker efter bara den minsta lilla avvikelsen från slumpen för att slå in en kil i den materialistiska/naturalistiska vetenskapen.

Inga kommentarer:

Skicka en kommentar