onsdag 2 augusti 2017

Om några argument mot blindade triangeltest


Verkar funka bra.

Brülosophys exbeeriments har rört upp en del damm de senaste åren. Skälet till detta är förstås att experimenten tycks indikera att många enskilda faktorer som ofta utpekas som avgörande har ganska liten märkbar effekt på egen hand. Tyvärr har många felaktigt dragit slutsatsen att experimenten ifråga skulle indikera att de olika faktorerna inte har någon betydelse alls, ett missförstånd jag försöker reda ut här. Denna felaktiga slutsats har fått en del att tro att ingenting betyder något inom bryggning, medan andra har försökt skjuta själva experimenten i sank på olika sätt.

Ett exempel på det sistnämnda kan ses i följande lodo-tråd. Det finns mycket välgrundad vetenskap som presenteras i tråden som motiverar varför det kan vara potentiellt intressant att föröka minimera syretillfärseln även under den heta fasen. Framförallt är det signaturen techbräu - en av lodo-översteprästerna - som bidrar med denna kunskap. Samtidigt finns det en till synes djup motvilja bland lodo-konvertiter mot systematiska tester av den faktiska effekten på slutresultatet, och framförallt syns det i inlägg #76 av just denne techbräu*.

Nedan kommer jag gå igenom de vanligaste argumenten mot blinda triangeltester, samt själv bidra med ett par stycken som borde vara vanligare. Märkligt nog är det så att de argument som skeptikerna brukar dra oftast är mer eller mindre irrelevanta, samtidigt som de faktiskt missar de relevanta invändningar som finns.

Innan jag drar igång vill jag hastigast påpeka att flera av argumenten inte specifikt handlar om trianguleringstest utan allmänt handlar om blindning, testpaneler etc.

Irrelevanta invändningar


Nedanstående invändningar kan ha en ansats till poäng, men missar den stora bilden och är mer eller mindre irrelevanta. Man kan notera att de närbesläktade argumenten 1 och 2 också är argument mot nästan all medicinsk och psykologisk empirisk/experimentell forskning. Och faktum är att dessa argument - framför allt 1 - är vanliga bland medicinska kvackare och pseudovetenskapliga kolportörer.

1. Gäller inte mig

En vanlig invändning är att förmågan att känna skillnad på olika effekter varierar mellan personer, och att ett triangeltest med en testpanel därför inte säger något om en själv. Förutom att vara otroligt självcentrerat så är argumentet givetvis felaktigt. Om 100 % av testpersonerna kände skillnad är det naturligtvis mycket större chans att man själv också känner skillnad än om 1/3 av panelen kände skillnad. Givetvis måste man testa på sig själv för att få exakt kännedom om just sig själv specifikt, men då måste detta göras under strikta former för att undvika självbedrägeri.

2. Främlingsargumentet

Detta argument - som har vissa likheter med 1 - förekommer i den länkade tråden och går ut på att man inte kan lita på en testpanel som består av rena främlingar. En variant på detta är shitty palate-argumentet, d.v.s. att inga eller svaga resultat uppnås på grund av att deltagarna har osedvanligt dåligt smaksinne. Givetvis är detta ett otroligt dåligt argument, och vill man diskreditera testpanelen måste man faktiskt ha något konkret att komma med mer än att de misslyckades med att bekräfta ens egen kärt omhuldade hypotes.

3. Vet ej vad som testas

Ett argument som jag har sett mot Brulosophys experiment är att testpanelen inte vet vad det är som testas. Intressant nog brukar Brulosophy-gänget själva tvärtom framhäva vikten av att deltagarna inte vet vad som testas, detta för att undvika bias. Det sistnämnda är dock en märklig invändning då det ju handlar om att mäta två aningen olika saker. Vilket som är det mest relevanta kan man diskutera förstås. Själv tycker jag det är bäst om man inte vet vad den eventuella skillnaden skulle vara, för det är ju så det funkar när man dricker öl i sitt naturliga tillstånd. Men inget av sätten kan anses vara felaktigt. Dessutom är jag personligen övertygad om att skillnaden i resultat inte är särskilt stor.

4. Parametern X mättes ej

Denna invändning handlar egentligen inte om triangeltestet alls, men är ändå värt att ta upp. I tiraden av forumsignaturen techbräu som jag hänvisar till ovan görs en stor grej av att någon (läs Brulosophy) har testat jäsning i glaskärl kontra plasthink för att testa effekten av skillnaden i syregenomsläpp hos materialen utan att mäta syrehalterna. Det hade naturligtvis varit intressant att känna till syrehalterna, och det hade varit något som hade förbättrat experimentet. Men även utan denna mätning är experimentet en vettig jämförelse mellan två olika hembryggningsmetoder.

Relevanta invändningar


Alla experimentupplägg har sina problem och begränsningar, och för triangeltestet tänkte jag ta upp de jag känner till. Lustigt nog så brukar de mest inbitna kritikerna missa dessa, och i den mån de tas upp så är det oftast av Brulosophy-gänget själva.

5. Feltolkning eller fokusering på p-värden

Detta reder jag ut i mer detalj i blogginlägget som jag länkar till i första stycket. Men för att sammanfatta så har p-värdet ett ganska begränsat intresse då det påverkas så starkt av försöksstorleken och har så svag koppling till effektstorleken. Dessutom misstolkas det ofta som sannolikheten för att nollhypotesen är sann. Det är värt att redovisa förstås då det ger en antydan om hur säker en viss uppmätt effekt är. Men att som Brülosophy lyfta fram det som det allra viktigaste är väldigt dubiöst. Det intressanta är i stället själva effektstorleken, i det här fallet hur stor andel som gissade rätt.

6. Små datamängder

Detta är något som Brulosophy-gänget själva verkar vara medvetna om, men tyvärr så lyfter de inte fram det tillräckligt. Att de oftast misslyckas med att uppnå statistisk signifikans hänger lika mycket på att de har alldeles för små testpaneler som att de eventuella effekterna verkar vara modesta. Tyvärr verkar många sätta likhetstecken mellan utebliven statistisk signifikans och avsaknad av faktisk effekt, vilket är helt felaktigt.

7. Oinformativt

Även om man lägger större fokus på själva effekten (andelen som valde rätt) så säger det inte så mycket heller. Säg att 40 % valde ut det rätta unika smakprovet. Hur ska vi tolka det? Ett sätt som är statistiskt kompatibelt med data är att 10 % kände skillnad och att resten gissade, då får vi i snitt 40 % korrekta svar. Men det kan ju vara så att det finns gråskalor så att vissa gissar rätt mer än var tredje gång men inte varje gång. För att utröna detta skulle man behöva köra upprepade försök med samma testpanel. Detta verkar dock rätt bökigt och man får kanske nöja sig med hur många som valde rätt. Oavsett vilket, och bortsett från statistiska osäkerheter, så är det ändå svårt att tolka resultaten i termer av hur stora smakskillnaderna är och hur viktig en enskild effekt som exempelvis 40 % är.

8. Urvalsproblematik

Något som sällan berörs är hur urvalet av testpersoner går till. Idealt ska testpanelen väljas slumpmässigt ur den grupp av människor som den är tänkt att representera. Det är kanske lite si och så med den saken för Brulosophys exbeeriment som mer verkar vara inbjudna lokala hembryggare, öldomare och ölentusiaster. Risken finns förstås att det är ungefär samma personer varje gång. I praktiken är detta nog inget större problem, men det förtjänar ändå viss uppmärksamhet. Jag misstänker att de som framför punkt 2 ovan möjligen är ute efter just detta, men då uttrycker de sig väldigt dunkelt, och det dunkelt sagda är ju som bekant det dunkelt tänkta.

* Detta inlägg innehåller förbluffande mycket strunt utöver det som faller in under punkterna 1-4 ovan. Exempelvis finns en helt orimlig och naiv övertro på så kallad peer review, d.v.s. att artiklar referatgranskas anonymt av andra forskare inom samma eller angränsande områden innan publicering i en vetenskaplig tidskrift. Det finns mycket bra med peer review; författarna får feedback och förbättringsförslag, och tidsskriften får ett underlag för att besluta om publicering eller ej. Det finns även nackdelar som att granskarna kan använda sin position för att motarbeta konkurrenter eller pressa in referenser till egna artiklar. Framför allt så är peer review bara ett första såll och näppeligen något skydd mot felaktigheter eller rent fusk som sign. techbräu tycks tro. Tvärtom så börjar den viktiga processen efter att ett arbete har publicerats, referatgranskat eller ej. De flesta (alla?) kända senare fall av forskningsfusk har uppdagats efter publicering.

Vidare är det befängt att påstå att det skulle vara ett problem inom hembryggarsfären att det begärs belägg från kontrollerade och blindade smaktester. Alla som följer hembryggarfora - svenska som amerikanska - kan konstatera att personliga anekdoter fortfarande är det som gäller för de flesta. Dock har denna ordning börjat ruckas på senaste tiden, och det beror säkerligen till viss eller stor del på Brulosophys experiment. Detta är något vi ska omfamna och jobba vidare på, inte motarbeta.

Slutligen får den gode techbräu en bock i kanten för att han inte kan skilja på palate och pallette.

Inga kommentarer:

Skicka en kommentar