I en nyutgiven bok från Institutet för mediestudier finns ett kapitel av Niklas Bolin, Jonas Hinnfors och Jesper Strömbäck, om hur invandring skildrats på svenska ledarsidor. Om denna kan mycket sägas, och Tove Lifvendahl lyfter en del relevanta frågor kring hur olika texter klassificerats. Jag fastnar dock för följande formuleringar:
På begäran fick jag av Niklas Bolin en lista på de 225 SvD-artiklar som analyserats. [...] Jag har frågat forskarna hur många artiklar totalt som föll inom beskrivningen, hur många som valdes bort i undersökningen, och hur man valde just de 225, men ej fått svar.
Man har alltså kodat 1000 artiklar som positiva, neutrala eller negativa, utan att göra data tillgängliga så att den nyfikne kan se hur olika slags artiklar kodats. Det är synd eftersom en norm om att göra data tillgängliga ökar chansen att konstigheter upptäcks och diskuteras, dels för att någon annan kan upptäcka det i efterhand, dels för att vetskapen om att data ska publiceras sannolikt gör att forskare skärper sig under processens gång. Jag frågade Jesper, och det tycks vara på gång:
@drbergh @NiklasBolin @JonasHinnfors Ursäkta sent svar. Det kommer att göras tillgängligt inom de närmaste veckorna.
— Jesper Stromback (@JesperStromback) June 7, 2016
Ett exempel på hur bra det kan bli när man lägger ut data är min egen analys av arbetsmarknadsgapen mellan invandrare och natives i OECD - se kommentarstråden här, i vilken många deltog och gjorde bidrag och även körde regressioner på de data jag samlat ihop.
Se även "Vad händer när forskare inte vill lämna ut data?" från 2005 (!).