måndag, augusti 31, 2009

Forskning och dataintegritet - nu och sen

Säg att du blev överkörd av bussen imorgon bitti. Hur mycket av ditt arbete skulle gå att bevara för eftervärlden, gå att återskapa eller rent utav fortsätta arbeta på? Hur mycket ligger skyddat av (root)lösenord som ingen annan kan, kanske till och med krypterat? Eller på en gammal omärkt hårddisk/CD/diskett nånstans i en byrålåda?

När det gäller arbete som sträcker sig över månader och år, som genererar väldigt mycket data och där varenda datapunkts integritet måste bevaras (jag tänker såklart på forskning) borde svaret självklart vara: allt är väldokumenterat. Data säkerhetskopieras till mer än ett ställe och förvaras ihop med anteckningar om hur det genererades (mätmetod, utgångsvärden, randvärden). Viktiga tankeled finns dokumenterade. Alla figurer till samtliga artiklar förvaras ihop med anteckningar om hur de gjordes och vilka rådata de är baserade på. För de filer som inte är någorlunda enkelt editerbara finns även källfilen/generatorfilen i samma version att arbeta vidare på, konvertera eller modifiera vid behov. All egenproducerad kod är kommenterad på ett begripligt sätt.

Tio år tillbaka i tiden, minst. Helst från första början. Och, vid arbetsplatsbyte, överlämnat i sådant skick till samtliga gamla arbetsplatser.

Jag har mött hela spektrat av attityder till problemet - jag har jobbat ihop med en person som var stenhård på att alla våra forskningsrelaterade diskussioner dokumenterades i text, med versionsnummer, och jag har pratat med andra doktorander som har ryckt på axlarna åt säkerhetskopiering. Jag har (fast inte i forskningssammanhang) efterlyst f d kollegors råfiler och insett att nån överlämning av sådana data, det har aldrig skett. Jag kör visserligen inte med 128-bitars krypto, som Cory Doctorow gör, men jag har garanterat kollegor som gör det.

Men även vid exemplariskt samvetsgrann datahantering uppstår problem. Standarder för lagringsmedia ändras (magnetband, någon? Diskettstation?). Proprietära filformat föråldras eller dör ut, och programvaran som hanterar dem slutar säljas - om det ens går att få tag på hårdvara som kan köra operativsystemen som hanterar mjukvaran som hanterar filformaten (visst kan man spara data som RTF-text och XML, JPEG och TIFF som i det här förslaget från SLU, men det löser inte allt. Modeller/kod i kommersiella program behöver kontexten av programversion etc för att man ska veta vad olika funktionsanrop gör - och sådan information är inte alltid möjlig att komma åt).

Dessutom genererar forskningen i stort mer och mer data, allteftersom mätmetoderna blir bättre och datorerna kraftfullare, samtidigt som vi flyttar till lagringsmedier som har västenligt kortare livstid. Naturligtvis är det ingen lösning att printa ut allt viktigt på arkivpapper, men hur många ställen är det som över huvud taget har en långsiktig strategi för att bevara gamla data tillgängliga och läsbara? (Och vem är intresserad av att betala för arkiven och deras underhåll?)

En färsk artikel i Wall Street Journal tar en intressant vinkel på problemet och klagar över att all ny e-interaktion forskare emellan försvinner ut i tomma intet, datalagringsmässigt sett, samtidigt som (antas det) deras samarbete lämnar färre pappersspår. Må så vara - även om det inte lämnas några som helst bevis för antagandet att mer e-interaktion ger mindre spårbar "vanlig" interaktion i form av mail etc - men jag har svårt att se dessa "kringdata":s hotade ställning som det stora problemet* så länge det fortfarande kommer ut pappersbaserad forskning i andra änden. När interaktionen däremot är en integral del av själva datamängden - till exempel i akademiska bloggar, med konversationer mellan forskare - borde det vara självklart att det finns en bevaringsplikt. Men läs till exempel Richard Gatarskis hårresande berättelse om hur väl hans online-data (INTE) har förvaltats av hans tidigare universitet.

Ett annat intressant problem som reses i samma artikel är trovärdigheten hos gamla, digitalt lagrade data: kommer insikten att digitala data är lättare att förfalska leda till att våra framtida efterföljare inte litar på våra mödosamt sparade ettor och nollor?

Det tål att tänka på.

REDIGERAT 31/8 kl 23.05 för att tillägga att liknande frågor, om än mer inriktat på den sociala nätnärvaron, har uppenbarligen flutit runt i det allmänna medvetandet på sistone. Se t ex Richard Gatarski 21/8 samt 17/8 (även tillagt i paragrafen ovan) och Mymlan (28/8).

Länkar
Artikel i Wall Street Journal 28/8 2009: "A Data Deluge Swamps Science Historians"
Cory Doctorow om rootlösenord och kryptering, i Guardian från 30/6 2009: "When I'm dead, how will my loved ones break my password?"

*Och jag kan tänka mig ett antal kniviga integritetsproblem inblandade i ett godtyckligt försök att fånga och bevara sådan e-interaktion åt eftervärlden.

tisdag, augusti 25, 2009

ODE till vetenskapen

Idag har jag varit (och lyssnat) på seminarium om omvärldsdialog och engagemang (ODE) arrangerat av en rad kända aktörer: KVA, IVA, KSLA, RJ, V-A och VR (Kungliga Vetenskapsakademien, Kungliga Ingenjörsakademien, Kungliga Skogs- och Lantbruksakademien, Riksbankens Jubileumsfond, Vetenskap & Allmänhet och Vetenskapsrådet).

Seminariet var till för särskilt inbjudna seniora forskare, många av dem professorer framsållade för att de nominerats till goda vetenskapliga ledare*, andra med motsvarande höga poster (t ex VD:n för Svenska Läkaresällskapet, en av VR:s huvudsekreterare för Vetenskapsrådet). I ett sånt sammanhang är jag ju inte riktigt meriterad att delta, så det var min smala lycka att de ville ha en rapportör -
en lyssnande men inte deltagande antecknare - per diskussionsbord á knappt tio personer.

Hela dagen var dock inte vikt åt rundabordssamtal, utan en stor del av programmet bestod av talare: en inledning av representanter från KVA, IVA, KSLA och VR, en presentation om vad undersökningar har visat om forskares syn på samverkan (presenterad av Karin Hermansson, utvecklingschef på V-A och flitig bloggare på V-A:s blogg) och två block av presentationer från inspiratörer: Eva Österberg (professor i historia, Lunds Universitet), Johan Åkerman (professor i tillämpad spinntronik på Göteborgs Universitet - och sporadisk bloggare på F&F:s blogg) och Agneta Richter-Dahlfors (professor i cellulär mikrobiologi, Karolinska Institutet) i det första blocket, Ulf Danielsson (professor i teoretisk fysik vid Uppsala Universitet och författare till två populärvetenskapliga böcker), Olle Granath (ständig sekreterare vid Kungliga Akademien för de fria konsterna) och Göran Sandberg (rektor vid Umeå Universitet,
professor i skoglig växtfysiologi, och verkställande ledamot i Knut & Alice Wallenbergs stiftelse). De tre första hade i uppdrag att besvara frågan "Varför ODE?" och de tre senare fick tala om "Möjligheter och begränsningar för ODE". Samma frågeområden var också temat för förmiddagens respektive eftermiddagens bordsdiskussionspass.

Moderatorer för hela dagen var Camilla Modeer (V-A:s generalsekreterare) och Carl-Johan Sundberg (professor på KI, grundare av ESOF, prisbelönt kommunikatör). Och projektledare för semianriet och kringaktiviteterna är V-A:s Anders Sahlman.

Vad sades, då, undrar ni? Med närmare 100 engagerade, erfarna forskare och kommunikatörer var det väldigt lite som inte sades. Vid "mitt" bord diskuterades bland annat om alla ska kommunicera, alltid och överallt, eller om det finns gränser (och vilka), att allmänheten är en givande och välutbildad kommunikationspartner, skillnader i hur "tredje uppgiften" uppfattas jämfört med "samverkansuppgiften", andra kommunikationsmöjligheter än att gå via media - till exempel via internet... andra bord talade om helt andra saker. Något bord var ense om att det var hopplöst att kommunicera via media, ett annat bord sa "sluta släng skit på journalister, de gör ett bra jobb". Några talade om att forskare måste våga ge sig i kast med de existensiella och emotionella aspekterna av att kommunicera forskning. Problem som samverkan kan leda till togs upp, till exempel: Samverkan kan leda till intresse-/trovärdighetskonflikter när en forskare sitter på flera olika stolar samtidigt (universitet, landsting, eget företag). Vilken agenda gäller när?
I vilket intresse uttalar sig forskaren just den här gången?

Om ungefär en vecka kommer video från seminariet och en skriftlig rapport upp på webben, sedan (om ca en månad) kommer intervjuer med inspiratörerna och en manual för att göra liknande möten, och slutligen (om ca två månader) kommer en skrift om ODE. Allt i händerna på vetenskapsjournalisten Kristoffer Gunnartz (samme Kristoffer Gunnartz som intervjuade mig för Vetandets Värld i Fokus i höstas), som också skriver en bok i ämnet.

REDIGERAT 31/8 kl 23.00 för att tillägga: Cissi Askwall, som också var närvarande (och ansvarig för att samla in rapporterna om vad som sades vid de olika borden), har bloggat om seminariet på V-A:s blogg.

Länkar
V-A om ODE-seminariet (se även här)
VR om ODE-seminariet
Ljudtrailer med intervjuer med inspiratörerna

*och alltså inte utvalda i första hand för att de tycker kommunikation är ett särskilt behjärtansvärt område. Kan tilläggas att seminariet hade väntelista - det var fler som ville vara med av de inbjudna än det fanns platser!