måndag, augusti 31, 2009

Forskning och dataintegritet - nu och sen

Säg att du blev överkörd av bussen imorgon bitti. Hur mycket av ditt arbete skulle gå att bevara för eftervärlden, gå att återskapa eller rent utav fortsätta arbeta på? Hur mycket ligger skyddat av (root)lösenord som ingen annan kan, kanske till och med krypterat? Eller på en gammal omärkt hårddisk/CD/diskett nånstans i en byrålåda?

När det gäller arbete som sträcker sig över månader och år, som genererar väldigt mycket data och där varenda datapunkts integritet måste bevaras (jag tänker såklart på forskning) borde svaret självklart vara: allt är väldokumenterat. Data säkerhetskopieras till mer än ett ställe och förvaras ihop med anteckningar om hur det genererades (mätmetod, utgångsvärden, randvärden). Viktiga tankeled finns dokumenterade. Alla figurer till samtliga artiklar förvaras ihop med anteckningar om hur de gjordes och vilka rådata de är baserade på. För de filer som inte är någorlunda enkelt editerbara finns även källfilen/generatorfilen i samma version att arbeta vidare på, konvertera eller modifiera vid behov. All egenproducerad kod är kommenterad på ett begripligt sätt.

Tio år tillbaka i tiden, minst. Helst från första början. Och, vid arbetsplatsbyte, överlämnat i sådant skick till samtliga gamla arbetsplatser.

Jag har mött hela spektrat av attityder till problemet - jag har jobbat ihop med en person som var stenhård på att alla våra forskningsrelaterade diskussioner dokumenterades i text, med versionsnummer, och jag har pratat med andra doktorander som har ryckt på axlarna åt säkerhetskopiering. Jag har (fast inte i forskningssammanhang) efterlyst f d kollegors råfiler och insett att nån överlämning av sådana data, det har aldrig skett. Jag kör visserligen inte med 128-bitars krypto, som Cory Doctorow gör, men jag har garanterat kollegor som gör det.

Men även vid exemplariskt samvetsgrann datahantering uppstår problem. Standarder för lagringsmedia ändras (magnetband, någon? Diskettstation?). Proprietära filformat föråldras eller dör ut, och programvaran som hanterar dem slutar säljas - om det ens går att få tag på hårdvara som kan köra operativsystemen som hanterar mjukvaran som hanterar filformaten (visst kan man spara data som RTF-text och XML, JPEG och TIFF som i det här förslaget från SLU, men det löser inte allt. Modeller/kod i kommersiella program behöver kontexten av programversion etc för att man ska veta vad olika funktionsanrop gör - och sådan information är inte alltid möjlig att komma åt).

Dessutom genererar forskningen i stort mer och mer data, allteftersom mätmetoderna blir bättre och datorerna kraftfullare, samtidigt som vi flyttar till lagringsmedier som har västenligt kortare livstid. Naturligtvis är det ingen lösning att printa ut allt viktigt på arkivpapper, men hur många ställen är det som över huvud taget har en långsiktig strategi för att bevara gamla data tillgängliga och läsbara? (Och vem är intresserad av att betala för arkiven och deras underhåll?)

En färsk artikel i Wall Street Journal tar en intressant vinkel på problemet och klagar över att all ny e-interaktion forskare emellan försvinner ut i tomma intet, datalagringsmässigt sett, samtidigt som (antas det) deras samarbete lämnar färre pappersspår. Må så vara - även om det inte lämnas några som helst bevis för antagandet att mer e-interaktion ger mindre spårbar "vanlig" interaktion i form av mail etc - men jag har svårt att se dessa "kringdata":s hotade ställning som det stora problemet* så länge det fortfarande kommer ut pappersbaserad forskning i andra änden. När interaktionen däremot är en integral del av själva datamängden - till exempel i akademiska bloggar, med konversationer mellan forskare - borde det vara självklart att det finns en bevaringsplikt. Men läs till exempel Richard Gatarskis hårresande berättelse om hur väl hans online-data (INTE) har förvaltats av hans tidigare universitet.

Ett annat intressant problem som reses i samma artikel är trovärdigheten hos gamla, digitalt lagrade data: kommer insikten att digitala data är lättare att förfalska leda till att våra framtida efterföljare inte litar på våra mödosamt sparade ettor och nollor?

Det tål att tänka på.

REDIGERAT 31/8 kl 23.05 för att tillägga att liknande frågor, om än mer inriktat på den sociala nätnärvaron, har uppenbarligen flutit runt i det allmänna medvetandet på sistone. Se t ex Richard Gatarski 21/8 samt 17/8 (även tillagt i paragrafen ovan) och Mymlan (28/8).

Länkar
Artikel i Wall Street Journal 28/8 2009: "A Data Deluge Swamps Science Historians"
Cory Doctorow om rootlösenord och kryptering, i Guardian från 30/6 2009: "When I'm dead, how will my loved ones break my password?"

*Och jag kan tänka mig ett antal kniviga integritetsproblem inblandade i ett godtyckligt försök att fånga och bevara sådan e-interaktion åt eftervärlden.

5 kommentarer:

Lars Arvestad sa...

Det är ett intressant problem som den nya generationens vetenskap för med sig. När Leif Andersson, UU, besökte oss på SBC förra vintern berättade han att deras nya sekvenseringsmaskiner producerar så mycket data att de inte kan behålla rådata-filerna. Resultaten från mycket dyra experiment dumpas alltså, och bara deras förfinade tolkningar sparas eftersom de inte kräver lika mycket uttrymme.

Lars Arvestad sa...

Förresten, texten om att "lita inte på att din organisation tar hand om dina data" påminner mig om fallet Wen Ho Lee. Wen Ho arbetade med explosionsstudier på Los Alamos National Lab, men blev på falska grunder misstänkt för att vara spion. Han friades på i princip alla punkter, förutom att han hade brutit mot LANL:s sekretessregler genom att föra ut känslig kod till sin privata dator. Wen Ho säger att anledningen var att han inte litade på LANL:s IT-enhet. Vid en tidigare systemuppgradering hade han förlorat ett stort viktigt program som han hade skrivit själv, och han ville inte att det skulle hända igen.

Leif Nixon sa...

Jag blir irriterad över det länkade SLU-dokumentet som förkastar PDF som lagringsformat ("Bevarande i PDF-formatet är diskutabelt och inte att rekommendera.").

Det finns många versioner av PDF, men den som är relevant i det här sammanhanget är PDF/A-1, som är en öppen leverantörsoberoende ISO-standard anpassad för arkivering, som rekommenderas av Riksarkivet.

Att i stället förorda XML (utan att ange något specifikt XML-baserat format) är väsentligen meningslöst.

Malin Sandström sa...

Lars: liknande problem uppstår när man kör gigantiska hjärnsimuleringar (ofta slumpar man kopplingar eller input eller något annat). Flera tusen celler gånger tiotusen till flera hundratusen tidssteg per sekund blir mycket data, särskilt när man behöver göra många, många varianter på samma simulering. Man får spara vissa typer av data (tolkningar eller utvalda delmängder) och slänga resten.

Men å andra sidan är simuleringar lättare att replikera exakt, och de är inte lika dyra.

Leif: ja, avfärdandet av PDF till förmån för XML kanske är en smula godtyckligt. jag gillar PDF:er, det är helt klart det format jag haft minst problem med över diverse plattformar. Men gemene man har väl knappast koll på vad som skiljer olika PDF-format åt, så jag kan tänka mig att det blir problem med att säkerställa att arkiverings-PDF:erna verkligen blir rätt formatterade. Och allt går ju inte att spara som PDF...

Josef Boberg sa...

Det är som det är att vara nätmedborgare, verkligen... / Josef