Il “quarto paradigma” della eScience
In un precedente post (La strutturazione del linguaggio) avevo riportato le sconcertanti conclusioni di Peter Norvig sulla “irragionevole efficacia dei dati”. Analoghe considerazioni dovevano esser state espresse dallo stesso direttore della ricerca di Google alla conferenza sulle Emerging Technology del gruppo O’Reilly nel marzo 2008, in cui Norvig avrebbe contestato la procedura della scienza di costruire ipotesi e articolare modelli per analizzare il mondo reale: riprendendo l’affermazione dello statistico Gorge Box: “Tutti i modelli sono sbagliati, qualcuno è utile” , Norvig avrebbe infatti sostenuto: “tutti i modelli sono sbagliati e sempre più possiamo farne a meno”.
Prendendo spunto da questo intervento C. Anderson in un articolo del giugno 2008 (The End of Theory: The Data Deluge Makes the Scientifc Method Obsolete, Wired, June 2008) aveva sottolineato la crescente disponibilità in tutti i campi di enormi quantità di dati a cui potevano essere applicati strumenti statistici e matematici analoghi a quelli applicati da Google alla ricerca in Internet, e aveva predetto la fine del modello di scienza dominante: “la correlazione sostituisce la causalità e la scienza può progredire anche senza modelli coerenti, senza teorie unificate o addirittura senza alcun modello di spiegazione Non ha alcun senso aggrapparsi alle nostre vecchie pratiche. E’ il momento di domandarsi: cosa può imparare la scienza da Google ?”
La domanda se pur posta in modo così provocatorio non è affatto peregrina. Infatti la scienza, grazie alla applicazione delle tecnologie informatiche, ha sempre più a che fare con enormi quantità di dati, su scala di petabyte (1 petabyte = circa 1 milione di gigabyte), sia che vengano raccolti attraverso sensori, sia che siano prodotte da procedure di simulazione. La scala dei dati è tale che spesso non è possibile nemmeno rappresentarli e le stesse procedure informatiche hanno difficoltà a trattare numeri così grandi. Nella “Petabyte Age” sono quindi necessarie nuove tecniche di modellazione e nuove procedure matematiche per identificare le strutture nascoste dei dati che sono cruciali per la comprensione dei sistemi, e cambieranno “il ruolo della sperimentazione nella scienza e il ruolo della scienza nel suo insieme” (Mathematics and the Internet: A Source of Enormous Confusion and Great Potential, Walter Willinger, David Alderson, and John C. Doyle, in Notices of the AMS, May 2009, p. 597. ). Ma questi sviluppi non inficiano i principi costitutivi del procedimento scientifico e l’approccio di Google alla gestione delle connessioni può sicuramente fornire strumenti complementari alla scienza purché si ricordi che, per dirla con Paul Ginsparg: “La scienza mira a produrre ben di più che una semplice predizione meccanica di correlazioni; il suo fine è invece di utilizzare le ricorrenze estratte dai dati per costruire strumenti comprensivi per gestirli a priori” (Text in a Data-centric World, v. sotto).
Un tema così scottante è stato affrontato nel 2009 da un volume dal significativo titolo: The Fourth Paradigm: Data-Intensive scientific discovery, Edited by Tony Hey, Stewart Tansley, and Kristin Tolle, REDMOND, WASHINGTON, Microsoft research, 2009, edito, come si vede, da Microsoft e dedicato allo scomparso Jim Gray, secondo cui l’esplorazione e manipolazione di grandi quantità di dati, costituisce di fatto un nuovo paradigma, il 4°, dopo l’osservazione empirica, volta alla descrizione dei fenomeni naturali; la riflessione teorica, che mira a generalizzare i risultati dell’osservazione e costruire modelli; e negli ultimi decenni, l’approccio computazionale, che costruisce la simulazione dei fenomeni complessi.
La “catena del valore” della escience sotto l’ottica del 4° paradigma, si delinea quindi nei seguenti passaggi:
Capture – curate – analyse – publish
Dallo schema emerge che il 4° paradigma oltre a sollecitare tecniche e tecnologie specifiche, accentua la divisione tra la fase di raccolta e analisi dei dati e quella di elaborazione di teorie e modelli. Accade così, secondo le osservazioni di Gray, che per ogni disciplina si stiano delineando due branche diverse, ambedue con piena dignità scientifica, l’una “informatica” che riguarda la raccolta e analisi dei dati e l’altra “computazionale” incentrata sulla simulazione e costruzione di ipotesi e modelli stabili.
Ambedue pongono problematiche specifiche: come acquisire i dati, come organizzarli e riorganizzarli, come costruire schemi comuni che attribuiscano significati in una dimensione di condivisione e collaborazione, in una parola come rappresentarli con algoritmi. Quali software di archiviazione o Laboratory Information Management Systems (LIMS) utilizzare, al di là dei minimali, e praticamente unici programmi commerciali di Matlab ed Excell, per ingegnerizzare il passaggio dei dati prodotti dallo strumento (sensore etc.) o dalle simulazioni, nell’archivio. La manipolazione dei dati in progetti specifici richiede una componente crescente di software per analizzare i dati al punto che la spesa per questa componente può raggiungere il 25-50% dei costi totali di un progetto. Il lavoro da fare in questi campi è enorme.
L’altro aspetto da sottolineare riguarda l’ultimo passaggio della catena del valore sopra riportata, la pubblicazione dei risultati della ricerca scientifica che ha problematiche assolutamente nuove tali da prefigurare quella che Gray chiama The coming revolution in scholarly communication che sarà oggetto di un prossimo post.
![Reblog this post [with Zemanta]](http://img.zemanta.com/reblog_e.png?x-id=43180ee1-a86d-4eb8-93ca-5e633f524786)