La prossima rivoluzione nella comunicazione scientifica, 2
Le conseguenze dei processi evolutivi rapidamente delineati riguardano anche le digital libraries testuali, e non solo nel senso del rapporto con digital libraries di dati su cui abbiamo riferito nel precedente post.
Collocare la creazione e distribuzione di informazione e conoscenza in una dimensione di rete, per massimizzare i benefici delle connessioni e della cooperazione oltre che delle manipolazioni del testo cui accenniamo sotto, significa intanto disporre dell’accesso libero, o al più limitato ai soli costi di produzione, ai documenti scientifici e ai dati.
Inoltre i nuovi modi di fare scienza implicano un diverso peso del singolo autore, che sempre più si delinea come nodo di una rete di collaborazioni più che come monade isolata, così come cambia il ruolo dell’editore in un contesto in cui la pubblicazione testuale non richiede marcate abilità tecniche e il peer review può essere dichiarato autonomamente dagli studiosi, ad esempio tramite i cd. overlay journal, frontespizi di riviste virtuali che in realtà contengono link ad articoli contenuti in un repository e indicano ai visitatori come ai motori di ricerca, che si tratta di articoli valutati. D’altro lato le riviste scientifiche tendono sempre più a diventare siti web, in tal modo superando la caratteristica del documento come oggetto a se stante. Nel momento in cui l’esplicitazione della semantica, della strutturazione logica del testo, e l’analisi dei riferimenti bibliografici e delle fonti possono essere realizzati, il documento entra a far parte di una rete di connessioni e riferimenti più ampi.
Il problema delle digital library quindi non è tanto di adeguamento o precisazione dei metadati, tema su cui si è soprattutto insistito, bensì di capire come esse si possano configurare realmente (Gray). Fino ad oggi infatti anche la rivista digitale spesso altro non è che la riproduzione come immagine di un testo editoriale. Il digitale però non è un supporto ma una ambiente per rappresentare in modo più ricco ed esaustivo la conoscenza.
Il compito di manipolare il testo in modo da esplicitarne la semantica, può essere svolto dall’autore, dall’editore o in modo automatico dopo la pubblicazione del documento.
Nel primo caso si tratta di inserire dei marcatori per le entità bibliografiche identificative, autore, titolo, nome della rivista, data di edizione, URL, identificativo univoco, etc. (procedimento che qualsiasi utente compie senza soverchia difficoltà ad esempio costruendo la propria bibliografia con strumenti semiautomatici quali Zotero o Mendeley), per le parti significative del documento (ad es. abstract, esposizione dei risultati, discussione dei risultati, descrizione dell’esperimento, conclusioni, etc. - processo analogo alla formattazione editoriale del testo implementata in qualsiasi programma di scrittura senza valore semantico) oltre che per taggare le entità significative per la disciplina, facendo riferimento ad una ontologie condivisa.
Per delineare il ruolo che gli editori possono rivestire in un nuovo contesto, ci si può riferire alla rivista Molecular BioSystems della Royal Society of Chemistry, i cui articoli nel formato enhanced html mostrano strumenti per evidenziare i termini contenuti in banche dati di termini chimici e connetterli a risorse esterne; o la rivista Cell che implementa una applicazione dal nome Reflect, in grado di taggare e colorare le proteine, i geni e le piccole molecole menzionate nell’articolo e di generare al passaggio del mouse finestre pop up con informazioni contestuali rilevanti e link aggiuntivi sulle varie entità (v. qui e qui ).
La strutturazione semantica dei documenti può avvenire anche dopo la pubblicazione, con strumenti di analisi automatica del linguaggio naturale (NLP) cui abbiamo fatto cenno in questi post. I risultati sono relativamente accettabili in definiti contesti disciplinari, per quanto riguarda l’identificazione di entità e la trattazione delle citazioni. Una volta inseriti i marcatori che indicano entità e concetti, è possibile realizzare l’intefacciamento con banche dati che espongono la struttura dei propri record, in modo da connettere i dati pertinenti realizzando connessioni automatiche tra articoli e articoli, tra articoli e dati e tra dati utilizzati in articoli simili.
Un’altra modalità di incremento del valore della comunicazione scientifica di cui le digital libraries devono farsi portatrici, è l’implementazione di servizi tipicamente 2.0 quali in primo luogo le note e commenti, e i tag che svolgono un ruolo diverso dalle ontologie disciplinari in quanto si riferiscono ad ambiti personali o ad ambienti collaborativi delimitati. Ma rientrano in questa categoria liste bibliografiche, claud dei termini utilizzati nel testo, link a wiki di gruppi di ricerca o a immagini e video, la possibilità di ricevere in tempo reale via RSS le osservazioni ad un determinato documento, comprese citazioni in documenti successivi, o trackback di blog che discutono l’articolo.