La prossima rivoluzione nella comunicazione scientifica, 2
Le conseguenze dei processi evolutivi rapidamente delineati riguardano anche le digital libraries testuali, e non solo nel senso del rapporto con digital libraries di dati su cui abbiamo riferito nel precedente post.
Collocare la creazione e distribuzione di informazione e conoscenza in una dimensione di rete, per massimizzare i benefici delle connessioni e della cooperazione oltre che delle manipolazioni del testo cui accenniamo sotto, significa intanto disporre dell’accesso libero, o al più limitato ai soli costi di produzione, ai documenti scientifici e ai dati.
Inoltre i nuovi modi di fare scienza implicano un diverso peso del singolo autore, che sempre più si delinea come nodo di una rete di collaborazioni più che come monade isolata, così come cambia il ruolo dell’editore in un contesto in cui la pubblicazione testuale non richiede marcate abilità tecniche e il peer review può essere dichiarato autonomamente dagli studiosi, ad esempio tramite i cd. overlay journal, frontespizi di riviste virtuali che in realtà contengono link ad articoli contenuti in un repository e indicano ai visitatori come ai motori di ricerca, che si tratta di articoli valutati. D’altro lato le riviste scientifiche tendono sempre più a diventare siti web, in tal modo superando la caratteristica del documento come oggetto a se stante. Nel momento in cui l’esplicitazione della semantica, della strutturazione logica del testo, e l’analisi dei riferimenti bibliografici e delle fonti possono essere realizzati, il documento entra a far parte di una rete di connessioni e riferimenti più ampi.
Il problema delle digital library quindi non è tanto di adeguamento o precisazione dei metadati, tema su cui si è soprattutto insistito, bensì di capire come esse si possano configurare realmente (Gray). Fino ad oggi infatti anche la rivista digitale spesso altro non è che la riproduzione come immagine di un testo editoriale. Il digitale però non è un supporto ma una ambiente per rappresentare in modo più ricco ed esaustivo la conoscenza.
Il compito di manipolare il testo in modo da esplicitarne la semantica, può essere svolto dall’autore, dall’editore o in modo automatico dopo la pubblicazione del documento.
Nel primo caso si tratta di inserire dei marcatori per le entità bibliografiche identificative, autore, titolo, nome della rivista, data di edizione, URL, identificativo univoco, etc. (procedimento che qualsiasi utente compie senza soverchia difficoltà ad esempio costruendo la propria bibliografia con strumenti semiautomatici quali Zotero o Mendeley), per le parti significative del documento (ad es. abstract, esposizione dei risultati, discussione dei risultati, descrizione dell’esperimento, conclusioni, etc. - processo analogo alla formattazione editoriale del testo implementata in qualsiasi programma di scrittura senza valore semantico) oltre che per taggare le entità significative per la disciplina, facendo riferimento ad una ontologie condivisa.
Per delineare il ruolo che gli editori possono rivestire in un nuovo contesto, ci si può riferire alla rivista Molecular BioSystems della Royal Society of Chemistry, i cui articoli nel formato enhanced html mostrano strumenti per evidenziare i termini contenuti in banche dati di termini chimici e connetterli a risorse esterne; o la rivista Cell che implementa una applicazione dal nome Reflect, in grado di taggare e colorare le proteine, i geni e le piccole molecole menzionate nell’articolo e di generare al passaggio del mouse finestre pop up con informazioni contestuali rilevanti e link aggiuntivi sulle varie entità (v. qui e qui ).
La strutturazione semantica dei documenti può avvenire anche dopo la pubblicazione, con strumenti di analisi automatica del linguaggio naturale (NLP) cui abbiamo fatto cenno in questi post. I risultati sono relativamente accettabili in definiti contesti disciplinari, per quanto riguarda l’identificazione di entità e la trattazione delle citazioni. Una volta inseriti i marcatori che indicano entità e concetti, è possibile realizzare l’intefacciamento con banche dati che espongono la struttura dei propri record, in modo da connettere i dati pertinenti realizzando connessioni automatiche tra articoli e articoli, tra articoli e dati e tra dati utilizzati in articoli simili.
Un’altra modalità di incremento del valore della comunicazione scientifica di cui le digital libraries devono farsi portatrici, è l’implementazione di servizi tipicamente 2.0 quali in primo luogo le note e commenti, e i tag che svolgono un ruolo diverso dalle ontologie disciplinari in quanto si riferiscono ad ambiti personali o ad ambienti collaborativi delimitati. Ma rientrano in questa categoria liste bibliografiche, claud dei termini utilizzati nel testo, link a wiki di gruppi di ricerca o a immagini e video, la possibilità di ricevere in tempo reale via RSS le osservazioni ad un determinato documento, comprese citazioni in documenti successivi, o trackback di blog che discutono l’articolo.
La prossima rivoluzione nella comunicazione scientifica, 1
Come accennato nel precedente post l’identificazione di un 4° paradigma del procedimento scientifico ha conseguenze di rilievo sulla comunicazione scientifica che vanno a specificare la nozione stessa di documento. Il documento scientifico (in senso lato) appare infatti sempre più come la punta di un iceberg che nella parte nascosta ha una enorme quantità di dati che però, nei consueti contributi scientifici testuali, vengono presentati solo in modo sommarizzato invece che esaurientemente documentati. In tal modo il legame tra evidenza e scrittura diventa più complesso ed elusivo, mentre anche il recupero dei dati per sostanziare i risultati diventa sempre più problematico.
La sfida che si delinea è quella di costruire in modo sistematico l’accesso ai depositi di dati creati dagli esperimenti di simulazione o raccolti automaticamente e di realizzare una più stretta connessione tra documenti e dati e tra i dati di documenti analoghi.
La complicazione nasce però dal fatto che oltre ad essere sempre più numerosi i “dati” sono sottoposti a manipolazioni basate su software per simulazione ed altri scopi; queste manipolazioni diventano parte integrante della questione della riproduzione sperimentale che caratterizza il procedimento scientifico (la possibilità di “falsificare” i risultati), e quindi della natura stessa dei dati. Documentare “complesse configurazioni di software come parte della provenienza dei prodotti della scienza data-intensive, rimane questione nodale nella gestione dei dati e nella strutturazione del workflow” (Clifford Lynch). Per questo la provenienza (provenance) dei dati appare una qualità imprescindibile per un approccio critico.
In questa prospettiva spiccano le funzioni di raccolta, cura e analisi dei dati, tra cui Gray sottolinea quella che chiama l’oggettificazione della conoscenza e che sembra consistere nella organizzazione dei dati come ontologie di oggetti informativi. Gray fa l’esempio di grandezze generiche quali “unità”, “misura”, il “chi” e “quando” della misurazione, ma anche di strutturazioni più complesse che definiscano gli oggetti delle diverse discipline, i loro attributi e i loro metodi. I corsivi sottolineano concetti tipici della programmazione ad oggetti (OOP) che sempre più impronta il funzionamento di internet, piattaforma di elezione per la distribuzione anche della eScience, in cui “la gente manipola oggetti”.
La nuova rilevanza dei dati che caratterizza il 4° paradigma della scienza non riguarda peraltro solo le discipline delle scienze della vita o delle scienze della terra. Ad esempio anche in ambito sociologico o urbanistico la raccolta automatica di dati e l’analisi quantitativa tendono ad assumere un ruolo di primo piano.
Accanto alle digital libraries di testi sono quindi sempre più necessarie digital libraries di dati, cioè depositi di dati organizzati in oggetti informativi attraverso ontologie. Un esempio in questo senso è Entrez, creato dal National Center for Biotechnology Information della NLM, una interfaccia di ricerca che partendo dal repository di letteratura scientifica PubMed permette di estendere una ricerca incrociata ad esempio su banche di dati filogenetici, sequenze di nucleotidi, banche dati di proteine con le loro strutture in 3-D e GenBank, la banca di dati genetici.
Il “quarto paradigma” della eScience
In un precedente post (La strutturazione del linguaggio) avevo riportato le sconcertanti conclusioni di Peter Norvig sulla “irragionevole efficacia dei dati”. Analoghe considerazioni dovevano esser state espresse dallo stesso direttore della ricerca di Google alla conferenza sulle Emerging Technology del gruppo O’Reilly nel marzo 2008, in cui Norvig avrebbe contestato la procedura della scienza di costruire ipotesi e articolare modelli per analizzare il mondo reale: riprendendo l’affermazione dello statistico Gorge Box: “Tutti i modelli sono sbagliati, qualcuno è utile” , Norvig avrebbe infatti sostenuto: “tutti i modelli sono sbagliati e sempre più possiamo farne a meno”.
Prendendo spunto da questo intervento C. Anderson in un articolo del giugno 2008 (The End of Theory: The Data Deluge Makes the Scientifc Method Obsolete, Wired, June 2008) aveva sottolineato la crescente disponibilità in tutti i campi di enormi quantità di dati a cui potevano essere applicati strumenti statistici e matematici analoghi a quelli applicati da Google alla ricerca in Internet, e aveva predetto la fine del modello di scienza dominante: “la correlazione sostituisce la causalità e la scienza può progredire anche senza modelli coerenti, senza teorie unificate o addirittura senza alcun modello di spiegazione Non ha alcun senso aggrapparsi alle nostre vecchie pratiche. E’ il momento di domandarsi: cosa può imparare la scienza da Google ?”
La domanda se pur posta in modo così provocatorio non è affatto peregrina. Infatti la scienza, grazie alla applicazione delle tecnologie informatiche, ha sempre più a che fare con enormi quantità di dati, su scala di petabyte (1 petabyte = circa 1 milione di gigabyte), sia che vengano raccolti attraverso sensori, sia che siano prodotte da procedure di simulazione. La scala dei dati è tale che spesso non è possibile nemmeno rappresentarli e le stesse procedure informatiche hanno difficoltà a trattare numeri così grandi. Nella “Petabyte Age” sono quindi necessarie nuove tecniche di modellazione e nuove procedure matematiche per identificare le strutture nascoste dei dati che sono cruciali per la comprensione dei sistemi, e cambieranno “il ruolo della sperimentazione nella scienza e il ruolo della scienza nel suo insieme” (Mathematics and the Internet: A Source of Enormous Confusion and Great Potential, Walter Willinger, David Alderson, and John C. Doyle, in Notices of the AMS, May 2009, p. 597. ). Ma questi sviluppi non inficiano i principi costitutivi del procedimento scientifico e l’approccio di Google alla gestione delle connessioni può sicuramente fornire strumenti complementari alla scienza purché si ricordi che, per dirla con Paul Ginsparg: “La scienza mira a produrre ben di più che una semplice predizione meccanica di correlazioni; il suo fine è invece di utilizzare le ricorrenze estratte dai dati per costruire strumenti comprensivi per gestirli a priori” (Text in a Data-centric World, v. sotto).
Un tema così scottante è stato affrontato nel 2009 da un volume dal significativo titolo: The Fourth Paradigm: Data-Intensive scientific discovery, Edited by Tony Hey, Stewart Tansley, and Kristin Tolle, REDMOND, WASHINGTON, Microsoft research, 2009, edito, come si vede, da Microsoft e dedicato allo scomparso Jim Gray, secondo cui l’esplorazione e manipolazione di grandi quantità di dati, costituisce di fatto un nuovo paradigma, il 4°, dopo l’osservazione empirica, volta alla descrizione dei fenomeni naturali; la riflessione teorica, che mira a generalizzare i risultati dell’osservazione e costruire modelli; e negli ultimi decenni, l’approccio computazionale, che costruisce la simulazione dei fenomeni complessi.
La “catena del valore” della escience sotto l’ottica del 4° paradigma, si delinea quindi nei seguenti passaggi:
Capture – curate – analyse – publish
Dallo schema emerge che il 4° paradigma oltre a sollecitare tecniche e tecnologie specifiche, accentua la divisione tra la fase di raccolta e analisi dei dati e quella di elaborazione di teorie e modelli. Accade così, secondo le osservazioni di Gray, che per ogni disciplina si stiano delineando due branche diverse, ambedue con piena dignità scientifica, l’una “informatica” che riguarda la raccolta e analisi dei dati e l’altra “computazionale” incentrata sulla simulazione e costruzione di ipotesi e modelli stabili.
Ambedue pongono problematiche specifiche: come acquisire i dati, come organizzarli e riorganizzarli, come costruire schemi comuni che attribuiscano significati in una dimensione di condivisione e collaborazione, in una parola come rappresentarli con algoritmi. Quali software di archiviazione o Laboratory Information Management Systems (LIMS) utilizzare, al di là dei minimali, e praticamente unici programmi commerciali di Matlab ed Excell, per ingegnerizzare il passaggio dei dati prodotti dallo strumento (sensore etc.) o dalle simulazioni, nell’archivio. La manipolazione dei dati in progetti specifici richiede una componente crescente di software per analizzare i dati al punto che la spesa per questa componente può raggiungere il 25-50% dei costi totali di un progetto. Il lavoro da fare in questi campi è enorme.
L’altro aspetto da sottolineare riguarda l’ultimo passaggio della catena del valore sopra riportata, la pubblicazione dei risultati della ricerca scientifica che ha problematiche assolutamente nuove tali da prefigurare quella che Gray chiama The coming revolution in scholarly communication che sarà oggetto di un prossimo post.
Tra library 2.0 e 3.0
In un interessante intervento al convegno del 15 e 16 dicembre della Fondazione Rinascimento Digitale dal titolo Cultural Heritage on line. Empowering users: an active role for user communities, Laura Campbell della Library of Congress (LOC) ha illustrato le numerose iniziative intraprese nel web per valorizzare l’azione della LOC per gli utenti e in particolare il successo dell’esperimento di distribuire alcune collezioni della LOC sui più diffusi social network, a cominciare da Flickr, Youtube, iPod.
Per la verità questo “cedimento” al 2.0 è meno eccitante di quanto possa apparire dato che l’essenza della sperimentazione sta tutta in una parolina, distribution, da distinguere nettamente dalla semanticamente e programmaticamente assai più impegnativa espressione: sharing. Quello che la LOC ha realizzato è infatti un adeguamento delle modalità di distribuzione delle collezioni bibliotecarie, alla mondializzazione della comunicazione imposta da internet.
La riflessione sulla peculiarità della cultura emergente nel web e di cui sono intrisi i media del 2.0 e sulle modalità per integrarla nell’approccio all’informazione tramandato (basato sulla centralità del supporto fisico cartaceo e della sua storia e sulla diffidenza del messaggio dei nuovi media, quali i social network) è altra cosa: i media del 2.0 sono invece visti soprattutto come mezzi, non contenuto, posizione comprensibile per una biblioteca nazionale, che ha compiti istituzionali ben precisi, ma non sufficiente per il più vasto mondo delle biblioteche che vanta una ricca tradizione di biblioteche pubbliche e non può storcere la bocca davanti alla informazione “non istituzionale” che nasce dalla crowd (The wisdom of the crowd è il titolo di un noto libro di J. Surowiecki ) e fa leva sull’intelligenza collettiva. Da questo punto di vista i tentativi di integrare le conversazioni nell’ambiente della biblioteca e nel catalogo stesso operata dalla Oaks Public Library o delineata nel progetto SOPAC di cui abbiamo parlato qualche settimana fa, e che si sforzano di privilegiare l’attività di sharing, suscitano altrettanta simpatia.
Anche questa precisazione però non basta a porre in modo esauriente la questione del rapporto tra evoluzione del web e biblioteche. Prendiamo l’attività del social tagging: fino ad oggi si caratterizza per la soggettività della scelta, uso e perfino grafia della terminologia adottata in assenza di un vocabolario univoco, ma nelle comunità di rete, come più in generale quale strumento di ricerca, richiama una cultura di emergenze priva di istanze universalistiche, vague (vaga, cioè limitata a ciò che importa qui ed ora), e di rapido consumo nella comunicazione molti a molti. Ma ci sono modi di fare social tagging, più affidabili: mi riferisco al progetto Faviki, che trae la propria terminologia da Freebase , una banca dati i cui contenuti sono creati in parte dall’utente, nella logica del wiki, in parte si appoggia su Dbpedia, costituita da dati strutturati estratti da Wikipedia le cui voci hanno un indirizzo web e link ai concetti espressi in modo univoco nel contesto degli articoli della enciclopedia online. Ne deriva un vocabolario in cui le parole sono non meri simboli ma concetti, connessi in una rete di relazioni (una rete, non una struttura imposta, per motivi di gestione, come quella gerarchica che caratterizza le classificazioni). In più il w3c ha pubblicato la codifica per inserire dati in formato RDF nell’html, cioè RDFa venendo incontro alla esigenza di utilizzo di dati strutturati, interpretata p. e. da Yahoo! SearchMonkey o da Rich Snippets di Google e fino a oggi affidata ai microformat o alla versione semplificata di RDF proposta da Talis, eRDF.
Nasce da queste sinergie il progetto Common Tag, a cui partecipano due comunità di servizi web: quella del social tagging, con Faviki e Zigtag e quella della ricerca nel web, con Yahoo, Adaptive Blue , Sindice , con anche Zemanta una applicazione che in base al contesto dei post, suggerisce contenuti relati e tags strutturati ai bloggers.
A completamento di questa panoramica, e con riferimento alla crescente disponibilità di dati strutturati, va ricordato che le biblioteche (per citare due casi presentati al satellite meeting dell’IFLA a Firenze la Biblioteca nazionale Finlandese e quella Svedese) si sono distinte nel 2009 per la conversione dei loro record bibliografici in triple RDF in vista della loro adesione all’iniziativa dei linked data.
La strutturazione del linguaggio
I motivi della diffusione dei motori di ricerca semantici sono legati alla valutazione che l’algoritmo di google abbia raggiunto il culmine della sua efficacia (si veda per tutti in bell’intervento di Nova Spivak ) e che siano necessarie nuove tecnologie di tipo qualitativo per incrementare la ricerca nel web. La questione non è a mio parere posta in modo corretto dato che, come ha scritto Stefano Mazzocchi in un bruciante commento allo stimolante e provocatorio articolo The unreasonable effectiveness of data, apparso su IEEE Intelligent Systems, nell’aprile 2009 a firma dei ricercatori legati a Google, A. Halevy, P. Norvig e F. Pereira, Google fa riferimento più a alla struttura offerta dal tag <a> dell’html (anchor) e alla analisi dei link successivi per ricostituire il social graph, che non all’analisi statistica delle parole (che per altro include in parte nell’algoritmo del PageRank).
L’intervento tranchant di Mazzocchi – dal titolo Unreasonabe Hypocrisy – ha forse avuto l’effetto di bloccare momentaneamente lo sviluppo di un dibattito serio sulla capacità di trarre da tale struttura minimale dell’html, strumenti di “irragionevole efficacia”. In questo senso hanno perfettamente ragione A. Halevy, P. Norvig e F. Pereira a delineare una alternativa non tra una semantica basata sulla strutturazione e una basata sulla statistica, bensì tra dati strutturati manualmente e dati definiti tramite l’identificazione di strutture emergenti, anche se incomplete, dalla analisi statistica.
Il dibattito è comunque tutto da sviluppare. Per tornare al tema mi sembra che per sopperire alle presunte carenze di google si siano intrapresi due percorsi principali, da un lato quello scelto da Yahoo! con SearchMonkey, seguito dai Rich snippet di Google, di incrementare e valorizzare i dati strutturati manualmente presenti nelle pagine web, dall’altro l’utilizzo di tecniche di “natural language processing”(NLP) cioè di analisi linguistica sia della query che dei risultati della ricerca.
In particolare i motori di ricerca semantici si propongono di fornire una categorizzazione dei risultati nell’ottica di un approccio esplorativo ai possibili significati che potrebbero corrispondere all’intenzione dell’utente, oppure ambiscono a rispondere proprio alle queries della long tail, quindi richieste personalizzate, specifiche, articolate, in una parola non frequenti, e quindi dipendenti più dalla qualità che dalla popolarità delle risposte. Le tecniche di NLP sono infatti alla base dei progetti di motori “verticali” cioè che operano in campi disciplinari definiti e i cui contenuti possono essere formalizzati in modo coerente.
Queste tecnologie sono cresciute negli ultimi decenni in laboratori di ricerca e progetti specifici, costruendo esperienze e set di dati considerevoli anche se non ancora in grado di misurarsi con la dimensione del web. Inoltre la loro efficacia si evidenzia soprattutto nella trattazione di testi omogenei e parzialmente strutturati, come la banca dati di Medline, che costituisce un corpus altamente omogeneo e strutturato, o recentemente soprattutto Wikipedia perché:
- non sottoposto a copyright,
- abbastanza generalista da fornire facilmente un’ampia gamma di risposte alle possibili queries e in più costruito secondo i criteri formali di una enciclopedia,
- e ultimo ma non meno importante, fornito di una struttura semantica propria, dalle parole chiave in fondo agli articoli, ai link che spiegano e disambiguano i concetti citati collegando alle pagine corrispondenti della stessa Wikipedia, ai box di sommario presenti in molti articoli.
Si costruiscono per questa via le ontologie con cui confrontare i risultati della analisi semantica della query in modo da trovare una corrispondenza non tra simboli (le parole) ma tra concetti. I passi avanti dal punto di vista logico sono tangibili, meno però la loro efficacia pratica quando si considera il rapporto costi benefici. Come ricordato nell’articolo sopra citato di A. Halevy, P. Norvig e F. Pereira:
Project Halo did an excellent job of encoding and reasoning with knowledge from a chemistry textbook, but the cost was US$10,000 per page. Obviously we can’t afford that cost for a trillion Web pages
Per affrontare l’analisi semanica del web l’approccio necessario sembra doversi legare ad altri fattori.
In Hakia, come viene spiegato in un post di autopresentazione del progetto, l’attenzione è stata spostata dall’analisi sintattica e semantica, all’analisi delle sequenze di parole. Oggetto di valutazione non sono singole parole, naturalmente dotate di molteplici significati e usi, bensì brevi sequenze di parole (dette n-gram) che insieme costituiscono un contesto e disambiguano il significato di ognuna di esse circoscrivendo il concetto espresso, come esemplifica il seguente schema tratto dal post stesso e relativo alla sequenza semantica road kill:
Questo approccio al linguaggio non per parole isolate, ma per parole correlate, si esercita non solo a livello di analisi dei dati, ma anche a livello di costruzione dell’ontologia di riferimento: è quella che in Hakia viene chiamata Commercial Ontology che rinvia al fatto che:
The ontology is built based on the commercial value of the concepts. The concept of digital camera may be more important than the concept of German Opera in the commercial world, thus the former gets more refinement and detail in its ontological definition and lexicon space
In base al post non si riesce a determinare quanto la costruzione dell’ontologia proposto da Hakia, sicuramente una ontologia che si riferisce ad una corpus reale, non astratto, sia basata su un apporto manuale di specialisti oppure su un processo automatico statistico.
L’aspetto più interessante è però che su questa via i pacchetti che vanno a costruire l”ontolgia (e che non sappiamo come siano scelti in Hakia … magari sono tratti dalle queries ?) si possono definire non attraverso il ragionamento (reasoning) in base a regole su parole strutturate manualmente nel loro contesto semantico (parole correlate e sinonimi), bensì da modelli emergenti dalla mera analisi statistica.
Si motiva così l’affermazione di A. Halevy, P. Norvig e F. Pereira che la meccanizzazione del linguaggio è tanto più semplice quanto più si opera in corpore vili, cioè su un corpus di dati che esiste “in natura” (usano l’espressione in the wild) invece che su uno creato astrattamente e sottoposto a complessi, discutibili ma sempre variabili assunti (come avviene nella interpretazione del linguaggio) e suggeriscono l’esempio del relativo successo della meccanizzazione delle traduzioni, avvenuto in base ad un corpus considerevole di traduzioni in più lingue creato dalla CE e dalle agenzie internazionali di news, in cui a gruppi di parole ricorrenti si possono associare corrispondenti gruppi di parole in altre lingue, trasformando la traduzione da un problema di raffinato reasoning ad uno di matching di sequenze di parole.
E’ forse anche questa una delle vie per una strutturazione del linguaggio del web capace di identificare una struttura minimale dei dati e restituire automaticamente quanto di più simile alla semantica del linguaggio naturale ?
Motori di ricerca semantici 2
Ho accennato nel precedente post al fatto che stanno nascendo numerosi motori di ricerca che si dicono semantici basati sulla linguistica computazionale che pretendono di migliorare sostanzialmente la ricerca di contenuti, rispetto alla ricerca per parole chiave che utilizza criteri statistici o di popolarità.
Oltre ad Hakia ho preso in esame anche Lexxe, apparentemente un efficace motore di ricerca che si propone di rispondere a domande formulate in linguaggio naturale e non solo con parole chiave. La caratteristica più marcata di Lexxe è quella di presentare accanto ai risultati di una ricerca, categorizzazioni o raggruppamenti ad hoc che servono a specificare o filtrare i risultati per ottenere maggior precisione. Tali raggruppamenti non sono precostituiti al momento della presentazione dei risultati, bensì si costruiscono on the fly se vengono cliccati. Il risultato di tale ricerca è una nuova lista di risultati ma anche il suggerimento di nuovi raggruppamenti da esplorare (dinamic clustering) .
Si tratta di un modo efficace per esplorare un argomento da diversi punti di vista, attraverso la classificazione ontologica, che si basa non sul matching delle parole della query con quelle dell’indice del motore di ricerca, valutate poi in modo statistico quantitativo, bensì sulla identificazione dei concetti rappresentati dalle parole della query e il loro confronto con una ontologia o mappa di concetti, cioè di parole dotate di relazioni tra di se, costruita in modo semiautomatico.
Di questa categoria fa parte anche Powerset un motore di ricerca semantico recentemente acquistato da Microsoft per integrare i risultati del proprio motore di ricerca, Bing. La sua tecnologia risiede soprattutto sull’analisi sintattica tramite un software di parsing su licenza di Xerox Parc. Come spiega Lorenzo Thione co-fondatore di Powerset, il software scompone il testo in frasi e fa
l’analisi logica e grammaticale della frase, scomponendola in soggetto, predicati verbali e complementi, e cercando di analizzare il ruolo di ciascun complemento nell’ambito del testo, come per esempio, individuare se un complemento e’ finale, causale o di moto a luogo. Una volta che il software ha fatto questa analisi, delle componenti semantiche (dette features, o caratteristiche) vengono estratte e inserite nell’algoritmo di selezione e ordinamento dei risultati, in armonia con le altre componenti meno linguistiche, come il PageRank o la prossimita’ delle parole chiave.
Thione sostiene che lo spider di Powerset è in grado di indicizzare il web (naturalmente solo pagine in inglese) ma “per adesso l’indice di Powerset e’ ristretto a Wikipedia“ (ibidem) e al database di Freebase (basato sull’analisi di Wikipedia e su contenuto sociale).
Ad esempio la ricerca di “Al Gore” conduce ad una risposta univoca tratta da Freebase ma presenta anche le possibili triple:
Al Gore:
won district, country, vote, internet, primari, states, seat, nomination …
carried disctrict, stated and Nashville
received percent, vote, primetime Emmy Avard, a number, electors …..
Inoltre gli articoli di Wikipedia relativi alla ricerca e rimaneggiati da Powerset, presentano sulla destra un utile quadro riassuntivo del contenuto dell’articolo che rimane stabile allo scorrere dello schermo, che si suddivide in Overview (dati sintetici); outline (l’indice dell’articolo); images (le immagine pubblicate nell’articolo); locations (le mappe dei luoghi connessi al contenuto dell’articolo); Twitter (recent tweets di Al Gore). Powerset è quantomeno un ottimo motore di ricerca sui dati tratti fattuali da Wikipedia e di Freebase.
Cognition si basa come Hakia sulla classificazione ontologica ma, affermano i suoi ideatori, con una mappa semantica (cioè parole e concetti classificati) più comprensiva e quindi più funzionale. Inoltre sostiene di utilizzare anche l’analisi morfologia e di gestire i sinonimi. Non risulta tuttavia che a oggi il motore di ricerca abbia suscitato particolare interesse (maggiori informazioni qui)
Semantic search engines
In fase di declino dell’efficacia dell’algoritmo di Google, tra le tendenze di ricerca proposte per ovviare alla scarsa rilevanza dei risultati, figurano i motori di ricerca semantici capaci cioè di distinguere e riconoscere i significati. L’idea non è nuova dato che sottende la ricerca sul semantic web condotta del w3c, che consiste, in estrema sintesi, nell’introdurre strutture semantiche fin dalla costruzione delle pagine web. Questo approccio, come è noto, è considerato complessivamente irrealistico perché richiede l’accettazione estesa di standard condivisi e la padronanza delle complesse regole della semantica. Una via alternativa è invece quella di spostare l’analisi semantica negli algoritmi dei motori di ricerca rendendo interpretabile ogni testo: “We need algorithms that match the meaning of concepts (rather than mere words) and emulate “understanding.”” (Riza C. Berkan, Founder & CEO, hakia.com) () Questo è il percorso intrapreso dai cosiddetti motori di ricerca semantici quali Hakia, Powerset, Cognition search, Lexxe che si avvale di un nuovo approccio delle tecniche di Natural Language Processing.
Hakia si presenta come alternativa ai motori di ricerca tradizionali e mira a sostituire al criterio quantitativo quello qualitativo: “a popular Web site may not always be credible, and a credible Web site may not always be popular”. Inoltre i motori di ricerca basati sulla popolarità richiedono una costruzione della query con poche, semplici parole. Ciò significa che le query più lunghe e complesse che rispecchiano spesso bisogni informativi specifici o che richiedono risposte in tempo reale rispetto agli eventi cercati, non vengono soddisfatte.
Tramite la analisi della query (meglio se formulata con frasi che non solo con parole chiave) l’algoritmo di Hakia sarebbe invece in grado di trovare corrispondenze col contenuto delle pagine web e non solo sulle frasi chiave che esse condividono o le statistiche di popolarità. Questi risultati sono ottenuti implementando l’ontologia semantica (OntoSem) che traduce in modo automatico ogni frase che le viene sottoposta, in Text meaning representation (TMR). A questo scopo utilizza complesse procedure di analisi linguistica del testo pieno che mirano a identificarne i componenti grammaticali e sintattici e i concetti contenuti e a collocarli in un contesto semantico di sinonimi e concetti correlati, costruito attraverso l’analisi di migliaia di pagine di testo pieno. In tal modo si emula il processo mentale di un umano che legge un testo. Queste metodologie sono poi utilizzate insieme a tecniche non semantiche per essere implementate nel motore di ricerca (Hempelmann, , Christian F. Hakia inc.).
Attraverso l’algoritmo QDEX (Quality Detection and Extraction) i ricercatori di Hakia sarebbero riusciti a implementare procedure veloci ed efficienti per indicizzare le risorse di rete. Sembra anche di capire che il primo passo è stato creare la struttura semantica dei TMRs analizzando siti di provata qualità come benchmarck per la verifica dei concetti. Il risultato sono una organizzazione dei risultati per categorie, cioè per contesti semantici.
I risultati delle ricerche sono presentati non come liste standard bensì per schede (tabs) dal nome: All results - Credible sites – News – Images – Meet Others a suggerire i diversi approcci, uno generalista, uno limitato a siti scelti da bibliotecari o specialisti dell’informazione (ma sembra che non vi sia alcuna vera barriera contro lo spam e tentativi di influenzare i risultati), uno dedicato alle news e l’ultimo è una sorta di forum, suddiviso in diverse stanze di conversazione, in cui gli utenti possono articolare conversazioni stabilire contatti, esprimere valutazioni e scambiarsi informazioni.
L’analisi semantica permette l’implementazione di una serie di nuove funzionalità, quali:
evidenziazione di frasi coerenti: i risultati della ricerca riportano selezionata nella descrizione del sito la frase semanticamente corrispondente alla query.
la categorizzazione: per richieste formulate in modo semplice e popolare (p. e. cancer oppure Madonna), hakia presenta i risultati organizzati in categorie, costruendo aggregazioni chiamate Galleries composte da circa 10 categorie, corrispondenti, secondo gli ideatori ad altrettante queries più specifiche nei motori di ricerca convenzionali.
Parallelismo: è una innovativa funzionalità che rinvia all’uso di termini equivalenti o associati nella ricerca (ad esempio “kill=murder”).
Generalizzazione: in molte domande è necessario applicare forme di generalizzazione: ad esempio una ricerca con il termine car può dover essere riconosciuto come termine generale per le singole marche che devono quindi essere contenute nei risultati della ricerca
Nella Home page di Hakia viene proposto un confronto con google. La lista dei risultati della stessa query suggerita (naval academy) in Hakia (mi limito alla scheda All results per Hakia) è organizzata in categorie (p. e.; college profile, Headline news, Admissions, Athletics, Applying for Financial Aid, Faculty Directory ….etc) mentre in google i risultati sono correlati ai “rich snippets” che raggruppano i dati per formato (videos, news, blogs, forums), cronologicamente (risultati recenti, un’ora fa …), per pagine visitate o no, secondo visualizzazioni particolari (Standard, Related Searches, Wonder Wheel, timeline), e infine: risultati standard oppure con immagini tratte dalla pagina, con più o meno siti di shopping, con la preview. Il confronto dovrebbe evidenziare il valore semantico della struttura categoriale proposta da Hakia per organizzare i risultati, rispetto alla suddivisione più occasionale dei “rich snippet” (Per uno studio sulle performance di Hakia in confronto con Yahoo, Google e Msn che tuttavia non presenterebbero grandi diversità, si veda qui),
![Reblog this post [with Zemanta]](http://img.zemanta.com/reblog_e.png?x-id=43180ee1-a86d-4eb8-93ca-5e633f524786)
![Reblog this post [with Zemanta]](http://img.zemanta.com/reblog_e.png?x-id=2b048b94-9f90-48f4-b017-6bd8c4854040)
![Reblog this post [with Zemanta]](http://img.zemanta.com/reblog_e.png?x-id=20e62643-9a50-4e5c-821b-06005ed8bbd0)
