4lib Blog

Osservatorio sull'informazione in rete e le digital libraries

L’evoluzione del web nel 2009: spunti di ricerca

lascia un commento »


Nel 2009 si sono delineati i tratti di una nuova fase dello sviluppo del web nella sua terza decade caratterizzati da cambiamenti che prefigurano un quadro assai variegato. Le principali novità mi sembrano le seguenti.

La affermazione del web sociale in termini non solo di crescente quantità di contenuti creati dagli utenti, ma anche di tempestività nella comunicazione “molti a molti di più” (the stream) e di personalizzazione dei servizi in rete, che si concretizzano soprattutto nei social network, nel microblogging e nella crescente interoperabilità tra social networks (rallentata dal carattere proprietario delle piattaforme),  completando il passaggio dal  “web dei documenti” al “web delle persone”. La ricerca dell’informazione si sposta pertanto verso la comunicazione interpersonale e prende la forma di suggerimenti, commenti, valutazioni, preferenze etc. In ambito bibliotecario, a fronte anche della saturazione del mercato per l’adeguamento degli ILS negli anni passati che spinge i principali operatori commerciali a disinvestire in questo campo, l’iniziativa passa a progetti open source a cui si debbono anche gli OPAC innovativi (SOPAC; OPL) che accolgono le funzionalità del web 2.0, con commenti personali, liste di lettura e altre funzionalità sociali.

Una ulteriore evoluzione del web 2.0, in particolare dell’interattività, del mashup e della moltiplicazione degli API, è il cloud computing, cioè la trasformazione della rete in piattaforma per la distribuzione di servizi che sta  rivoluzionando l’attività di networking. Recentemente alcune applicazioni in rete hanno portato nella cloud la catalogazione (Biblios.net su cui si veda qui e SkyRiver) Anche il maggior consorzio bibliotecario mondiale OCLC mira a fornire un servizio a livello di rete non tramite la condivisione dello stesso hardware, dei servizi e dei dati e nemmeno ospitando hardware e software per conto di singole biblioteche, bensì ingegnerizzando nuove architetture di sistema e nuove procedure di lavoro per attivare modi di interazione e collaborazione globali. L’obiettivo, dopo la catalogazione partecipata e la condivisione del prestito interbibliotecario, è quello di fornire funzionalità gestionali modulari e in più fornire una integrazione a livello di rete di servizi attualmente esclusi anche dai tradizionali ILS quali l’integrazione della knowledge base, l’analisi delle collezioni delle biblioteche in worldcat, etc. (cfr. qui)

Il modello di ricerca di google basato sulla statistica delle parole cercate e sulla analisi del grafo della rete per inferire criteri di popolarità dei siti internet da far valere nell’ordinamento di importanza dei risultati, è sempre più soggetto a critiche sia perché la ricerca tramite parole chiave offre minori prestazioni sia per le crescenti attese di tempestività e personalizzazione. Queste spinte hanno motivato il motore di ricerca a proporre nelle prima posizioni risultati tratti dal settore delle news e a distribuire Searchwiki, un interfaccia che permette di modificare l’ordinamento dei risultati delle proprie ricerche, promuovendone alcuni siti e cancellandone altri e inserendo commenti e giudizi espressi in voti. In tal modo Google recupera l’esperienza di quei motori di ricerca, quali Digg o Stumbleupon in cui l’ordinamento dei risultati dovrebbe avvenire in base al giudizio degli utenti. La dimensione sociale viene sottolineata attraverso l’implementazione di un servizio di annotazioni e commenti chiamato Sidewiki – che si rifà a servizi quale ReframeIt, sponsorizzato da Mozilla – e le cui note sono disponibili sia sul proprio profilo, sia tramite la pubblicazione su blog purché costruito con l’API di Google, Blogger. Diretta è anche la pubblicazione su Facebook e Twitter.

Il numero di pagine presenti in rete sembra inoltre aver raggiunto una soglia che sollecita l’esplorazione di altre vie per rendere efficace la ricerca e quindi la stessa tenuta della rete come formazione socio tecnica. La parola d’ordine è diventata ricerca “semantica” contrapposta alla ricerca basata su dati quantitativi. Peter Mika di Talis ha evidenziato la presenza di dati strutturati in circa la metà delle pagine web.  SearchMonkey di Yahoo! e i Rich snippets di Google (o anche il prototipo Googlesquared che presenta i singoli risultati in forma tabulare) rappresentano un tentativo di favorire la diffusione e sfruttare le potenzialità, di forme di strutturazione dei dati contenuti nelle pagine web.

Altri approcci seguono la via della analisi semantica del linguaggio naturale delle queries e delle pagine web nel tentativo di realizzare un matching per “concetti” e non per parole intese come meri simboli. Le tecniche adottate mirano da un lato alla categorizzazione automatica delle pagine web in modo da offrire i risultati raggruppati in faccette o gruppi, per suddividere l’ambito semantico dei risultati; ovvero in analisi complesse e assai onerose  che applicano le regole grammaticali e sintattiche della analisi linguistica.

In questo ambito, a fronte di grandi numeri di dati come quelli offerti dal web, alcuni ricercatori, in particolare legati a Google, ripropongono l’efficacia della analisi quantitativa applicata sulla valorizzazione di strutture minimali, nel caso in questione sequenze di parole (n-gram), identificate con metodi statistici, che definiscono contesti linguistici, disambiguano i concetti collegati e quindi assumono valore semantico; si realizza così l’emergenza di modelli, pur parziali e incompleti e in continua variazione – quindi anche scalabili nella dinamica di sviluppo del web – che possono essere associati a concetti e significati per l’analisi semantica.

Un esperimento di grande importanza per estrarre dati strutturati da testi esistenti, verte sulla manipolazione di Wikipedia che si presta ad una estrazione di dati strutturati di alto valore semantico: infatti i titoli sono in effetti lemmi di  enciclopedia; concetti, eventi e fatti citati, sono linkati al lemma corrispondente, che esprime un concetto univoco; ogni voce contiene inoltre una bibliografia (o serie di link a siti esterni) e una lista di parole chiave (tag) per identificarne il contenuto e spesso gli articoli sono corredati di un quadro riassuntivo che contiene dati strutturati. Nasce così il database DBpedia costituito da dati strutturati espressi in RDF che dialoga con altre banche dati del medesimo formato.

Un meccanismo importante per rendere disponibile dati strutturati sono i numerosi progetti di conversione di banche dati preesistenti in formato RDF il linguaggio formalizzato dal W3C per connettere i dati (linked data). Molte banche dati sono già disponibili in questo formato leggibile dalle macchine e sono liberamente utilizzabili dalle applicazioni. Altri progetti di conversione dei dati in triple RDF vedono protagoniste banche dati preesistenti, tra cui i cataloghi di biblioteche che vengono riversati in questo formato per valorizzare i dati bibliografici nelle ricerche di rete e renderli liberamente utilizzabili.

Infine, si delinea sempre più il cd web of things, o anche web wide world (Nova Spivak), cioè la diffusione di sensori nel mondo fisico che permettono una interazione remota con e tra macchine. 

(revisionato 2/12)

Reblog this post [with Zemanta]

Scritto da Nicola

30 novembre 2009 a 17:39

Lascia un Commento

Fill in your details below or click an icon to log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Log Out / Modifica )

Foto Twitter

You are commenting using your Twitter account. Log Out / Modifica )

Foto di Facebook

You are commenting using your Facebook account. Log Out / Modifica )

Connecting to %s

Iscriviti

Get every new post delivered to your Inbox.