4lib Blog

Osservatorio sull'informazione in rete e le digital libraries

Archive for the ‘information theory’ Category

La strutturazione del linguaggio

con 2 commenti

I motivi della diffusione dei motori di ricerca semantici sono legati alla valutazione che l’algoritmo di google abbia raggiunto il culmine della sua efficacia (si veda per tutti in bell’intervento di Nova Spivak ) e che siano necessarie nuove tecnologie di tipo qualitativo per incrementare la ricerca nel web. La questione non è a mio parere posta in modo corretto dato che, come ha scritto Stefano Mazzocchi  in un bruciante commento allo stimolante e provocatorio articolo The unreasonable effectiveness of data, apparso su IEEE Intelligent Systems, nell’aprile 2009 a firma dei ricercatori legati a Google, A. Halevy, P. Norvig e F. Pereira,  Google fa riferimento più a alla struttura offerta dal tag <a> dell’html (anchor) e alla analisi dei link successivi per ricostituire il social graph, che non all’analisi statistica delle parole (che per altro include in parte nell’algoritmo del PageRank).

L’intervento tranchant di Mazzocchi – dal titolo Unreasonabe Hypocrisy – ha forse avuto l’effetto di bloccare momentaneamente lo sviluppo di un dibattito serio sulla capacità di trarre da tale struttura minimale dell’html, strumenti di “irragionevole efficacia”. In questo senso hanno perfettamente ragione A. Halevy, P. Norvig e F. Pereira a delineare una  alternativa non tra una semantica basata sulla strutturazione e una basata sulla statistica, bensì tra dati strutturati  manualmente e dati definiti tramite l’identificazione di strutture emergenti, anche se incomplete, dalla analisi statistica.

Il dibattito è comunque tutto da sviluppare. Per tornare al tema mi sembra che per sopperire alle presunte carenze di google si siano intrapresi due percorsi principali, da un lato quello scelto da Yahoo! con SearchMonkey, seguito dai Rich snippet di Google, di incrementare e valorizzare i dati strutturati manualmente presenti nelle pagine web, dall’altro l’utilizzo di tecniche di “natural language processing”(NLP) cioè di analisi linguistica sia della query che dei risultati della ricerca.

In particolare i motori di ricerca semantici si propongono di fornire una categorizzazione dei risultati nell’ottica di un approccio esplorativo ai possibili significati che potrebbero corrispondere all’intenzione dell’utente, oppure ambiscono a rispondere proprio alle queries della long tail, quindi richieste personalizzate, specifiche, articolate, in una parola non frequenti, e quindi dipendenti più dalla qualità che dalla popolarità delle risposte. Le tecniche di NLP sono infatti alla base dei progetti di motori “verticali” cioè che operano in campi disciplinari definiti e i cui contenuti possono essere formalizzati in modo coerente.

Queste tecnologie sono cresciute negli ultimi decenni in laboratori di ricerca e progetti specifici, costruendo esperienze e set di dati considerevoli anche se non ancora in grado di misurarsi con la dimensione del web. Inoltre la loro efficacia si evidenzia soprattutto nella trattazione di testi omogenei e parzialmente strutturati, come la banca dati di Medline, che costituisce un corpus altamente omogeneo e strutturato, o recentemente soprattutto Wikipedia perché:

  • non sottoposto a copyright,
  • abbastanza generalista da fornire facilmente un’ampia gamma di risposte alle possibili queries e in più costruito secondo i criteri formali di una enciclopedia,
  • e ultimo ma non meno importante, fornito di una struttura semantica propria, dalle parole chiave in fondo agli articoli, ai link che spiegano e disambiguano i concetti citati collegando alle pagine corrispondenti della stessa Wikipedia, ai box di sommario presenti in molti articoli.

Si costruiscono per questa via le ontologie con cui confrontare i risultati della analisi semantica della query in modo da trovare una corrispondenza non tra simboli (le parole) ma tra concetti.  I passi avanti dal punto di vista logico sono tangibili, meno però la loro efficacia pratica quando si considera il rapporto costi benefici. Come ricordato nell’articolo sopra citato di A. Halevy, P. Norvig e F. Pereira:

Project Halo did an excellent job of encoding and reasoning with knowledge from a chemistry textbook, but the cost was US$10,000 per page. Obviously we can’t afford that cost for a trillion Web pages

Per affrontare l’analisi semanica del web l’approccio necessario sembra doversi legare ad altri fattori.

In Hakia, come viene spiegato in un post di autopresentazione del progetto, l’attenzione è stata spostata dall’analisi sintattica e semantica, all’analisi delle sequenze di parole. Oggetto di valutazione non sono singole parole, naturalmente dotate di molteplici significati e usi, bensì brevi sequenze di parole (dette n-gram) che insieme costituiscono un contesto e disambiguano il significato di ognuna di esse circoscrivendo il concetto espresso, come esemplifica il seguente schema tratto dal post stesso e relativo alla sequenza semantica road kill:

Schema di analisi linguistica

Questo approccio al linguaggio non per parole isolate, ma per parole correlate, si esercita non solo a livello di analisi dei dati, ma anche a livello di costruzione dell’ontologia di riferimento: è quella che in Hakia viene chiamata Commercial Ontology che rinvia al fatto che:

The ontology is built based on the commercial value of the concepts. The concept of digital camera may be more important than the concept of German Opera in the commercial world, thus the former gets more refinement and detail in its ontological definition and lexicon space

In base al post non si riesce a determinare quanto la costruzione dell’ontologia proposto da Hakia, sicuramente una ontologia che si riferisce ad una corpus reale, non astratto, sia basata su un apporto manuale di specialisti oppure su un processo automatico statistico.

L’aspetto più interessante è però che su questa via i pacchetti che vanno a costruire l”ontolgia (e che non sappiamo come siano scelti in Hakia … magari sono tratti dalle queries ?) si possono definire non attraverso il ragionamento (reasoning) in base a regole su parole strutturate manualmente nel loro contesto semantico (parole correlate e sinonimi), bensì da modelli emergenti dalla mera analisi statistica.

Si motiva così l’affermazione di A. Halevy, P. Norvig e F. Pereira che la meccanizzazione del linguaggio è tanto più semplice  quanto più si opera in corpore vili, cioè su un corpus di dati che esiste “in natura” (usano l’espressione in the wild) invece che su uno creato astrattamente e sottoposto a complessi, discutibili ma sempre variabili assunti (come avviene nella interpretazione del linguaggio) e suggeriscono l’esempio del relativo successo della meccanizzazione delle traduzioni, avvenuto in base ad un corpus considerevole di traduzioni in più lingue creato dalla CE e dalle agenzie internazionali di news, in cui a gruppi di parole ricorrenti si possono associare corrispondenti gruppi di parole in altre lingue, trasformando la traduzione da un problema di raffinato reasoning ad uno di matching di sequenze di parole.

E’ forse anche questa una delle vie per una strutturazione del linguaggio del web capace di identificare  una struttura minimale dei dati e restituire automaticamente quanto di più simile alla semantica del linguaggio naturale ?

Scritto da Nicola

22 novembre 2009 alle 20:42

SOPAC

lascia un commento »

Diversamente da Bibliocommons, SOPAC è una infrastruttura che permette l’integrazione di un Integrated Library System (ILS) con il Content Management System (CMS) Drupal per aggiungere tags, giudizi e recensioni ai records bibliografici. L’informazione fornita dagli utenti è incorporata nell’indice della ricerca, trasformando il catalogo tradizionale in un catalogo 2.0.

Il CMS Drupal è interfacciato con l’ILS attraverso il software php, Locum, che tramite “connectors” è potenzialmente in grado di interagire con qualsiasi ILS. Inoltre si interfaccia con il motore di indicizzazione del full text, Sphinx, che costruisce un efficace indice esterno.

L’ultimo modulo dell’infrastruttura è Insurge che serve per associare i dati sociali costruiti in modo interattivo, con i records bibliografici (è lo S di SOPAC). Esso permette di sfruttare le potenzialità del deposito di dati sociali importati via Locum e visualizzati con applicazioni come SOPAC.

SOPAC può essere visto in azione nelle seguenti biblioteche:

Esiste anche una demo in cui il modulo Drupal sostituisce l’opac dell’ILS , in questo caso Koha (open source).

Esaminando la Darien Library dopo essersi autenticati (la procedura è immediata anche se non si possiede la library card) colpisce subito sotto il frame col canale per la ricerca, la possibilità di esplorare il posseduto della biblioteca esaminando le categorie di narrativa, libri, DVD, Blu-ray Disc (BD), CDs e Audiobook, rispettivamente nuovi, più popolari o più votati. In più i favoriti dallo staff della biblioteca. Immediatamente sotto seguono le discussioni tra utenti su libri, film e musica posseduti dalla biblioteca.

L’attività che può essere svolta si trova sulla sinistra dello schermo e oltre a presentare i dati e le opzioni per la circolazione dei documenti relativa all’account, permette di vedere i propri giudizi, recensioni, tags e ricerche. E’ sempre presente una opzione “Talk to a librarian”. Una volta identificato un libro è possibile votarlo sulla scala da 1 a 5 stelle, scrivere una recensione o attribuire un tag.

Per quanto riguarda la ricerca compaiono curiosamente due canali: il primo posto sul frame che sembra rimanere stabile mentre si naviga nel sito, che indirizza le ricerche sui cataloghi di libri, musica, films, generale, sul sito della dariel library oppure, udite, direttamente su google.

Nella frame sottostante invece il canale di ricerca può indirizzarsi sulle parole chiave, titolo, autore, collana, tags, recensioni subject e collocazione (call numeber) cercate nei cataloghi generale, libri, musica, films, audiobook, periodici, software, elettronica. Esiste anche una ricerca avanzata che introduce la ricerca in collezioni, collocazioni e formati. Numerose le opzioni di ordinamento dei risultati, tra cui per rilevanza (?), più recenti o più popolari.

Scritto da Nicola

1 novembre 2009 alle 19:18

Servizi di promozione dei siti web: Digg e Stumbleupon

lascia un commento »

I servizi di valutazione dei siti web in base alle propensioni degli utenti hanno assunto un ruolo per la ricerca nel web perchè permettono di selezionare siti interessanti e, dal punto di vista commerciale, di promuovere siti web consigliandoli agli utenti.

Selezionare siti di qualità è alla base di servizi come Stumbleupon o Digg in cui l’utente può segnalare un sito premendo in genere un pulsante contenuto in toolbar installate nel browser o evidenziate in fondo ai post dei blogs tra le icone dei servizi di social bookmarking come Delicious, Facebook, Twitter, etc. Questi siti vengono poi riproposti agli utenti sulla base al numero di segnalazioni ricevute o in base ai profili degli utenti stabiliti tramite preferenze espresse in modo esplicito, tramite la scelta di aree di interesse, o implicito, tramite l’analisi del comportamento. La ricerca nell’archivio dei siti selezionate offre la possibilità di votare (I like this in Stumbleupon, o digg this ovvero bury in Digg) i siti proposti.

In digg la visualizzazione di un risultato prevede oltre ad un testo descrittivo, l’indicazione di pagine simili in base alle keyword assegnate e la lista dei possibili commenti. Le pagine che ottengono il maggior numero di “voti” sono definite di qualità e vengono proposte sulla home page del sito e visualizzate per categorie e sottocategorie o in tabs (schede che raggruppano i risultati secondo le condizioni date) che sono: Popular, Upcoming, News, Videos, Images. Digg permette anche di esprimere commenti sui siti visitati condividendoli con la rete di “amici” creata tra gli utenti di Digg o in Twitter e Facebook.

Digg è stato criticato per pretese violazioni del copyright delle pagine commentate, dovute alla visualizzazione del documento con i frame– vecchia e irrisolta polemica – dei commenti,  e per il reindirizzamento dei link dal sito originale a quello abbreviato nell’archivio di digg su cui possono essere svolte una serie di azioni senza mai visitare il sito originale (si veda qui ) Un commento al sito di Digg assai votato su Sidewiki (http://www.google.com/sidewiki/entry/theevancarroll/id/k350g2exZ1JLvWPifNxTCp9BZQU), contiene poi l’eco del dibattito sviluppatosi nella blogsphere, sull’obiettività del meccanismo di promozione dei siti in Digg, col sospetto di manipolazioni dei risultati.

Anche in Stambleupon la promozione dei siti avviene col meccanismo del voto favorevole o negativo e oltre che sul sito tramite l’invio di news per posta elettronica. Stumbleupon ha anche costruito un servizio di link shortening chiamato Su.Pr,  cioè di abbreviazione degli indirizzi html per favorirne la memorizzazione e distribuzione (analogo al più noto TinyURL http://tinyurl.com/) che invia automaticamente il link all’archivio di Stumbleupon per evidenziarlo ai suoi (presunti) 8 milioni di utenti, o anche in twitter e facebook.

Questa logica di promozione o selezione dei siti da parte degli utenti è stata ripresa dal gadget di igoogle What’s Popular nell’intento di integrare il page ranking automatico (per un confronto tra Digg e What’s popular , vedi qui).

Scritto da Nicola

30 ottobre 2009 alle 14:08

Sidewiki

lascia un commento »

Sidewiki è una applicazione per commentare pagine web recentemente distribuito da Google con la sua barra delle applicazioni, disponibile ad oggi per explorer e per firefox. Essa si aggiunge ai numerosi strumenti (tools) che il motore di ricerca mette a disposizione dei propri utenti, da gmail caledar, documents, feedreader, blogger, picasa, etc. e che tendono a costituire un ambiente integrato di  servizi non comunicante con altre applicazioni concorrenti con i servizi di Google, quali ad es. wodpress per i blog o flickr per le foto.

L’applicazione in se è molto funzionale. Attivando Sidewiki dal pulsante sulla barra delle applicazioni di google si apre sulla sinistra dello schermo un’area (analoga a quella di ReframeIt ma dalla parte opposta) in cui è possibile scrivere commenti alla pagina visualizzata sullo schermo.  La struttura dell’editor è uguale a quella di un post di blog e presenta un’area titolo e un’area testo. E’ possibile anche scrivere un commento ad una testo selezionato. Anche in presenza di commenti la pagina visualizzata sullo schermo è sempre nella forma originale, e per visualizzare le parti di testo a cui i vari commenti si riferiscono bisogna attivarli con un click del mouse. Come per altre applicazioni analoghe, la selezione di testo non funziona per le pagine pdf e manca pertanto uno strumento di annotazione e commento dei documenti pdf simile ad es. a foxit reader (che però va utilizzato solo  sul proprio computer).

Modifica e cancellazione dei commenti sono sempre possibili dalla pagina commentata e ogni commento può essere condiviso tramite invio per email dell’URL abbreviato (che riproduce la pagina con i commenti e le sottolineature) o tramite facebook e twitter.

Quando vi sono commenti ad una pagina compare sulla sinistra dello schermo una icona che apre l’area di Sidewiki. Analogamente a Searchwiki, con cui però non vi sarebbe alcun collegamento,  l’utente può indicare se il commento è utile o meno, oppure se si tratta di spam, contribuendo in tal modo a valutare i commenti. Vengono poi visualizzati per primi i commenti più votati, analogamente a come avviene in un altro sito abbastanza popolare, Digg che ambisce a selezionare il meglio della rete secondo le preferenze degli utenti mettendo sulla Home page per ogni categoria, i link ai siti più scelti (digg it) dagli utenti.

I propri commenti sono visualizzabili in sequenza nell’area del profilo utente (che, previa autorizzazione e a determinate condizioni, è consultabile pubblicamente) e possono essere condivisi tramite sottoscrizione dei relativi feed.

Sidewiki rispetto ad analoghi servizi non ha la funzionalità di ricerca dei commenti il che insieme alla visualizzazione nell’area personale fa pensare che la pubblicazione delle pagine commentate si debba realizzare oltre che con la pagina commentata, con strumenti integrati come Bookmarks, Blogger e Feedreader. L’icona di Bookmarks compare proprio accanto a Sidewiki nella barra delle applicazioni e la pubblicazione tramite blogger è immediata e senza intoppi.

Scritto da Nicola

14 ottobre 2009 alle 16:02

Diigo

lascia un commento »

Uno strumento concorrente di ReframeIt per funzionalità offerte è Diigo un sito di social tagging per costruire bookmark di risorse web, avvalendosi di una struttura essenziale costituita da URL, titolo, descrizione e tag; l’archiviazione veloce non richiede nemmeno l’inserimento di una descrizione, né di tag.

Rispetto al capostipite del genere, cioè Delicious, Diigo ha però alcune funzionalità ulteriori. In primo luogo il campo descrizione è in grado di ospitare fino a 2000 caratteri (rispetto ai 1000 di Delicious) in secondo luogo presenta caratteristiche proprie dei servizi di social annotations.

Una volta installato in Firefox l’add on di Diigo, che compare anche come una barra di comandi, ogni selezione che l’utente compie col mouse sul testo html (non funziona con i file pdf) della pagina web visualizzata sullo schermo, apre un menu a finestra con le opzioni di illuminare (highlight)  in modo permanente il brano selezionato, costruire un segnalibro e illuminare il brano, fare una ricerca del testo nel web, copiarlo e infine disattivare quel menu. Queste operazioni possono essere fatte anche tramite la barra di Diigo.

Dopo aver creato una selezione permanente al passaggio del mouse su di essa compare una icona a forma di matita che, attivata, offre le opzioni di attaccare un post-it, cancellare la selezione, visualizzare l’URL della pagina annotata per condividerla, aprire la biblioteca personale (my library) e infine scegliere il colore della selezione. Il post-it può ospitare diversi commenti e rimane accanto alla selezione con indicato il numero dei commenti inseriti.

La pagina così commentata può esser condivisa in facebook e in twitter o inviata ad amici in forma annotata (annotated link)  che nella parte superiore presenta una icona che avverte sulla provenienza da Diigo del file e indica l’URL della risorsa originale. La barra presenta anche l’opzione “extract annotations” che apre una finestra con tutte le annotazioni inserite nella pagina con l’opzione di copiarle nel clipboard. In tal modo i commenti possono essere incollati insieme in un word editor.

Nella biblioteca personale le selezioni e i commenti vengono elencati sotto il record del bookmark della pagina. Questa presentazione dei commenti nella biblioteca dell’utente archiviata su Diigo si differenza da quella sul sito di ReframeIt dove i commenti dell’utente sono elencati cronologicamente, mentre vengono presentati insieme solo nel contesto della pagina una volta che sia richiamata sullo schermo.

Nel complesso Diigo è uno strumento funzionale per costruire annotare e commentare le risorse web soprattutto a fini di produttività personale, forse meno indicato per costruire “conversazioni” con altri utenti sulla risorsa web.

Scritto da Nicola

11 ottobre 2009 alle 15:59

ReframeIt

lascia un commento »

ReframeIt è tra gli add on consigliati da Firefox per archiviare note e commenti relativi a pagine web che si stanno visitando (ReadWriteWeb gli ha dedicato un post nel marzo 09). Una volta installato l’add on, cliccando l’icona del servizio che appare a destra sulla barra di stato del browser, si apre (o si chiude) un frame (lett. cornice) sul lato destro del browser su tutta la sua altezza.

Nel frame compaiono i commenti alla pagina che si sta visualizzando lasciati dagli utenti di ReframeIt che possono essere visualizzati in tre modi: uno per volta a seconda della frazione di pagine visualizzata, in una lista abbreviata, o graficamente in stubs (lett. mozziconi), icone che se cliccate fanno comparire il commento e visualizzano il punto della pagina a cui il commento si riferisce. Gli stubs danno anche la raffigurazione grafica dei threads di commenti che si sono succeduti sulle varie sezioni della pagina.

L’utente può a questo punto inserire un commento sull’intero documento, su una selezione (parti del testo o immagini), o su i commenti lasciati da altri utenti;  il commento viene quindi memorizzato sul proprio accout nel server di reframe it.

Reframe it ha anche un particolare meccanismo di condivisione dei commenti, che possono essere privati o pubblici. Il menu a tendina Share Comment offre 4 opzioni di condivisione: Social Networks, Groups, Friends, Email. L’ultima invia il commento a uno o più indirizzi email inseriti manualmente. I Friends sono altri utenti di reframe it che come nei social networks, è possibile reperire con una ricerca tra gli utenti oppure facendo scansire la propria rubrica dell’email per trovare contatti già presenti su reframe it o per invitare i propri contatti ad aderire al servizio. E’ anche possibile sottoscrivere (follow) i commenti di altri utenti di cui si voglia seguire l’attività. I Groups possono essere preesistenti o creati ad hoc dall’utente.

La condivisione in Social Networks prevede che i commenti, una volta salvati, siano pubblicati direttamente negli accounts dell’utente su social networks opportunamente settati, quali facebook, twitter, friendfeed, su blog costruiti con blogger o metaweblog (WordPress o movable type), o tramite feeds che possono appaire con un widget per igoogle, o per il proprio sito web o in qualsiasi feedreader. E’ anzi possibile sottoscrivere i feeds di qualsiasi lista di commenti, sia personali che di gruppi.

Grazie anche alla sua amichevole interfaccia, ReframeIt non solo si presta molto  a fini di produttività personale, trasformando il proprio account in un quaderno di appunti su documenti web rilevanti, ma se ne intuiscono altri usi assai proficui ad esempio in campo educativo e per valutare le risorse web.

Scritto da Nicola

10 ottobre 2009 alle 14:37

Iscriviti

Get every new post delivered to your Inbox.