4lib Blog

Osservatorio sull'informazione in rete e le digital libraries

Semantic search engines

lascia un commento »

In fase di declino dell’efficacia dell’algoritmo di Google, tra le tendenze di ricerca proposte per ovviare alla scarsa rilevanza dei risultati, figurano i motori di ricerca semantici capaci cioè di distinguere e riconoscere i significati. L’idea non è nuova dato che sottende la ricerca sul semantic web condotta del w3c, che consiste, in estrema sintesi, nell’introdurre strutture semantiche fin dalla costruzione delle pagine web. Questo approccio, come è noto, è considerato complessivamente irrealistico perché richiede l’accettazione estesa di standard condivisi e la padronanza delle complesse regole della semantica. Una via alternativa è invece quella di spostare l’analisi semantica negli algoritmi dei motori di ricerca rendendo interpretabile ogni testo: “We need algorithms that match the meaning of concepts (rather than mere words) and emulate “understanding.”” (Riza C. Berkan, Founder & CEO, hakia.com) () Questo è il percorso intrapreso dai cosiddetti motori di ricerca semantici quali Hakia, Powerset, Cognition search, Lexxe che si avvale di un nuovo approccio delle tecniche di Natural Language Processing.

Hakia si presenta come alternativa ai motori di ricerca tradizionali e mira a sostituire al criterio quantitativo quello qualitativo: “a popular Web site may not always be credible, and a credible Web site may not always be popular”. Inoltre i motori di ricerca basati sulla popolarità richiedono una costruzione della query con poche, semplici parole. Ciò significa che le query più lunghe e complesse che rispecchiano spesso bisogni informativi specifici o che richiedono risposte in tempo reale rispetto agli eventi cercati, non vengono soddisfatte.

Tramite la analisi della query (meglio se formulata con frasi che non solo con  parole chiave) l’algoritmo di Hakia sarebbe invece in grado di trovare corrispondenze col contenuto delle pagine web e non solo sulle frasi chiave che esse condividono o le statistiche di popolarità. Questi risultati sono ottenuti implementando l’ontologia semantica (OntoSem) che traduce in modo automatico ogni frase che le viene sottoposta, in Text meaning representation (TMR). A questo scopo utilizza complesse procedure di analisi linguistica del testo pieno che mirano a identificarne i componenti grammaticali e sintattici e i concetti contenuti e a collocarli in un contesto semantico di sinonimi e concetti correlati, costruito attraverso l’analisi di migliaia di pagine di testo pieno. In tal modo si emula il processo mentale di un umano che legge un testo. Queste metodologie sono poi utilizzate insieme a tecniche non semantiche per essere implementate nel motore di ricerca (Hempelmann, , Christian F. Hakia inc.).

Attraverso l’algoritmo QDEX (Quality Detection and Extraction) i ricercatori di Hakia sarebbero riusciti a implementare procedure veloci ed efficienti per indicizzare le risorse di rete. Sembra anche di capire che il primo passo è stato creare la struttura semantica dei TMRs analizzando siti di provata qualità come benchmarck per la verifica dei concetti. Il risultato sono una organizzazione dei risultati per categorie, cioè per contesti semantici.

I risultati delle ricerche sono presentati non come liste standard bensì per schede (tabs) dal nome:  All results - Credible sites – News – Images – Meet Others a suggerire i diversi approcci, uno generalista, uno limitato a siti scelti da bibliotecari o specialisti dell’informazione (ma sembra che non vi sia alcuna vera barriera contro lo spam e tentativi di influenzare i risultati), uno dedicato alle news e l’ultimo è una sorta di forum, suddiviso in diverse stanze di conversazione, in cui gli utenti possono articolare conversazioni stabilire contatti, esprimere valutazioni e scambiarsi informazioni.

L’analisi semantica permette l’implementazione di una serie di nuove funzionalità, quali:

evidenziazione di frasi coerenti: i risultati della ricerca riportano selezionata nella descrizione del sito la frase semanticamente corrispondente alla query.

la categorizzazione: per richieste formulate in modo semplice e popolare (p. e. cancer oppure Madonna), hakia presenta i risultati organizzati in categorie, costruendo aggregazioni chiamate Galleries composte da circa 10 categorie, corrispondenti, secondo gli ideatori ad altrettante queries più specifiche nei motori di ricerca convenzionali.

Parallelismo: è una innovativa funzionalità che rinvia all’uso di termini equivalenti o associati nella ricerca (ad esempio “kill=murder”).

Generalizzazione: in molte domande è necessario applicare forme di generalizzazione: ad esempio una ricerca con il termine car può dover essere riconosciuto come termine generale per le singole marche che devono quindi essere contenute nei risultati della ricerca

Nella Home page di Hakia viene proposto un confronto con google. La lista dei risultati della stessa query suggerita (naval academy) in Hakia (mi limito alla scheda All results per Hakia) è organizzata in  categorie (p. e.; college profile, Headline news, Admissions, Athletics, Applying for Financial Aid, Faculty Directory ….etc) mentre in google i risultati sono correlati ai “rich snippets” che raggruppano i dati per formato (videos, news, blogs, forums), cronologicamente (risultati recenti, un’ora fa …), per pagine visitate o no, secondo visualizzazioni particolari (Standard, Related Searches, Wonder Wheel, timeline), e infine: risultati standard oppure con immagini tratte dalla pagina, con più o meno siti di shopping, con la preview. Il confronto dovrebbe evidenziare il valore semantico della struttura categoriale proposta da Hakia per organizzare i risultati, rispetto alla suddivisione più occasionale dei “rich snippet” (Per uno studio sulle performance di Hakia in confronto con Yahoo, Google e Msn che tuttavia non presenterebbero grandi diversità, si veda qui),

Written by Nicola

9 Novembre 2009 a 00:25

Lascia un commento