Information retrieval

Indice

[modifica] Definizione

L'Information retrieval (IR) (lett: recupero d'informazioni) è l'insieme delle tecniche utilizzate per il recupero mirato dell’informazione in formato elettronico. Per "informazione" si intendono tutti i documenti, i metadati, i file presenti all'interno di banche dati o nel world wide web. Il termine è stato coniato da Calvin Mooers alla fine degli anni '40 del Novecento, ma oggi è usato quasi esclusivamente in ambito informatico.

L'IR è un campo interdisciplinare che nasce dall'incrocio di discipline diverse. L'IR coinvolge la psicologia cognitiva, l'architettura informativa, la filosofia (vedi la voce ontologia), il design, il comportamento umano sull'informazione, la linguistica, la semiotica, la scienza dell'informazione e l'informatica. Molte università e biblioteche pubbliche utilizzano sistemi di IR per fornire accesso a pubblicazioni, libri ed altri documenti.

Per recuperare l'informazione, i sistemi IR usano i linguaggi di interrogazione basati su comandi testuali. Due concetti sono di fondamentale importanza: query ed oggetto:

  • Le query ("interrogazioni") sono stringhe di parole-chiavi rappresentanti l'informazione richiesta. Vengono digitate dall'utente in un sistema IR (per esempio, un motore di ricerca).
  • Un oggetto è un'entità che mantiene o racchiude informazioni in una banca dati. Un documento di testo, per esempio, è un oggetto di dati.

Una tipica ricerca di IR ha come input un comando dell'utente. Poi la sua query viene messa in relazione con gli oggetti presenti nella banca dati. In risposta, il sistema fornisce un insieme di record che soddisfano le condizioni richieste.
Spesso i documenti stessi non sono mantenuti o immagazzinati direttamente nel sistema IR, ma vengono rappresentati da loro surrogati. I motori di ricerca del Web come Google e Yahoo sono le applicazioni più note ed ovvie delle teorie di Information Retrieval.

[modifica] Misure di prestazione

Ci sono molti modi per misurare quanto bene l'informazione intesa si associa all'informazione recuperata.

  • Precisione (ingl. Precision)

La proporzione di documenti pertinenti fra quelli recuperati:

P = (numero di documenti pertinenti recuperati) / (numero di documenti recuperati)

Nella classificazione binaria la precisione è analoga al valore positivo di previsione. La precisione può anche essere valutata a rispetto a un certo valore soglia, indicato con P@n, piuttosto che relativamente a tutti i documenti recuperati: in questo modo, si può valutare quanti fra i primi n documenti recuperati sono rilevanti per la query.

Si noti che il significato e l'uso del termine "precisione" nel campo dell'IR differiscono dalla definizione di accuratezza e precisione tipiche di altre discipline scientifiche e tecnologiche.


  • Recupero (o Richiamo, ingl. Recall)

È la proporzione fra il numero di documenti rilevanti recuperati e il numero di tutti i documenti rilevanti disponibili nella collezione considerata:

R = (numero di documenti rilevanti recuperati) / (numero di documenti rilevanti)

Nella classificazione binaria, questo valore è chiamato sensitività.


  • Misura F (ingl. F-measure)

È la media armonica pesata fra precisione e recupero. La versione tradizionale, detta anche bilanciata, è data da:

F = 2 \times \mathrm{precisione} \times \mathrm{recupero} / (\mathrm{precisione} + \mathrm{recupero}).\,

Questa misura è anche detta F1, perché sia la precisione che il recupero nella formula precedente hanno appunto il peso 1.

In generale, la formula è:

F_N = (1 + N^2) \times \mathrm{precisione} \times \mathrm{recupero} / ((N^2 \times \mathrm{precisione}) + \mathrm{recupero}).\,

Altre due formule comuni sono F0.5, che assegna alla precisione un peso doppio rispetto al recupero, e la F2, che al contrario pesa il recupero al doppio della precisione.


[modifica] Tassonomia dei modelli

classificazione dei modelli IR (tradotto da de.wiki.org, fonte originale logos-verlag.de)
classificazione dei modelli IR (tradotto da de.wiki.org, fonte originale logos-verlag.de)

Per concludere con successo una ricerca di informazioni, è necessario rappresentare i documenti in qualche modo. C'è un certo numero di modelli aventi tale scopo. Essi possono essere classificati secondo due criteri, come mostrato nella figura a destra: in base ad un criterio matematico e in base alle proprietà del modello (tradotto da de.wiki.org, fonte originale logos-verlag.de).

[modifica] Classificazione matematica dei modelli

[modifica] Classificazione in base alle proprietà dei modelli

  • Modelli senza interdipendenza dei termini trattano diversi termini/parole come non interdipendenti. Ciò viene rappresentato spesso nei modelli a spazi vettoriali affermando che i vettori dei termini siano ortogonali, o nei modelli probabilistici affermando che le variabili dei termini siano indipendenti.
  • Modelli con interdipendenza dei termini intrinseca consentono una rappresentazione diretta delle interdipendenze tra termini. Comunque il grado di interdipendenza tra due termini è definito dal modello stesso. In genere, esso è direttamente o indirettamente derivato (vedi per es. dimensional reduction) dalla co-occorrenza di questi termini nell'intero insieme di documenti.
  • Modelli con interdipendenza dei termini trascendente consentono una rappresentazione diretta delle interdipendenze tra termini, ma essi non riportano come l'interdipendenza tra due termini sia definita. Si riferiscono ad una fonte esterna per stabilire il grado di interdipendenza tra due termini (ad esempio un umano o degli algoritmi sofisticati).

[modifica] Bibliografia

  • Ricardo Baeza-Yates e Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999
  • Robert Korfhage, Information Storage and Retrieval, Wiley, 1997
  • Daniel Brown, Mastering Information Retrieval and Probabilistic Decision Intelligence Technology, Chandos Publishing (Oxford), 2004
  • S. Chakrabarti, Mining the Web: discovering knowledge from hypertext data, Morgan Kaufmann, 2003
  • Fabio Crestani, Information retrieval uncertainty and logistics, Kluwer, 1998
  • Luca Spinelli, Panoramica sul web semantico, in «Login», Gruppo Editoriale Infomedia, nov. 2005
  • Luca Spinelli, Il mondo dei desktop search, in «Login», Gruppo Editoriale Infomedia, nov. 2005
  • Renato Battistin, Gli algoritmi per il web: il PageRank e l'HITS, in «Login», Gruppo Editoriale Informedia, nov. 2005
  • C. J. van Rijsbergen, Information Retrieval, on line book, 1980
  • Maristella Agosti (Ed), Information Access through Search Engines and Digital Libraries, Springer, Heidelberg, Germany, 2008

[modifica] Voci correlate

[modifica] Collegamenti esterni

Sistemi di Information Retrieval in campo scientifico

  • (EN) iHOP Sistema di IR nel settore biomedico
  • (EN) Sphinx motore che effettua ricerche su interi testi
  • (EN) Lemur Toolkit di modellizzazione del linguaggio
  • (EN) Wumpus motore di ricerca multi utente
  • (EN) Zebra motore di ricerca che accetta in input anche e-mail, XML, MARC e operatori booleani
  • (EN) Zettair motore di ricerca testuale già noto col nome di Lucy


Software di Information Retrieval Open Source

  • Terrier TERabyte RetrIEveR, motore di ricerca con funzioni di IR
  • GalaTex versione open source dello standard XQuery (ricerca testuale su documenti in XML)
  • ht://dig software per effettuare ricerche mirate dentro intranet o singoli domini web
  • Toolkit Mumps software per effettuare esperimenti di IR
  • Lucene (Apache) tecnologia per la ricerca testuale
  • MG-1.3 serve per indicizzare e compattare i documenti ricercati
  • Xapian piattaforma IR scritta in Open Muscat


Principali gruppi di ricerca sull'Information Retrieval


Approfondimenti


system wymiany linków SEO Tools wymiana linkami wymiana linkami tanie kredyty gotówkowe kreatyna Plaza 3 star hotel Los Angeles krynica noclegi Sejm Tyk