Robot di indicizzazione

Un crawler (in inglese web crawler o web spider , letteralmente ragno del Web ) è un software che esegue automaticamente la scansione del Web . E 'generalmente progettato per raccogliere risorse ( pagine web , immagini , video , documenti, Word , PDF o PostScript , etc.) per consentire a un motore di ricerca 's indice .

Seguendo lo stesso principio, alcuni robot dannosi ( spambots ) vengono utilizzati per archiviare risorse o raccogliere indirizzi e-mail a cui inviare e-mail .

In francese, dal 2013, crawler può essere sostituito dalla parola collector .

Ci sono anche collezionisti che analizzano finemente il contenuto per riportare solo una parte delle loro informazioni. Esistono alcuni framework tutti realizzati come Scrapy per scrivere tali robot.

Principi di indicizzazione

Per indicizzare nuove risorse, un robot procede seguendo ricorsivamente i collegamenti ipertestuali trovati da una pagina pivot. Successivamente, è vantaggioso memorizzare l' URL di ciascuna risorsa recuperata e adattare la frequenza delle visite alla frequenza osservata di aggiornamento della risorsa. Tuttavia, se il robot segue le regole nel file robots.txt, molte risorse sfuggono a questa esplorazione ricorsiva. Questo insieme inesplorato di risorse è chiamato Deep Web o Invisible Web.

Un file di esclusione ( robots.txt) posizionato nella radice di un sito Web viene utilizzato per fornire ai robot un elenco di risorse da ignorare. Questa convenzione aiuta a ridurre il carico sul server web ed evitare risorse non necessarie. Tuttavia, alcuni bot non si preoccupano di questo file.

Due caratteristiche del Web rendono difficile il lavoro del web crawler: volume di dati e larghezza di banda . Poiché le capacità di elaborazione e archiviazione dei computer nonché il numero di utenti Internet sono aumentati in modo significativo, ciò è legato allo sviluppo di strumenti di manutenzione delle pagine di tipo Web 2.0 che consentono a chiunque di caricare facilmente i contenuti, il numero e la complessità delle pagine e degli oggetti multimediali disponibili , e la loro modifica, è aumentato significativamente nel primo decennio del XXI °  secolo . Poiché il throughput autorizzato dalla banda passante non ha subito una progressione equivalente, il problema è elaborare un volume sempre crescente di informazioni con un throughput relativamente limitato. I robot devono quindi dare la priorità ai loro download.

Il comportamento di un robot indice risulta dalla combinazione dei seguenti principi:

Robot Web 3.0

Il Web 3.0 definisce nuovi progressi e ricerca i principi tecnici di Internet che dovrà fare affidamento in parte sugli standard del Web semantico . I bot Web 3.0 sfrutteranno metodi di indicizzazione che coinvolgono associazioni persona-macchina più intelligenti di quelle praticate oggi.

Il Semantic Web si distingue dalla semantica applicata alle lingue: mentre la semantica linguistica include i significati delle parole composte così come le relazioni tra tutte le parole in una lingua, il Semantic Web rappresenta solo l'architettura delle relazioni e dei contenuti presenti sul Web.

Robot

Note e riferimenti

  1. Olivier Robillart, "Collector e keylogger sostituiscono i termini" Crawler "e" Keylogger "" , Clubic , 2 gennaio 2013.
  2. (in) sito ufficiale Scrapy .
  3. (in) YaCy-Bot  " , 2012.

Vedi anche

Articoli Correlati

link esterno