La ricerca nel Web è l'applicazione di tecniche di data mining per scoprire costanti, disegni o modelli in Internet o dati sulle risorse. In base a questi obiettivi, la ricerca sul web può essere suddivisa in tre tipologie: la ricerca sull'utilizzo del web, la ricerca sul contenuto web, la ricerca sulla struttura web.
Lo scavo dell'uso del web ( Web usage mining o Web log mining ) è il processo di estrazione di informazioni utili memorizzato nei log dei server web (la cronologia delle transazioni degli utenti) o le informazioni fornite dal web speaker (FAI, Panelists,. .). Analizzando questi flussi di clic , cerchiamo di scoprire informazioni sul comportamento degli utenti su Internet. L'analisi dell'utilizzo del web si sviluppa in tre fasi distinte, la prima delle quali può essere suddivisa in quattro sottofasi:
Questi tre passaggi, vale a dire pre-elaborazione, scoperta di modelli, analisi di modelli, come descritto nell'architettura WEBMINER, corrispondono alle fasi di preparazione dei dati, modellazione e valutazione del metodo CRISP_DM .
La materia prima per la ricerca dell'utilizzo del web è costituita dai file “log” . Oltre ai formati proprietari, sono disponibili due formati: CLF ( " formato registro comune " ) e XLF ( " formato registro esteso " ).
|
|
Esistono strumenti per analizzare i file di registro come Webtrends e Web Analytics che consentono di utilizzare questi file.
La pulizia dei dati consiste nella rimozione di tutti i dati che non sono utili per l'analisi. I riferimenti a CSS , immagini e file audio, nonché il numero di byte trasferiti e la versione dei protocolli utilizzati, vengono rimossi dal set di dati da cercare . I web crawler e gli spider non sono attori il cui comportamento è interessante analizzare - poiché esplorano sistematicamente tutte le pagine di un sito - ma fortunatamente lasciano tracce - per i più istruiti tra loro - che consentono di cancellare i dati che li riguardano.
Una visualizzazione di pagina è l'insieme di oggetti contenuti in una pagina e con cui l'utente ha interagito. Questo passaggio consiste quindi nell'individuare, dai file di log, tutti gli eventi innescati dall'utente (click, visualizzazione dettagliata, aggiunta al carrello, ecc.) Che coinvolgono oggetti provenienti dalle pagine del sito, provando a ricostruire le Pagine visualizzate. Ogni visualizzazione di pagina è rappresentata da un identificatore e contiene informazioni come il tipo di pagina (pagina informativa, indice, prodotto, ..) e informazioni sugli oggetti visitati.
Non è tanto l'identità della persona fisica che qui interessa - che porrebbe certamente problemi etici - ma piuttosto quella del visitatore virtuale. È necessario sapere se un visitatore ritorna su un sito dopo una prima visita, ad esempio, ma anche per separare i registri di due visitatori diversi. Ciò viene fatto utilizzando i cookie posizionati sulla postazione di lavoro del visitatore dal sito, se l'utente accetta di collaborare. Molto spesso gli utenti non accettano i cookie e dobbiamo utilizzare metodi euristici per separare i record dai log.
Ciò comporta la segmentazione dell'attività del visitatore in diverse sessioni che corrispondono a una singola visita al sito. Anche in questo caso è possibile utilizzare i cookie o metodi euristici.
Poiché non tutto è memorizzato nei log del server - come quando il visitatore ritorna su una pagina già vista utilizzando il pulsante Indietro del suo browser che utilizza la cronologia memorizzata sul suo computer - è necessario rilevare i salti tra due pagine non contigue e completare il percorso di navigazione tra queste due pagine. Un modo per farlo è prendere il percorso più breve tra le due pagine.
Sempre per seguire sequenzialmente il processo illustrato dall'immagine in alto a sinistra, modelleremo i dati e introdurremo le nozioni di matrice PFM e matrice UPM. Lasciate n Pagine e m operazioni consistono di sottoinsiemi di P tale che quando l' sono pagine visualizzate di e è il peso attribuito a .
La ricerca dei contenuti del Web ( " Web content mining " ) è il processo di estrazione delle informazioni contenute nei documenti archiviati su Internet. Questi documenti possono essere testo, audio, file video, ecc. Questo tipo di esplorazione implementa tecniche di elaborazione del linguaggio naturale ( " elaborazione del linguaggio naturale (NLP) " ) e recupero delle informazioni ( " recupero delle informazioni (IR) " ). In questo contesto, il web semantico è uno sforzo di sviluppo globale per la Rete per una più facile lettura dei dati, in particolare da parte di agenti esterni ai data warehouse. Le tecniche di data mining più utilizzate sono la classificazione, la segmentazione ( " clustering " ) e l'associazione. È quindi un'esplorazione più descrittiva dell'esplorazione predittiva.
La ricerca della struttura web ( " Web structure Mining " ) è il processo di analisi delle relazioni, sconosciute a priori, tra documenti o pagine archiviate su Internet. Esistono diverse tecniche di scavo: classificazione, " Clustering " , " Ranking " .
Nella classificazione, si tratta di prevedere la classe di una pagina web in base alle parole sulla pagina, le relazioni tra le pagine, gli ancoraggi, altri attributi delle pagine e dei collegamenti.
Lo scopo della classificazione senza supervisione è trovare classi naturali impreviste. È possibile raggruppare oggetti, raccolte di oggetti correlati o altri sottografi. Ad esempio, possiamo trovare hub e siti mirror.
L'idea è che una pagina è importante se molte altre pagine si collegano ad essa, e che è ancora più importante se ad essa si collegano pagine importanti. Al contrario, se una pagina punta ad altre pagine importanti, la sua affidabilità e credibilità aumentano. La rappresentazione di questi link si ispira a quella vigente nello studio dei social network, ea quello delle citazioni di documenti. La difficoltà sta nel formalizzare il concetto di una pagina “importante”. A tal fine, lo strumento matematico utilizzato per rappresentare la struttura del web è il grafo (orientato o meno ) in cui i vertici rappresentano le pagine web e gli archi (bordi) i link in entrata o in uscita. I due riferimenti in Link Analysis sono PageRank e HITS; si tratta di due algoritmi che utilizzano i concetti di Centralità ( “ Centralità ” ), Prestigio ( “ Prestigio ” ), Concentratore ( “ Hub ” ) e Autorità ( “ Autorità ” ).
CentralitàUna pagina è centrale (localmente) se ha più link in entrata o in uscita rispetto ai suoi vicini. Se rappresentiamo la rete con un arco non orientato, il grado di centralità di una pagina - notato è il numero di bordi del nodo diviso per il numero totale di bordi possibili, cioè
Se la struttura (locale) web è rappresentato da un grafo orientato, quindi si ritira solo conto : .
Un altro approccio alla centralità è la prossimità: una pagina è centrale se la distanza tra essa ei suoi vicini è breve. Se è il minor numero di link tra pagine e , allora la centralità di prossimità è data da:
La centralità dell'intermediazione (o intermediazione ) misura l'importanza delle pagine attraverso le quali si deve passare per spostarsi da una pagina all'altra. Se vogliamo passare da una pagina all'altra , e dobbiamo passare attraverso , allora è centrale rispetto a e , e misuriamo questa importanza dalla formula:
dove e il numero di percorsi più brevi che attraversano e il numero di percorsi più brevi che vanno da a PrestigioDa sempre ispirata all'analisi dei social network , la nozione di prestigio è un altro modo per misurare l'importanza di una pagina o di un documento. Una pagina prestigiosa è una pagina a cui si collegano molte altre pagine: riceve un gran numero di collegamenti. La misura del prestigio di una pagina o di un documento è definita dal suo grado di input:
dove è il numero di link in entrata nella paginaVediamo così che, nella rappresentazione del web tramite un grafo diretto, il grado di centralità è misurato dai link in uscita, mentre quello di prestigio è misurato dai link in entrata.
La valutazione del prestigio di una pagina considera solo le pagine direttamente collegate . Il prestigio della prossimità considera tutte le pagine direttamente o indirettamente collegate alla pagina . Se denotiamo questo insieme, misuriamo il prestigio di prossimità della pagina in base a:
Se una pagina prestigiosa si collega alla pagina , di fatto, questa eredita parte del prestigio della prima. è il prestigio di rango o categoria " Grado di prestigio " , definito da:
dove se j è correlato a , 0 altrimenti e il rango / prestigio di classe di.
Notiamo quindi che if then where where if , are connected, 0 if not. Ne deduciamo che è un autovettore di .
Concentratore e autoritàUn hub ( " Hub " ) serve un indice di pagina, directory guida gli utenti alle pagine di autorità. Nella rappresentazione del Web tramite un grafo diretto, un hub ha molti archi in uscita. In genere, un portale wiki e una categoria sono hub. Una " Autorità " è una pagina il cui contenuto è di qualità o autorevole sull'argomento del suo contenuto, quindi i webmaster credono nel suo contenuto e vi collegano le loro pagine. Un'autorità ha molti link in entrata.
Sia quindi un grafo orientato, e la matrice di contiguità definita da if , 0 altrimenti. Il punteggio di autorità e il punteggio di hub sono definiti da
e se e poi e PageRank e HITSPageRank è l'algoritmo di " ranking " per le pagine Internet utilizzato da Google, HITS (per " Ricerca per argomenti indotta da ipertesto " ) è quello utilizzato da Clever di IBM. Il primo algoritmo si ispira alle nozioni di centralità e prestigio, mentre il secondo utilizza i concetti di hub e autorità.
Algoritmo PageRank Algoritmo HITSL'algoritmo HITS costruisce i punteggi a e h per iterazioni successive. Se e rappresentano i punteggi all'iterazione, abbiamo e con , e , quindi, il seguente algoritmo convergente:
_____________________________
Algoritmo HITS: per iterazioni
_____________________________
Do
Mentre e
ritorno
I crawler (chiamati anche " Spider " o " Web Crawler " ) sono strumenti che setacciano Internet in modo metodico e automatico. Possono copiare interi siti sul disco rigido di una macchina - per trasformarlo in un sito mirror, ad esempio - sono usati per controllare i collegamenti, per indicizzare, i motori di ricerca li usano.
Questi web spider possono essere specializzati nella ricerca di pagine in determinate categorie predefinite. Un classificatore viene creato utilizzando pagine di esempio etichettate per indicare a quali categorie appartengono. Il classificatore così formato può aiutare il " Web Crawler " a scegliere le pagine che possono appartenere alle categorie di interesse. Il classificatore utilizzato da Soumen Chakrabarti utilizza l'ingenuo metodo bayesiano.
Gli " Spider " possono anche cercare pagine orientate per campi, su argomenti specifici. Questi sono i " Topical Crawler " . L'idea è che le pagine collegate contengano indicazioni del loro contenuto reciproco e, più in generale, che le pagine "correlate" abbiano contenuto simile, lessicale o semantico.
EsempiLe questioni etiche sono le stesse poste dal data mining , vale a dire essenzialmente questioni relative alla privacy e all'uso improprio (del loro scopo originale e fuori contesto) dei dati raccolti.