ricerca sul web

La ricerca nel Web è l'applicazione di tecniche di data mining per scoprire costanti, disegni o modelli in Internet o dati sulle risorse. In base a questi obiettivi, la ricerca sul web può essere suddivisa in tre tipologie: la ricerca sull'utilizzo del web, la ricerca sul contenuto web, la ricerca sulla struttura web.

Ricerca dell'utilizzo del web

Lo scavo dell'uso del web ( Web usage mining o Web log mining ) è il processo di estrazione di informazioni utili memorizzato nei log dei server web (la cronologia delle transazioni degli utenti) o le informazioni fornite dal web speaker (FAI, Panelists,. .). Analizzando questi flussi di clic , cerchiamo di scoprire informazioni sul comportamento degli utenti su Internet. L'analisi dell'utilizzo del web si sviluppa in tre fasi distinte, la prima delle quali può essere suddivisa in quattro sottofasi:

Pretrattamento
- I dati del progetto ( pulizia dei dati )
- Identificazione delle transazioni
- Integrazione di dati da più fonti
- La trasformazione
Modellazione dei dati e ricerca di modelli interessanti
Analisi di modelli interessanti

Questi tre passaggi, vale a dire pre-elaborazione, scoperta di modelli, analisi di modelli, come descritto nell'architettura WEBMINER, corrispondono alle fasi di preparazione dei dati, modellazione e valutazione del metodo CRISP_DM .

Log files

La materia prima per la ricerca dell'utilizzo del web è costituita dai file “log” . Oltre ai formati proprietari, sono disponibili due formati: CLF ( " formato registro comune " ) e XLF ( " formato registro esteso " ).

Formato del file di registro CLF

indirizzo IP	Data ora	genere	Url richiesto	Protocollo HTTP	Codice di ritorno	Formato
150.3.220.18	18 / aprile / 2011: 17:45:33	OTTENERE	http://fr.wikipedia.org/wiki/Exploration_de_donn%C3%A9es	HTTP / 1.1	200	20933

Formato file di registro XLF

indirizzo IP	Data ora	genere	Url richiesto	Protocollo HTTP	Codice di ritorno	Formato	URL originale ( " Referer " )	Browser ( " Agente utente " )	Sistema operativo della workstation client
150.3.220.18	18 / aprile / 2011: 17:45:33	OTTENERE	http: //../wiki/Exploration_de_donn%C3%A9es	HTTP / 1.1	200	20933	http: //../wiki/Gestion_des_connaissances	MSIE 9.0	Windows NT 7.1

Esistono strumenti per analizzare i file di registro come Webtrends e Web Analytics che consentono di utilizzare questi file.

Pretrattamento

La pulizia dei dati

La pulizia dei dati consiste nella rimozione di tutti i dati che non sono utili per l'analisi. I riferimenti a CSS , immagini e file audio, nonché il numero di byte trasferiti e la versione dei protocolli utilizzati, vengono rimossi dal set di dati da cercare . I web crawler e gli spider non sono attori il cui comportamento è interessante analizzare - poiché esplorano sistematicamente tutte le pagine di un sito - ma fortunatamente lasciano tracce - per i più istruiti tra loro - che consentono di cancellare i dati che li riguardano.

Identificazione della visualizzazione di pagina

Una visualizzazione di pagina è l'insieme di oggetti contenuti in una pagina e con cui l'utente ha interagito. Questo passaggio consiste quindi nell'individuare, dai file di log, tutti gli eventi innescati dall'utente (click, visualizzazione dettagliata, aggiunta al carrello, ecc.) Che coinvolgono oggetti provenienti dalle pagine del sito, provando a ricostruire le Pagine visualizzate. Ogni visualizzazione di pagina è rappresentata da un identificatore e contiene informazioni come il tipo di pagina (pagina informativa, indice, prodotto, ..) e informazioni sugli oggetti visitati.

Identificazione dei visitatori

Non è tanto l'identità della persona fisica che qui interessa - che porrebbe certamente problemi etici - ma piuttosto quella del visitatore virtuale. È necessario sapere se un visitatore ritorna su un sito dopo una prima visita, ad esempio, ma anche per separare i registri di due visitatori diversi. Ciò viene fatto utilizzando i cookie posizionati sulla postazione di lavoro del visitatore dal sito, se l'utente accetta di collaborare. Molto spesso gli utenti non accettano i cookie e dobbiamo utilizzare metodi euristici per separare i record dai log.

Identificazione delle sessioni

Ciò comporta la segmentazione dell'attività del visitatore in diverse sessioni che corrispondono a una singola visita al sito. Anche in questo caso è possibile utilizzare i cookie o metodi euristici.

Completamento del percorso di navigazione

Poiché non tutto è memorizzato nei log del server - come quando il visitatore ritorna su una pagina già vista utilizzando il pulsante Indietro del suo browser che utilizza la cronologia memorizzata sul suo computer - è necessario rilevare i salti tra due pagine non contigue e completare il percorso di navigazione tra queste due pagine. Un modo per farlo è prendere il percorso più breve tra le due pagine.

Modellazione dei dati

Sempre per seguire sequenzialmente il processo illustrato dall'immagine in alto a sinistra, modelleremo i dati e introdurremo le nozioni di matrice PFM e matrice UPM. Lasciate n Pagine e m operazioni consistono di sottoinsiemi di P tale che quando l' sono pagine visualizzate di e è il peso attribuito a . ${\ displaystyle P = (p_ {1}, p_ {2}, .., p_ {n})}$ ${\ displaystyle T = (t_ {1}, t_ {2}, .., t_ {m})}$ ${\ displaystyle t = ((p {_ {1}} ^ {t}, w (p {_ {1}} ^ {t}), (p {_ {2}} ^ {t}, w (p {_ {2}} ^ {t}), ..., (p {_ {l}} ^ {t}, w (p {_ {l}} ^ {t}))}$ ${\ displaystyle p {_ {i}} ^ {t}}$ $P$ ${\ displaystyle w (p {_ {i}} ^ {t})}$ ${\ displaystyle p {_ {i}} ^ {t}}$

Ricerca di contenuti web

La ricerca dei contenuti del Web ( " Web content mining " ) è il processo di estrazione delle informazioni contenute nei documenti archiviati su Internet. Questi documenti possono essere testo, audio, file video, ecc. Questo tipo di esplorazione implementa tecniche di elaborazione del linguaggio naturale ( " elaborazione del linguaggio naturale (NLP) " ) e recupero delle informazioni ( " recupero delle informazioni (IR) " ). In questo contesto, il web semantico è uno sforzo di sviluppo globale per la Rete per una più facile lettura dei dati, in particolare da parte di agenti esterni ai data warehouse. Le tecniche di data mining più utilizzate sono la classificazione, la segmentazione ( " clustering " ) e l'associazione. È quindi un'esplorazione più descrittiva dell'esplorazione predittiva.

Ricerca nella struttura del web

La ricerca della struttura web ( " Web structure Mining " ) è il processo di analisi delle relazioni, sconosciute a priori, tra documenti o pagine archiviate su Internet. Esistono diverse tecniche di scavo: classificazione, " Clustering " , " Ranking " .

Classificazione

Nella classificazione, si tratta di prevedere la classe di una pagina web in base alle parole sulla pagina, le relazioni tra le pagine, gli ancoraggi, altri attributi delle pagine e dei collegamenti.

Clustering

Lo scopo della classificazione senza supervisione è trovare classi naturali impreviste. È possibile raggruppare oggetti, raccolte di oggetti correlati o altri sottografi. Ad esempio, possiamo trovare hub e siti mirror.

classifica

L'idea è che una pagina è importante se molte altre pagine si collegano ad essa, e che è ancora più importante se ad essa si collegano pagine importanti. Al contrario, se una pagina punta ad altre pagine importanti, la sua affidabilità e credibilità aumentano. La rappresentazione di questi link si ispira a quella vigente nello studio dei social network, ea quello delle citazioni di documenti. La difficoltà sta nel formalizzare il concetto di una pagina “importante”. A tal fine, lo strumento matematico utilizzato per rappresentare la struttura del web è il grafo (orientato o meno ) in cui i vertici rappresentano le pagine web e gli archi (bordi) i link in entrata o in uscita. I due riferimenti in Link Analysis sono PageRank e HITS; si tratta di due algoritmi che utilizzano i concetti di Centralità ( “ Centralità ” ), Prestigio ( “ Prestigio ” ), Concentratore ( “ Hub ” ) e Autorità ( “ Autorità ” ).

Centralità

Una pagina è centrale (localmente) se ha più link in entrata o in uscita rispetto ai suoi vicini. Se rappresentiamo la rete con un arco non orientato, il grado di centralità di una pagina - notato è il numero di bordi del nodo diviso per il numero totale di bordi possibili, cioè $io$ ${\ displaystyle C_ {D} (i)}$ $io$

{\ displaystyle C_ {D} (i) = {\ frac {d (i)} {n-1}}}

Se la struttura (locale) web è rappresentato da un grafo orientato, quindi si ritira solo conto : . Un altro approccio alla centralità è la prossimità: una pagina è centrale se la distanza tra essa ei suoi vicini è breve. Se è il minor numero di link tra pagine e , allora la centralità di prossimità è data da: $io$ ${\ displaystyle d_ {s} (i)}$
${\ displaystyle d (i, j)}$ $io$ $j$

{\ displaystyle C_ {C} (i) = {\ frac {n-1} {\ sum _ {j = 1} ^ {n} d (i, j)}}}

La centralità dell'intermediazione (o intermediazione ) misura l'importanza delle pagine attraverso le quali si deve passare per spostarsi da una pagina all'altra. Se vogliamo passare da una pagina all'altra , e dobbiamo passare attraverso , allora è centrale rispetto a e , e misuriamo questa importanza dalla formula: $j$ $K$ $io$ $io$ $j$ $K$

{\ displaystyle C_ {B} (i) = {\ frac {2 \ sum _ {j <k} {\ frac {p_ {jk} (i)} {p_ {jk}}}} {(n-1) (n-2)}}}

dove e il numero di percorsi più brevi che attraversano e il numero di percorsi più brevi che vanno da a

{\ displaystyle p_ {jk} (i)}

io

{\ displaystyle p_ {jk}}

j

K

Prestigio

Da sempre ispirata all'analisi dei social network , la nozione di prestigio è un altro modo per misurare l'importanza di una pagina o di un documento. Una pagina prestigiosa è una pagina a cui si collegano molte altre pagine: riceve un gran numero di collegamenti. La misura del prestigio di una pagina o di un documento è definita dal suo grado di input: $io$

{\ displaystyle P_ {D} (i) = {\ frac {d_ {e} (i)} {n-1}}}

dove è il numero di link in entrata nella pagina

{\ displaystyle d_ {e} (i)}

io

Vediamo così che, nella rappresentazione del web tramite un grafo diretto, il grado di centralità è misurato dai link in uscita, mentre quello di prestigio è misurato dai link in entrata.
La valutazione del prestigio di una pagina considera solo le pagine direttamente collegate . Il prestigio della prossimità considera tutte le pagine direttamente o indirettamente collegate alla pagina . Se denotiamo questo insieme, misuriamo il prestigio di prossimità della pagina in base a: $io$ $io$ $io$ $I_ {i}$ $io$

{\ displaystyle P_ {P} (i) = {\ frac {\ sum _ {j = 1} ^ {n} d (i, j)} {| I_ {i} |}}}

dove è il percorso più breve tra e ed è il cardinale di

{\ displaystyle d (i, j)}

io

j

{\ displaystyle | I_ {i} |}

I_ {i}

Se una pagina prestigiosa si collega alla pagina , di fatto, questa eredita parte del prestigio della prima. è il prestigio di rango o categoria " Grado di prestigio " , definito da: $io$

{\ displaystyle P_ {R} (i) = A_ {1i} P_ {R} (1) + A_ {2i} P_ {R} (2) + .. + A_ {ni} P_ {R} (n)}

dove se j è correlato a , 0 altrimenti e il rango / prestigio di classe di

{\ displaystyle A_ {ji} = 1}

io

{\ displaystyle P_ {R} (j)}

j

Notiamo quindi che if then where where if , are connected, 0 if not. Ne deduciamo che è un autovettore di . ${\ displaystyle P = (P_ {R} (1), P_ {R} (2), .., P_ {R} (n)) ^ {T}}$ ${\ displaystyle P = A ^ {T} P}$ ${\ displaystyle A = [A_ {ij}]}$ ${\ displaystyle A_ {ij} = 1}$ $io$ $j$ $P$ ${\ displaystyle A ^ {T}}$

Concentratore e autorità

Un hub ( " Hub " ) serve un indice di pagina, directory guida gli utenti alle pagine di autorità. Nella rappresentazione del Web tramite un grafo diretto, un hub ha molti archi in uscita. In genere, un portale wiki e una categoria sono hub. Una " Autorità " è una pagina il cui contenuto è di qualità o autorevole sull'argomento del suo contenuto, quindi i webmaster credono nel suo contenuto e vi collegano le loro pagine. Un'autorità ha molti link in entrata.

Sia quindi un grafo orientato, e la matrice di contiguità definita da if , 0 altrimenti. Il punteggio di autorità e il punteggio di hub sono definiti da $G = (V, E)$ ${\ displaystyle L = [L_ {ij}]}$ ${\ displaystyle L_ {ij} = 1}$ ${\ displaystyle (i, j) \ in E}$

{\ Displaystyle a (i) = \ sum _ {(i, j) \ in E} h (j)}

{\ Displaystyle h (i) = \ sum _ {(i, j) \ in E} a (j)}

se e poi e

{\ displaystyle a = (a (1), a (2), .., a (n)) ^ {T}}

{\ Displaystyle h = (h (1), h (2), .., h (n)) ^ {T}}

{\ displaystyle a = L ^ {T} h}

{\ displaystyle h = La}

PageRank e HITS

PageRank è l'algoritmo di " ranking " per le pagine Internet utilizzato da Google, HITS (per " Ricerca per argomenti indotta da ipertesto " ) è quello utilizzato da Clever di IBM. Il primo algoritmo si ispira alle nozioni di centralità e prestigio, mentre il secondo utilizza i concetti di hub e autorità.

Algoritmo PageRank Algoritmo HITS

L'algoritmo HITS costruisce i punteggi a e h per iterazioni successive. Se e rappresentano i punteggi all'iterazione, abbiamo e con , e , quindi, il seguente algoritmo convergente: _____________________________ Algoritmo HITS: per iterazioni _____________________________ Do $a_ {k}$ ${\ displaystyle h_ {k}}$ ${\ displaystyle k ^ {\ text {th}}}$ ${\ displaystyle a_ {k} = L ^ {T} La_ {k-1}}$ ${\ displaystyle h_ {k} = LL ^ {T} h_ {k-1}}$ ${\ displaystyle a_ {0} = (1,1, .., 1)}$ ${\ displaystyle h_ {0} = (1,1, .., 1)}$

${\ displaystyle a_ {0} \ leftarrow h_ {0} \ leftarrow (1,1, .., 1)}$
${\ displaystyle k \ leftarrow 1}$

{\ displaystyle a_ {k} \ leftarrow L ^ {T} La_ {k-1}}

{\ displaystyle h_ {k} \ leftarrow LL ^ {T} h_ {k-1}}

{\ displaystyle a_ {k} \ leftarrow {\ frac {a_ {k}} {|| a_ {k} ||}}}

{\ displaystyle h_ {k} \ leftarrow {\ frac {h_ {k}} {|| h_ {k} ||}}}

{\ displaystyle k \ leftarrow k + 1}

Mentre e ritorno ${\ displaystyle || a_ {k} -a_ {k-1} || <\ epsilon _ {a}}$ ${\ displaystyle || h_ {k} -h_ {k-1} || <\ epsilon _ {h}}$
${\ displaystyle a_ {k} ~, ~ h_ {k}}$

Applicazioni

Robot di indicizzazione

I crawler (chiamati anche " Spider " o " Web Crawler " ) sono strumenti che setacciano Internet in modo metodico e automatico. Possono copiare interi siti sul disco rigido di una macchina - per trasformarlo in un sito mirror, ad esempio - sono usati per controllare i collegamenti, per indicizzare, i motori di ricerca li usano.

Questi web spider possono essere specializzati nella ricerca di pagine in determinate categorie predefinite. Un classificatore viene creato utilizzando pagine di esempio etichettate per indicare a quali categorie appartengono. Il classificatore così formato può aiutare il " Web Crawler " a scegliere le pagine che possono appartenere alle categorie di interesse. Il classificatore utilizzato da Soumen Chakrabarti utilizza l'ingenuo metodo bayesiano.

Gli " Spider " possono anche cercare pagine orientate per campi, su argomenti specifici. Questi sono i " Topical Crawler " . L'idea è che le pagine collegate contengano indicazioni del loro contenuto reciproco e, più in generale, che le pagine "correlate" abbiano contenuto simile, lessicale o semantico.

Esempi

Aleph Search Clear dell'azienda aleph-networks.

Problemi etici

Le questioni etiche sono le stesse poste dal data mining , vale a dire essenzialmente questioni relative alla privacy e all'uso improprio (del loro scopo originale e fuori contesto) dei dati raccolti.

Note e riferimenti

Appunti

(fr) Questo articolo è parzialmente o interamente tratto dall'articolo di Wikipedia in inglese intitolato " Web mining " ( vedere l'elenco degli autori ) .

Riferimenti

(in) Patricio Galeazzo, " Patricio.Galeas.org website " (visitato l' 11 giugno 2011 )
(a) Bamshad Mobasher, " Web Usage Mining Architecture " (accessibile 11 giu 2011 )
(en) [PDF] José Domenech, Javier Lorenzo, " Uno strumento per Web Usage Mining " (accessibile 11 Giugno 2011 )
(in) W3C, " Common Log Format " (visitato l' 11 giugno 2011 )
(in) W3C, " Extended Log Format " (visitato l' 11 giugno 2011 )
Tufféry 2010 , p. 640
(in) Elenco dei software di analisi web
(in) [PDF] Anália Loureço Ronnie Alves, Orlando Belo, " When The Hunter Becomes the Prey - Tracking Down Web Crawlers in clickstreams " (visitato l' 11 giugno 2011 )
(in) W3C, " Definitions of W3C " (visitato l' 11 giugno 2011 )
(in) [PDF] Bamshad Mobasher, " Personalizzazione automatica basata sul mining di utilizzo del web " (visitato l' 11 giugno 2011 ) , p. 146
(in) [PDF] Robert Cooley, Bamshad Mobasher, Jaideep Srivastava, " Data Preparation for Mining World Wide Web Browsing Patterns, 5.2 " (visitato l' 11 giugno 2011 )
(in) [PDF] S. Orlando, " Presentazioni adattate per Web Usage Mining B. Berendt, Bamshad Mobasher e Mr. Spiliopoulou " (visitato l' 11 giugno 2011 )
(in) [PDF] Bamshad Mobasher, " Web Usage Mining Chapter 12 of the book of Liu Bing, Springer, 2010 " ( ISBN 978-3-642-07237-6 , visitato l' 11 giugno 2011 )
(in) [PDF] Jaideep Srivastava, " Web Mining: Accomplishments & Future Directions " (visitato l' 11 giugno 2011 )
(in) [PDF] Lise Getoor, " Link Mining: A New Data Mining Challenge " (visitato l' 11 giugno 2011 )
(in) [PDF] Qing Lu, Lise Getoor, " link-based classification " (visitato l' 11 giugno 2011 )
(in) [PDF] Miguel Gomes da Costa Júnior, Zhiguo Gong, " Web Mining Structure: An Introduction " (visitato l' 11 giugno 2011 )
Liu 2010 , p. 238-245
(in) [PDF] Jon M. Kleinberg, " fonti autorevoli in un ambiente di collegamento ipertestuale " (accessibile 11 Giugno 2011 )
(in) [PDF] Magdalini Eirinaki, " Web Mining: A Roadmap " (visitato l' 11 giugno 2011 ) , p. 6
Liu 2010 , p. 257-258
(en) [PDF] Soumen Chakrabarti, Byron E. Dom, David Gibson, Jon Kleinberg, Ravi Kumar, Prabhakar Raghavan, Sridhar Rajagopalan, Andrew Tomkins, " Mining la struttura dei link del World Wide Web " (accessibile giugno 11, 2011 )
Liu 2010 , p. 288-293
(in) [PDF] P. Srinivasan, Menczer F., G. Pant, " A General Framework for Evaluation Topical Crawlers " (visitato l' 11 giugno 2011 )
(in) [PDF] Lita van Wel, Lamber Royakkers, " Ethical Issues in web data mining " (visitato l' 11 giugno 2011 )

Vedi anche

Bibliografia

Bing Liu , Web Data Mining , Berlino, Springer,2010, 532 p. ( ISBN 978-3-642-07237-6 ).
Stéphane Tufféry , Data Mining e statistiche sui processi decisionali: data intelligence , Parigi, edizioni Technip,2010, 705 p. ( ISBN 978-2-7108-0946-3 , leggi online )

link esterno

Sito ufficiale GM Crawl