Un motore di ricerca è un'applicazione web che consente a un utente di eseguire una ricerca online (o ricerca su Internet ), ovvero trovare risorse da una query composta da termini. Le risorse possono essere in particolare le pagine web , gli elementi dei forum Usenet , le immagini , i video , i file , i libri, i siti didattici, le applicazioni , da software open source .
In linea di principio, generalmente funzionano:
Alcuni siti web offrono un motore di ricerca come funzionalità principale; il sito stesso viene quindi chiamato “motore di ricerca”. Sono strumenti di ricerca sul web senza intervento umano, che li distingue dalle directory . Si basano su " robot ", detti anche " bot ", " spider ", " crawler " o "agenti", che ad intervalli regolari navigano automaticamente nei siti per scoprire nuovi indirizzi ( URL ). Seguono i collegamenti ipertestuali che collegano le pagine tra loro, una dopo l'altra. Ogni pagina identificata viene poi indicizzata in un database , a cui possono poi accedere gli utenti di Internet tramite parole chiave .
È attraverso l'abuso di linguaggio che chiamiamo anche "motori di ricerca" i siti web che offrono directory di siti web: in questo caso si tratta di strumenti di ricerca sviluppati da persone che elencano e classificano siti ritenuti degni di interesse, non web crawler.
I motori di ricerca non si applicano solo a Internet: alcuni motori di ricerca sono software che viene installato su un personal computer . Questi sono i cosiddetti motori "desktop" che combinano la ricerca tra i file memorizzati sul PC e la ricerca tra i siti Web, ad esempio Copernic Desktop Search, Windex Server, ecc.
Esistono anche motori di metaricerca , ovvero siti web in cui la stessa ricerca viene lanciata contemporaneamente su più motori di ricerca, i risultati vengono poi fusi per essere presentati all'utente Internet .
I motori di ricerca di Internet precedono gli inizi del Web alla fine del 1990:
I motori di ricerca si ispirano agli strumenti di recupero di documenti (basati su file invertiti , ovvero file di indice ) utilizzati sui mainframe dagli anni '70, come il software STAIRS su IBM . Il metodo di riempimento dei loro database è tuttavia diverso, in quanto è orientato alla rete . Inoltre, la distinzione tra dati formattati (“campi”) e testo libero non esiste più, sebbene dal 2010 abbia iniziato a reintrodursi attraverso il web semantico .
I motori storici sono stati Lycos (1994), Altavista (1995, il primo motore a 64 bit) e Backrub (1997), antenato di Google .
Il funzionamento di un motore di ricerca come qualsiasi strumento di ricerca può essere suddiviso in tre processi principali:
I moduli complementari vengono spesso utilizzati insieme ai tre elementi costitutivi di base del motore di ricerca. I più famosi sono i seguenti:
Il correttore ortografico: | Il lemmatizzatore: | L'anti-dizionario: |
---|---|---|
Permette di correggere gli errori introdotti
nelle parole della richiesta, assicurandosi di la loro pertinenza tenendo conto della loro forma canonica. |
Dà la possibilità di ridurre
cerca le parole per il loro lemma per ampliare così il loro ambito di ricerca.
|
È usato per rimuovere tutto
parole "vuote" (come "di", "il", "il") che non discriminano e che disturbano la punteggio di ricerca introducendo il rumore . La cancellazione viene eseguita nell'indice e in le richieste. |
Al fine di ottimizzare i motori di ricerca, i webmaster inseriscono meta - elementi (metatag) nelle pagine web , nell'intestazione HTML (head). Queste informazioni consentono di ottimizzare le ricerche di informazioni sui siti web .
I siti che servono principalmente alla ricerca sono finanziati dalla vendita di tecnologia e pubblicità.
Il finanziamento pubblicitario consiste nel presentare annunci corrispondenti alle parole ricercate dal visitatore. L'inserzionista acquista parole chiave: ad esempio un'agenzia di viaggi può acquistare parole chiave come "vacanza", "hotel" e "spiaggia" oppure "Cannes", "Antibes" e "Nizza" se è specializzata in questa regione. Tale acquisto consente di ottenere una referenziazione denominata "referenziazione a pagamento" da distinguere dalla referenziazione denominata "referenziazione naturale".
Il motore di ricerca può visualizzare l'annuncio in due modi: come inserto separato o come parte dei risultati della ricerca. Per il visitatore, l'inserto separato si presenta come un classico annuncio pubblicitario. L'integrazione nei risultati, invece, va a scapito della pertinenza dei risultati e può avere ripercussioni negative sulla qualità percepita del motore. Per questo motivo, non tutti i motori vendono un investimento nei risultati.
I motori di ricerca sono un problema economico. Il valore di borsa della holding Alphabet di proprietà di Google , il principale motore di ricerca, è stato di $ 831 miliardi nell'aprile 2020.
L'importanza della posta in gioco economica ha generato tecniche di distrazione disonesta dei motori di ricerca per ottenere una referenziazione "naturale", lo spamdexing (referenziazione abusiva in francese).
Le tecniche di spamdexing più popolari sono:
Le tecniche di referenziazione abusiva sono braccate dagli editori dei motori di ricerca, che costituiscono blacklist, provvisorie o definitive.
Distinguiamo lo spamdexing , diversione disonesta, da "SEO", Search Engine Optimization ( ottimizzazione per i motori di ricerca in francese). Le tecniche SEO sono commercializzate da società specializzate.
Le grandi organizzazioni (aziende, amministrazioni) generalmente dispongono di un gran numero di risorse IT in una grande intranet . Poiché le loro risorse non sono accessibili da Internet , non sono coperte dai motori di ricerca web. Devono quindi installare il proprio motore se vogliono cercare le loro risorse. Costituiscono quindi un mercato per gli sviluppatori di motori di ricerca. Questo è indicato come un motore di ricerca aziendale (vedi sotto).
Capita anche che i siti web pubblici utilizzino i servizi di un motore di ricerca per ampliare la propria offerta. Questo si chiama "Ricerca su sito". Questo software consente la ricerca di contenuti in uno o più gruppi di siti. Queste tecnologie sono particolarmente utilizzate sui siti di contenuto e sui siti di vendita online. La particolarità di questi strumenti è spesso la complessità di attuazione e le necessarie risorse tecniche disponibili.
Anche i grandi portali possono sfruttare la tecnologia dei motori di ricerca. Quindi Yahoo! , specialista in directory web , ha utilizzato la tecnologia di Google per la ricerca per alcuni anni fino a quando nel 2004 ha lanciato il proprio motore di ricerca Yahoo Search Technology, le cui fondamenta provengono da Altavista, Inktomi e Overture, società fondatrici di motori di ricerca e acquisite da Yahoo! .
Sempre più produttori di contenuti, seguendo le raccomandazioni del W3C sul web semantico , stanno indicizzando i propri database con metadati o tassonomie ( ontologie ), per consentire ai motori di ricerca di adattarsi alle analisi semantiche .
Queste forme di ricerca e di analisi del corpus di informazioni tramite computer sono ancora solo potenzialità.
Rispetto alle ricerche full-text , le ricerche eseguite sul web semantico dovrebbero essere più user-friendly:
A rigor di termini, non esiste ancora un motore di ricerca semantico che permetta di comprendere una domanda in linguaggio naturale e di adattare una risposta in base ai risultati trovati.
Ci sono però alcuni tentativi per trovare una risposta intermedia a questa problematica di senso nella ricerca delle informazioni:
Il progressivo abbandono degli elenchi cartacei porta gli utenti ad effettuare le stesse ricerche su Internet "professione + località". Google ha quindi acquisito nel 2010 un file di società (per la Francia e un certo numero di paesi), per eseguire un mix di dati web e directory quando le richieste corrispondono a un'attività localizzata. Questa nuova tendenza è confermata dai principali motori di ricerca e stanno emergendo nuovi “strumenti misti”. Yandex e Baidu devono ancora adottare questo modello di mixaggio.
Secondo uno studio condotto da McKinsey & Co, solo il 65% delle PMI francesi aveva una presenza su Internet nel 2013. Secondo un altro studio , tale proporzione raggiunge il 72% per le libere professioni (avvocati, dentisti, medici, notai, ufficiali giudiziari, infermieri, ecc.).
I motori di ricerca, che per definizione raccolgono solo dati da Internet, erano quindi obbligati ad acquisire e offrire questi indirizzi di elenchi oltre a soddisfare la ricerca di indirizzi degli utenti di Internet. Google ha battezzato questi indirizzi "Google Addresses", poi è passato automaticamente a "Google +", attualmente " Google My Business ". I motori di ricerca Bing e Google non comunicano l'origine di questi file aziendali integrati, ad eccezione di Yahoo! che è in collaborazione con Pages Jaunes .
Francia | Germania | Canada | stati Uniti | Messico | Brasile | Marocco | |
---|---|---|---|---|---|---|---|
94,21% | 94,54% | 92,38% | 84,8% | 94,9% | 97,35% | 97,31% | |
Bing | 2,95% | 2,89% | 4,31% | 5,59% | 3,36% | 1,32% | 1,79% |
Yahoo | 1,53% | 0,84% | 2,33% | 8,35% | 1,51% | 1,18% | 0,71% |
Qwant | 0,7% | ||||||
AnatraAnatraGo | 0,25% | 0,67% | 0,73% | 1,01% | 0,09% | 0,01% | 0,08% |
signora | 0,1% | 0,08% | 0,1% | 0,02% | |||
Yandex | 0,03% |
I metamotori di ricerca sono strumenti di ricerca che interrogano più motori di ricerca contemporaneamente e mostrano all'utente una sintesi pertinente.
Esempi: Startpage , Searx , Seeks e Lilo , Framabee .
Il termine “ multi-engine (en) ” (o più raramente “super engine”) indica una pagina web che offre uno o più moduli che consentono di interrogare più motori. Può anche (ma più raramente) essere un software, una funzione o un plugin per browser web , o una barra degli strumenti ...
La scelta di uno dei motori può essere effettuata tramite pulsante , pulsante radio , tab , elenco a discesa o altro.
Le prime pagine di questo tipo copiavano il codice del modulo di diversi motori. Con l'avvento di JavaScript è diventato possibile avere un solo modulo.
Possiamo citare ad esempio Creative Commons Search , Ecosia , Disconnect , il motore di ricerca di Maxthon , HooSeek (chiuso nel 2012).
Il termine "motore di ricerca solidale" viene utilizzato per designare un motore che dona parte del proprio reddito a cause ecologiche, sociali o umanitarie. Questi motori sono nati dalla constatazione che i ricavi annui generati dalla pubblicità sui motori di ricerca sono piuttosto significativi (circa 45 dollari per utente per Google). I motori di ricerca di solidarietà si distinguono in particolare per il modo in cui distribuiscono il reddito generato. Alcuni motori come Ecosia poi devolveranno parte del ricavato ad un'unica causa, mentre motori come Lilo permettono agli utenti di Internet di scegliere quali progetti finanziare.
Consulta l'elenco dei motori di ricerca solidali.
Con il termine “motori verticali” si indica una pagina web o un servizio multimediale che offre ricerche specializzate in un ambito professionale o che è particolarmente mirato. Questo strumento di ricerca è specializzato in un settore particolare, come telecomunicazioni, diritto, biotecnologia, finanza (assicurazioni) o anche immobiliare. Il suo funzionamento generale si basa su un database costituito dai database di tutti i siti specializzati dell'attività mirata.
Questo tipo di motore viene utilizzato dai professionisti e rivolto al consumatore, il più delle volte con uno scopo economico che deriva dalla geolocalizzazione.
Esistono quindi elenchi e comparatori per il grande pubblico. Sono ora disponibili per tutte le attività: immobiliare, turismo, ricerca di lavoro, reclutamento, automobile, tempo libero, giochi.
L'esplosione del numero di contenuti di vario formato (dati, informazioni non strutturate, immagini, video, ecc.) disponibili nelle aziende le sta spingendo a dotarsi di un motore di ricerca interno.
Secondo uno studio condotto da MARKESS International in febbraio 2008, il 49% delle organizzazioni utilizza già un motore di ricerca aziendale e il 18% prevede di utilizzarlo entro il 2010. Questi motori di ricerca sono per lo più integrati in workstation o strumenti di gestione elettronica dei documenti , ma sono in un numero crescente di aziende in grado di coprire sia e contenuti aziendali esterni, o integrati in strumenti di gestione dei contenuti o soluzioni di business intelligence.
Tra i player che offrono motori di ricerca aziendali ci sono Google , Exalead , PolySpot o OpenSearchServer .
Le tecnologie di analisi del linguaggio, come la lemmatizzazione, l'estrazione di entità denominate, la classificazione e il clustering possono migliorare notevolmente il funzionamento dei motori di ricerca. Queste tecnologie consentono sia di migliorare la pertinenza dei risultati sia di coinvolgere l'utente di Internet in un processo di ricerca più efficiente, come nel caso della ricerca a faccette .
Secondo lo studio ADEME "Internet, e-mail, riduzione degli impatti" pubblicato suFebbraio 2014Andare direttamente all'indirizzo di un sito, sia digitando il suo indirizzo nel browser, sia facendolo registrare come "preferito" (piuttosto che ricercando il sito tramite un motore di ricerca) diviso per 4 le emissioni di gas serra .