Sviluppato da | Doug Cutting |
---|---|
Ultima versione | 2.4 (11 ottobre 2019) |
Depositare | github.com/apache/nutch |
Scritto in | Giava |
Sistema operativo | Multi piattaforma |
Ambiente | Windows , Mac OS X , GNU / Linux |
Leggi i formati | WARC ( in ) |
Formati scritti | WARC ( in ) |
genere | motore di ricerca open source |
Licenza | Licenza Apache |
Sito web | nutch.apache.org |
Nutch è un'iniziativa per costruire un motore di ricerca open source . Utilizza Lucene come motore di ricerca e libreria di indicizzazione. D'altra parte, il robot di raccolta è stato creato appositamente per questo progetto.
L'architettura di Nutch è altamente modulare e consente agli sviluppatori di creare plug-in per diverse fasi del processo: recupero dei dati, analisi dei documenti, ricerca, ecc.
Doug Cutting è l'iniziatore e il coordinatore di questo progetto.
È interamente sviluppato in linguaggio Java , ma i dati che manipola sono in un formato dati indipendente da qualsiasi linguaggio di programmazione. NelGiugno 2003 è stata presentata una versione operativa di una dimostrazione di Nutch su un database che raccoglie 100 milioni di documenti.
Creative Commons ha inaugurato nel 2004 una versione beta del suo motore di ricerca che setaccia il web alla ricerca di testo, audio e video, indicizzando a quella data un milione di pagine; tutto questo può essere riutilizzato liberamente secondo i termini delle licenze rese disponibili sul loro sito web.
Il loro motore di ricerca è basato sul Resource Description Framework (RDF) che utilizza il meta-linguaggio XML , standardizzato dal World Wide Web Consortium (W3C).
Questa versione coincide con quella del browser web Mozilla Firefox nella sua versione 1.0, rendendo così possibile la ricerca di contenuti gratuiti.
Nel gennaio 2005, Nutch è un progetto di due anni che è stato inizialmente ospitato da Sourceforge e supportato dalla propria organizzazione senza scopo di lucro. Questa organizzazione è stata fondata per proteggere il progetto e per poter mantenere il diritto di cambiare la licenza. Il team ha deciso che la licenza Apache era la più appropriata per Nutch e che non avevano più bisogno dell'aiuto di un'organizzazione esterna. Leader e sviluppatori sono ora supportati da Apache Foundation .
Dopo cinque mesi di incubazione, Nutch diventa un sottoprogetto di Lucene .
Pubblicato il 1 ° giugno 2004, la studio di Lyle Benedetto confronta i risultati del famoso Google e la sua controparte libera Nutch all'interno del sito web dell'Università quadro limitata dello Stato di Oregon su una base di 100 richieste. Ad esempio, su punteggi compresi tra 0 e 10, dove 10 è il punteggio migliore, ha trovato 28 richieste per le quali Nutch e Google hanno ottenuto il punteggio massimo .
I contributi si basano sul merito e sul karma . I contributori dovrebbero iscriversi a una mailing list per scoprire chi sta facendo cosa e inviare una breve e-mail per far sapere agli altri cosa faranno. Quando il lavoro è finito, il pezzo di codice viene inviato alla mailing list (o allegato a una segnalazione di bug) in modo che ogni collaboratore possa esaminarne la qualità e la rilevanza .
I criteri di accettazione sono:
Se tutto è corretto, il pezzo di codice viene inserito dagli sviluppatori nel database sorgente e diventa parte di Nutch.
Nel dicembre 2006, il governo del Quebec ha optato per Nutch come motore di ricerca per individuare tutti i suoi siti sulla base di una preselezione. Ad oggi sono indicizzati più di 400 siti e 500.000 documenti .
Di Settembre 2004 a gennaio 2010, Oregon State University ha sostituito il suo hub di ricerca di Google con Nutch. Ciò ha consentito di ottenere notevoli riduzioni dei costi e di promuovere la trasparenza di questo motore di ricerca. Questa riduzione è stata stimata in $ 100.000 all'anno secondo l'Open Source Lab .