Archivio Internet | |
Servitori del sito mirror custodito presso la Bibliotheca Alexandrina | |
Creazione | 1996 |
---|---|
Fondatori | Vedi il consiglio |
Forma legale | Organizzazione non profit |
Slogan | Accesso universale a tutta la conoscenza |
La sede | 300 Funston Avenue, distretto di Richmond , San Francisco , California USA |
Direzione | Julien masanes |
Attività | Archiviazione e conservazione del Web |
Prodotti | Archivio delle copertine ( d ) |
Partner | Biblioteca pubblica digitale d'America |
Efficace | 200 |
Sito web | archivio.org |
Fatturato | 14.000.000 di dollari USA (2015) |
Internet Archive (o IA ) è un'organizzazione no-profit dedicata all'archiviazione web che funge anche da biblioteca digitale . Questi archivi elettronici sono costituiti da istantanee (copie di pagine prese in momenti diversi) di pagine web, software, filmati, libri e registrazioni audio.
Per garantire la stabilità e la sicurezza dei dati archiviati, presso la Bibliotheca Alexandrina in Egitto viene mantenuto un sito mirror funzionante . AI mette le sue collezioni a disposizione gratuita di ricercatori, storici e accademici. Situata nel distretto di Richmond , a sud del Presidio di San Francisco , è membro dell'American Library Association ed è ufficialmente riconosciuta come biblioteca dallo Stato della California .
Il web crawler utilizzato da IA è Heritrix , software gratuito . Il software gratuito per la scansione dei libri è Scribe.
Internet Archive è stato fondato nel 1996 da Brewster Kahle . Per i loro obiettivi - la conservazione della conoscenza umana e l'accessibilità delle collezioni a tutti - i fondatori di IA paragonano questo progetto a quello più antico della Biblioteca di Alessandria .
La Wayback Machine è la parte istantanea del Web sviluppata da Internet Archive . Wayback Machine è stato creato da Brewster Kahle per archiviare e indicizzare qualsiasi cosa sul web. La Wayback Machine viene aggiornata con i contenuti di Alexa . Questo servizio permette agli utenti di vedere le versioni archiviate delle pagine web nel tempo: è l'“indice tridimensionale”.
Le istantanee sono disponibili da sei a dodici mesi dopo l'acquisizione. La frequenza delle istantanee varia, non tutti gli aggiornamenti del sito Web vengono registrati e possono essere osservati intervalli di diverse settimane.
Nel 2006, la Wayback Machine conteneva quasi due petabyte di dati. Il volume cresce al ritmo di 20 terabyte al mese, un aumento di due terzi rispetto ai dodici terabyte al mese che era il tasso di crescita del 2003. Tale crescita è superiore alla quantità di testo contenuta nelle più importanti biblioteche del world.world, inclusa la Library of Congress . Nel 2009, la Wayback Machine conteneva quasi tre petabyte di dati e il suo aumento è stato di 100 terabyte al mese. I dati sono archiviati in sistemi prodotti da Capricorne Technologies, rack Petabox.
Il nome " Wayback Machine " si riferisce agli episodi di The Rocky and Bullwinkle Show , dove Mr. Peabody, un cane professore e il suo assistente Sherman (un animale domestico umano), usano una macchina del tempo chiamata "WABAC Machine" per descrivere famosi eventi storici.
Nel 2015, la Russia avrebbe erroneamente bloccato l'intero sito di Wayback Machine .
Gli utenti che desiderano archiviare in modo permanente e immediato i propri dati possono usufruire, su abbonamento, del servizio Archive-It (en) IA. I dati raccolti vengono periodicamente indicizzati dalla Wayback Machine . Neldicembre 2007, questo servizio aveva creato più di 230 milioni di URL per 466 collezioni pubbliche, comprese agenzie governative, università e istituzioni culturali.
Esempio di organizzazioni o istituzioni che partecipano ad Archive-It:
Oltre agli archivi web, i servizi di Internet Archive mantengono vaste raccolte di media digitali che sono di pubblico dominio o concessi in licenza per la ridistribuzione, come le licenze Creative Commons . I media sono organizzati in raccolte per tipologia (immagini in movimento, suoni, testi, ecc.) e in sotto raccolte secondo criteri diversi. Ogni raccolta principale comprende una sotto-raccolta comunitaria , in cui è possibile archiviare i contributi del grande pubblico.
Le sue collezioni comprendono (da 14 novembre 2007):
Oltre ai lungometraggi, la collezione di video dell'Internet Archive include notizie, classici dei fumetti , propaganda pro e contro la guerra e altro materiale effimero dagli Archivi Prelinger come spot pubblicitari, film educativi e industriali e raccolte di film amatoriali.
Esempi di raccolta:
Esempio di un film francese:
SuoniLa raccolta audio è composta da musica, audiolibri, notiziari, vecchi programmi radiofonici e un'ampia varietà di altri file audio. La sotto-collezione Live Music Archive comprende 40.000 registrazioni di concerti di artisti indipendenti, nonché artisti più affermati e ensemble musicali con regole meno rigide sulla registrazione di concerti come i Grateful Dead .
testiQuesta raccolta riunisce testi del Progetto Gutenberg , testi di varie biblioteche di tutto il mondo, nonché una raccolta di documenti e note di ARPANET . Con oltre 7 milioni di libri, Internet Archive è la seconda biblioteca di libri digitali ad accesso aperto più grande al mondo dopo Google Books. Tutti i documenti digitalizzati e messi in linea da utenti Internet o istituzioni vengono oerizzati e convertiti in file EPUB per e-reader o MOBI per Kindle e godono di un'archiviazione permanente su molti server in tutto il mondo (California, Egitto, Cina, Paesi Bassi). ).
La Biblioteca Sainte-Geneviève è la prima biblioteca francese a partecipare al progetto damarzo 2010. In Francia, l'École des Ponts ParisTech (dalagosto 2012), l'Istituto nazionale di ricerca agraria (dal gennaio 2015), Sciences Po Paris (dal giugno 2015), la Biblioteca Interuniversitaria Sanitaria (dal gennaio 2018), partecipano anche la Biblioteca Universitaria di Lingue e Civiltà (da settembre 2019) e le Biblioteche dell'École normale supérieure (da dicembre 2020).
Internet Archive è un membro dell'Open Content Alliance (in) e gestisce la Open Library in cui sono disponibili online e stampabili più di 200.000 libri digitalizzati di pubblico dominio. Il sistema di scansione dei libri Scribe serve a questo scopo.
Durante la pandemia di coronavirus, Internet Archive mette a disposizione degli americani libri protetti da copyright in modo che possano studiare durante il confinamento. Diversi editori non sono d'accordo e Internet Archive sta ritirando l'accesso ai libri in questione su16 giugno 2020. Nonostante tutto, gli editori fanno causa al sito ed è previsto un processo per il 2021.
Alla fine del 2002, Internet Archive ha cancellato vari siti critici nei confronti di Scientology identificati dalla Wayback Machine. Il messaggio di errore indica che è stato il risultato di una "richiesta del proprietario del sito". Successivamente è stato chiarito che gli avvocati della Chiesa di Scientology avevano chiesto la rimozione, senza alcun motivo legale, e che i proprietari di questi siti non volevano che le loro pagine venissero rimosse.
Nel ottobre 2004, in un caso chiamato " Telewizja Polska SA vs Echostar Satellite ", un avvocato cerca di utilizzare gli archivi della Wayback Machine come fonte di prove ammissibili, probabilmente per la prima volta.
Telewizja Polska è il fornitore di TVP Polonia ed EchoStar che gestisce il Dish Network . In vista del processo, EchoStar ha affermato che intendeva utilizzare le istantanee della Wayback Machine come prova del contenuto passato dal sito di Telewizja Polska. Telewizja Polska ha presentato una mozione in limine (in) per rimuovere le inquadrature giustificative per sentito dire e fonte non autenticata, ma il giudice Arlander Keys ha respinto le affermazioni di Telewizja Polska e ha rifiutato di escludere le prove al processo. Tuttavia, al momento del processo, il giudice della corte distrettuale Ronald Guzman in primo grado ha ribaltato le conclusioni del giudice Keys e ha concluso che né l'Archivio Internet né le pagine sottostanti (cioè il sito di Telewizja Polska) non erano ammissibili come prove. Il giudice Guzman ha stabilito che la stampa di una pagina web non era una prova dell'autenticazione delle informazioni.
Healthcare Advocates, Inc.Nel 2003, Healthcare Advocates, Inc. è stata accusata di una causa per violazione del marchio. L'accusa ha tentato di utilizzare materiale Internet archiviato accessibile tramite Internet Archive. Dopo aver perso questa causa, la società ha cercato di citare in giudizio Internet Archive per violazione del DMCA e del Computer Fraud and Abuse Act . Hanno sostenuto che dal momento che hanno installato un file robots.txt sul loro sito Web, avrebbe dovuto essere evitato dal bot AI. La prima denuncia è stata depositata il26 giugno 2003e hanno aggiunto il file robots.txt, il 8 luglio 2003, le pagine da ritirare retroattivamente. Il processo è stato risolto in via extragiudiziale.
Robots.txt viene utilizzato come parte del Robots Exclusion Standard , uno standard volontario applicato da IA che vieta ai robot di indicizzare determinate pagine contrassegnate dal creatore come vietate. Di conseguenza, l'IA ha rimosso una serie di siti Web che ora sono inaccessibili tramite Wayback Machine. Ciò è a volte dovuto a un nuovo proprietario che ha inserito un file robots.txt che vieta l'indicizzazione del sito. Gli amministratori affermano che stanno lavorando su un sistema che consentirà l'accesso agli archivi precedenti escludendo gli elementi creati dopo aver aggiunto il file.
Nel 2006, IA ha applicato retroattivamente la regola Robots.txt. Se un sito blocca IA, come Healthcare Advocates, vengono eliminate anche tutte le pagine precedentemente archiviate da quel dominio. In caso di siti bloccati, viene archiviato solo il file robots.txt. Questa pratica sembra essere dannosa per i ricercatori che accedono alle informazioni disponibili in passato.
Tuttavia, IA afferma anche che "a volte il proprietario di un sito Web ci contatta direttamente e ci chiede di interrompere l'indicizzazione o l'archiviazione di un sito. Rispettiamo queste richieste. Hanno anche spiegato che "Internet Archive non è interessato a preservare o fornire accesso a siti Web o altro materiale Internet di proprietà di persone che non vorrebbero che il loro materiale fosse archiviato" .
Normativa brevettiL' Ufficio Brevetti degli Stati Uniti e, a condizione che siano soddisfatti ulteriori requisiti (ad esempio fornendo una dichiarazione ufficiale dell'archivista), l' Ufficio Brevetti Europeo accetterà una datazione dall'Internet Archive come prova della pubblicazione di una pagina web. Queste date vengono utilizzate per determinare se una pagina Web è disponibile prima, ad esempio, della data di deposito di una domanda di brevetto.
Nel novembre 2005, il download gratuito dei concerti dei Grateful Dead è stato rimosso dal sito. John Perry Barlow ha identificato Bob Weir , Mickey Hart e Bill Kreutzmann come gli istigatori di questo cambiamento. Il30 novembre, un post sul forum di Brewster Kahle ha riassunto quello che sembra essere il compromesso raggiunto tra i membri della band. I concerti dal vivo possono essere scaricati o ascoltati e le registrazioni saranno disponibili solo per l'ascolto. Da allora sono stati aggiunti concerti.
Suzanne ShellIl 12 dicembre 2005, l'attivista Suzanne Shell (in) ha rivendicato la somma di 100.000 dollari per l'archiviazione del suo sito “profane-justice.org” tra il 1999 e il 2004.20 gennaio 2006, Internet Archive ha presentato un'azione giudiziaria dichiarativa nel distretto della California settentrionale, chiedendo alla corte di stabilire che IA non ha violato il copyright di Shell.
Shell ha risposto e ha presentato un'altra denuncia contro IA per aver archiviato il suo sito, accusando la violazione dei suoi termini di servizio. Il13 febbraio 2007, un giudice distrettuale del Colorado ha respinto tutte le richieste tranne la violazione del contratto.
Il 25 aprile 2007, IA e Shell hanno annunciato congiuntamente la risoluzione della loro controversia. IA ha affermato: “L'Internet Archive non ha interesse a inserire informazioni nella Wayback Machine di persone che non vogliono vedere i propri contenuti web archiviati. Riconosciamo che M me Shell ha un copyright valido e applicabile nel suo sito e ci rammarichiamo che la registrazione del suo sito nella Wayback Machine abbia portato a questo contenzioso. Siamo felici di avere questo caso alle spalle. " Shell ha detto: " Io rispetto l'obiettivo e il valore storico di Internet Archive. Non ho mai avuto intenzione di interferire con questo obiettivo o causare danni. "
Situazione del diritto d'autore in EuropaIn Europa, la Wayback Machine può a volte violare le leggi sul copyright. Solo il creatore può decidere dove il suo contenuto viene pubblicato o riprodotto, le pagine dovrebbero essere rimosse dagli archivi su richiesta del creatore.
In Europa European Internet Archive è un concorrente.