Archivio Internet

Archivio Internet
Servitori del sito mirror della Bibliotheca Alexandrina
Servitori del sito mirror custodito presso la Bibliotheca Alexandrina
Creazione 1996
Fondatori Vedi il consiglio
Forma legale Organizzazione non profit
Slogan Accesso universale a tutta la conoscenza
La sede 300 Funston Avenue, distretto di Richmond , San Francisco , California USA
 
Direzione Julien masanes
Attività Archiviazione e conservazione del Web
Prodotti Archivio delle copertine ( d )
Partner Biblioteca pubblica digitale d'America
Efficace 200
Sito web archivio.org
Fatturato 14.000.000 di dollari USA (2015)

Internet Archive (o IA ) è un'organizzazione no-profit dedicata all'archiviazione web che funge anche da biblioteca digitale . Questi archivi elettronici sono costituiti da istantanee (copie di pagine prese in momenti diversi) di pagine web, software, filmati, libri e registrazioni audio.

Per garantire la stabilità e la sicurezza dei dati archiviati, presso la Bibliotheca Alexandrina in Egitto viene mantenuto un sito mirror funzionante . AI mette le sue collezioni a disposizione gratuita di ricercatori, storici e accademici. Situata nel distretto di Richmond , a sud del Presidio di San Francisco , è membro dell'American Library Association ed è ufficialmente riconosciuta come biblioteca dallo Stato della California .

Il web crawler utilizzato da IA ​​è Heritrix , software gratuito . Il software gratuito per la scansione dei libri è Scribe.

Storia

Internet Archive è stato fondato nel 1996 da Brewster Kahle . Per i loro obiettivi - la conservazione della conoscenza umana e l'accessibilità delle collezioni a tutti - i fondatori di IA paragonano questo progetto a quello più antico della Biblioteca di Alessandria .

Servizi di archiviazione Internet

Macchina del ritorno

La Wayback Machine è la parte istantanea del Web sviluppata da Internet Archive . Wayback Machine è stato creato da Brewster Kahle per archiviare e indicizzare qualsiasi cosa sul web. La Wayback Machine viene aggiornata con i contenuti di Alexa . Questo servizio permette agli utenti di vedere le versioni archiviate delle pagine web nel tempo: è l'“indice tridimensionale”.

Le istantanee sono disponibili da sei a dodici mesi dopo l'acquisizione. La frequenza delle istantanee varia, non tutti gli aggiornamenti del sito Web vengono registrati e possono essere osservati intervalli di diverse settimane.

Nel 2006, la Wayback Machine conteneva quasi due petabyte di dati. Il volume cresce al ritmo di 20  terabyte al mese, un aumento di due terzi rispetto ai dodici terabyte al mese che era il tasso di crescita del 2003. Tale crescita è superiore alla quantità di testo contenuta nelle più importanti biblioteche del world.world, inclusa la Library of Congress . Nel 2009, la Wayback Machine conteneva quasi tre petabyte di dati e il suo aumento è stato di 100 terabyte al mese. I dati sono archiviati in sistemi prodotti da Capricorne Technologies, rack Petabox.

Il nome "  Wayback Machine  " si riferisce agli episodi di The Rocky and Bullwinkle Show , dove Mr. Peabody, un cane professore e il suo assistente Sherman (un animale domestico umano), usano una macchina del tempo chiamata "WABAC Machine" per descrivere famosi eventi storici.

Nel 2015, la Russia avrebbe erroneamente bloccato l'intero sito di Wayback Machine .

Archive-It

Gli utenti che desiderano archiviare in modo permanente e immediato i propri dati possono usufruire, su abbonamento, del servizio Archive-It  (en) IA. I dati raccolti vengono periodicamente indicizzati dalla Wayback Machine . Neldicembre 2007, questo servizio aveva creato più di 230 milioni di URL per 466 collezioni pubbliche, comprese agenzie governative, università e istituzioni culturali.

Esempio di organizzazioni o istituzioni che partecipano ad Archive-It:

Collezioni

Oltre agli archivi web, i servizi di Internet Archive mantengono vaste raccolte di media digitali che sono di pubblico dominio o concessi in licenza per la ridistribuzione, come le licenze Creative Commons . I media sono organizzati in raccolte per tipologia (immagini in movimento, suoni, testi, ecc.) e in sotto raccolte secondo criteri diversi. Ogni raccolta principale comprende una sotto-raccolta comunitaria , in cui è possibile archiviare i contributi del grande pubblico.

Le sue collezioni comprendono (da 14 novembre 2007):

Immagini video

Oltre ai lungometraggi, la collezione di video dell'Internet Archive include notizie, classici dei fumetti , propaganda pro e contro la guerra e altro materiale effimero dagli Archivi Prelinger come spot pubblicitari, film educativi e industriali e raccolte di film amatoriali.

Esempi di raccolta:

  • Brickfilms ( link diretto ): raggruppa film d'animazione girati con i mattoncini Lego , alcuni dei quali sono cover di lungometraggi.
  • Election 2004  : è uno spazio pubblico e apartitico dedicato alla condivisione di materiale video relativo alle elezioni presidenziali statunitensi del 2004 .
  • Notizie indipendenti: include sottoraccolte come il concorso Internet Archive World At War del 2001 . Tra i più scaricati ci sono i video realizzati da testimoni oculari del terremoto nell'Oceano Indiano nel 2004. L' archivio televisivo dell'11 settembre contiene video di tutte le principali reti televisive del mondo relativi agli attacchi dell'11 settembre 2001 .

Esempio di un film francese:

Suoni

La raccolta audio è composta da musica, audiolibri, notiziari, vecchi programmi radiofonici e un'ampia varietà di altri file audio. La sotto-collezione Live Music Archive comprende 40.000 registrazioni di concerti di artisti indipendenti, nonché artisti più affermati e ensemble musicali con regole meno rigide sulla registrazione di concerti come i Grateful Dead .

testi

Questa raccolta riunisce testi del Progetto Gutenberg , testi di varie biblioteche di tutto il mondo, nonché una raccolta di documenti e note di ARPANET . Con oltre 7 milioni di libri, Internet Archive è la seconda biblioteca di libri digitali ad accesso aperto più grande al mondo dopo Google Books. Tutti i documenti digitalizzati e messi in linea da utenti Internet o istituzioni vengono oerizzati e convertiti in file EPUB per e-reader o MOBI per Kindle e godono di un'archiviazione permanente su molti server in tutto il mondo (California, Egitto, Cina, Paesi Bassi). ).

La Biblioteca Sainte-Geneviève è la prima biblioteca francese a partecipare al progetto damarzo 2010. In Francia, l'École des Ponts ParisTech (dalagosto 2012), l'Istituto nazionale di ricerca agraria (dal gennaio 2015), Sciences Po Paris (dal giugno 2015), la Biblioteca Interuniversitaria Sanitaria (dal gennaio 2018), partecipano anche la Biblioteca Universitaria di Lingue e Civiltà (da settembre 2019) e le Biblioteche dell'École normale supérieure (da dicembre 2020).

Libreria gratuita

Internet Archive è un membro dell'Open Content Alliance  (in) e gestisce la Open Library in cui sono disponibili online e stampabili più di 200.000 libri digitalizzati di pubblico dominio. Il sistema di scansione dei libri Scribe serve a questo scopo.

Durante la pandemia di coronavirus, Internet Archive mette a disposizione degli americani libri protetti da copyright in modo che possano studiare durante il confinamento. Diversi editori non sono d'accordo e Internet Archive sta ritirando l'accesso ai libri in questione su16 giugno 2020. Nonostante tutto, gli editori fanno causa al sito ed è previsto un processo per il 2021.

polemiche

Sito web di Scientology

Alla fine del 2002, Internet Archive ha cancellato vari siti critici nei confronti di Scientology identificati dalla Wayback Machine. Il messaggio di errore indica che è stato il risultato di una "richiesta del proprietario del sito". Successivamente è stato chiarito che gli avvocati della Chiesa di Scientology avevano chiesto la rimozione, senza alcun motivo legale, e che i proprietari di questi siti non volevano che le loro pagine venissero rimosse.

Gli archivi Internet come prova

Contenzioso civile negli Stati Uniti Telewizja Polska

Nel ottobre 2004, in un caso chiamato "  Telewizja Polska SA vs Echostar Satellite  ", un avvocato cerca di utilizzare gli archivi della Wayback Machine come fonte di prove ammissibili, probabilmente per la prima volta.

Telewizja Polska è il fornitore di TVP Polonia ed EchoStar che gestisce il Dish Network . In vista del processo, EchoStar ha affermato che intendeva utilizzare le istantanee della Wayback Machine come prova del contenuto passato dal sito di Telewizja Polska. Telewizja Polska ha presentato una mozione in limine  (in) per rimuovere le inquadrature giustificative per sentito dire e fonte non autenticata, ma il giudice Arlander Keys ha respinto le affermazioni di Telewizja Polska e ha rifiutato di escludere le prove al processo. Tuttavia, al momento del processo, il giudice della corte distrettuale Ronald Guzman in primo grado ha ribaltato le conclusioni del giudice Keys e ha concluso che né l'Archivio Internet né le pagine sottostanti (cioè il sito di Telewizja Polska) non erano ammissibili come prove. Il giudice Guzman ha stabilito che la stampa di una pagina web non era una prova dell'autenticazione delle informazioni.

Healthcare Advocates, Inc.

Nel 2003, Healthcare Advocates, Inc. è stata accusata di una causa per violazione del marchio. L'accusa ha tentato di utilizzare materiale Internet archiviato accessibile tramite Internet Archive. Dopo aver perso questa causa, la società ha cercato di citare in giudizio Internet Archive per violazione del DMCA e del Computer Fraud and Abuse Act . Hanno sostenuto che dal momento che hanno installato un file robots.txt sul loro sito Web, avrebbe dovuto essere evitato dal bot AI. La prima denuncia è stata depositata il26 giugno 2003e hanno aggiunto il file robots.txt, il 8 luglio 2003, le pagine da ritirare retroattivamente. Il processo è stato risolto in via extragiudiziale.

Robots.txt viene utilizzato come parte del Robots Exclusion Standard , uno standard volontario applicato da IA ​​che vieta ai robot di indicizzare determinate pagine contrassegnate dal creatore come vietate. Di conseguenza, l'IA ha rimosso una serie di siti Web che ora sono inaccessibili tramite Wayback Machine. Ciò è a volte dovuto a un nuovo proprietario che ha inserito un file robots.txt che vieta l'indicizzazione del sito. Gli amministratori affermano che stanno lavorando su un sistema che consentirà l'accesso agli archivi precedenti escludendo gli elementi creati dopo aver aggiunto il file.

Nel 2006, IA ha applicato retroattivamente la regola Robots.txt. Se un sito blocca IA, come Healthcare Advocates, vengono eliminate anche tutte le pagine precedentemente archiviate da quel dominio. In caso di siti bloccati, viene archiviato solo il file robots.txt. Questa pratica sembra essere dannosa per i ricercatori che accedono alle informazioni disponibili in passato.

Tuttavia, IA afferma anche che "a volte il proprietario di un sito Web ci contatta direttamente e ci chiede di interrompere l'indicizzazione o l'archiviazione di un sito. Rispettiamo queste richieste. Hanno anche spiegato che "Internet Archive non è interessato a preservare o fornire accesso a siti Web o altro materiale Internet di proprietà di persone che non vorrebbero che il loro materiale fosse archiviato" .

Normativa brevetti

L' Ufficio Brevetti degli Stati Uniti e, a condizione che siano soddisfatti ulteriori requisiti (ad esempio fornendo una dichiarazione ufficiale dell'archivista), l' Ufficio Brevetti Europeo accetterà una datazione dall'Internet Archive come prova della pubblicazione di una pagina web. Queste date vengono utilizzate per determinare se una pagina Web è disponibile prima, ad esempio, della data di deposito di una domanda di brevetto.

Diritto d'autore

Grato Morto

Nel novembre 2005, il download gratuito dei concerti dei Grateful Dead è stato rimosso dal sito. John Perry Barlow ha identificato Bob Weir , Mickey Hart e Bill Kreutzmann come gli istigatori di questo cambiamento. Il30 novembre, un post sul forum di Brewster Kahle ha riassunto quello che sembra essere il compromesso raggiunto tra i membri della band. I concerti dal vivo possono essere scaricati o ascoltati e le registrazioni saranno disponibili solo per l'ascolto. Da allora sono stati aggiunti concerti.

Suzanne Shell

Il 12 dicembre 2005, l'attivista Suzanne Shell  (in) ha rivendicato la somma di 100.000  dollari per l'archiviazione del suo sito “profane-justice.org” tra il 1999 e il 2004.20 gennaio 2006, Internet Archive ha presentato un'azione giudiziaria dichiarativa nel distretto della California settentrionale, chiedendo alla corte di stabilire che IA non ha violato il copyright di Shell.

Shell ha risposto e ha presentato un'altra denuncia contro IA per aver archiviato il suo sito, accusando la violazione dei suoi termini di servizio. Il13 febbraio 2007, un giudice distrettuale del Colorado ha respinto tutte le richieste tranne la violazione del contratto.

Il 25 aprile 2007, IA e Shell hanno annunciato congiuntamente la risoluzione della loro controversia. IA ha affermato: “L'Internet Archive non ha interesse a inserire informazioni nella Wayback Machine di persone che non vogliono vedere i propri contenuti web archiviati. Riconosciamo che M me Shell ha un copyright valido e applicabile nel suo sito e ci rammarichiamo che la registrazione del suo sito nella Wayback Machine abbia portato a questo contenzioso. Siamo felici di avere questo caso alle spalle. " Shell ha detto: " Io rispetto l'obiettivo e il valore storico di Internet Archive. Non ho mai avuto intenzione di interferire con questo obiettivo o causare danni. "

Situazione del diritto d'autore in Europa

In Europa, la Wayback Machine può a volte violare le leggi sul copyright. Solo il creatore può decidere dove il suo contenuto viene pubblicato o riprodotto, le pagine dovrebbero essere rimosse dagli archivi su richiesta del creatore.

concorrenti

In Europa European Internet Archive è un concorrente.

Note e riferimenti

  1. "  https://projects.propublica.org/nonprofits/organizations/943242767  "
  2. Archivio Internet presso la Nuova Biblioteca di Alessandria .
  3. (in) Internet Archive officiellement a library , 2 maggio 2007
  4. (it) Software Scribe
  5. Judy Tong, “  Parte responsabile - Brewster Kahle; Una biblioteca del web, sul web  ” , The New York Times ,8 settembre 2002
  6. (in) Una biblioteca grande come il mondo - Heather Green, BusinessWeek , 28 febbraio 2002
  7. "  The Wayback Machine, una vittima del blocco eccessivo della Russia  " , ZDNet (consultato il 30 giugno 2015 )
  8. (in) Preservare l'unico gruppo Web alla volta - Stefanie Olsen, CNET , 1 ° maggio 2006
  9. La memoria del Web è su Archive.org, che elenca circa 65 milioni di siti - Le Monde , 14 novembre 2007
  10. Mathieu Andro, Emmanuelle Asselin, Marc Maisonneuve (2012), Librerie digitali: software e piattaforme , Parigi, ADBS.
  11. https://archive.org/details/bibliothequesaintegenevieve
  12. https://archive.org/details/ecole-des-ponts
  13. https://archive.org/details/inra
  14. https://archive.org/details/sciencespo
  15. https://archive.org/details/bibliothequeinteruniversitairedesante
  16. https://archive.org/details/bulac?tab=about
  17. https://archive.org/details/bibliotheques-ecole-normale-superieure-images?tab=about
  18. (in) Internet Archive sostiene i progressi contro l'iniziativa per le biblioteche di Google - Antone Gonsalves, InformationWeek , 20 dicembre 2006
  19. (in) The Open Library fa il suo debutto online - Chronicle of Higher Education , The Wired Campus , 9 luglio 2007
  20. (in) Stefanie Olsen, open source Un rivale del progetto libro di Google - CNET , 26 ottobre 2005
  21. (en) Maria Bustillos, "Gli  editori portano Internet in tribunale  " ,10 settembre 2020.
  22. (in) L'archivio di rete mette a tacere il critico di Scientology - Lisa M. Bowman, CNET 24 settembre 2002
  23. (in) Esclusioni dalla Wayback Machine - 23 settembre 2002
  24. (in) Sherman, imposta la Wayback Machine for Scientology [{} archiveurl Archive] su WebCite il22 luglio 2018 - Ernest Miller, 24 settembre
  25. (in) Istantanee della pagina Web di Internet Archive ritenute come prova ammissibile - Lauren Gelman, pacchetto 2 (3) 17 novembre 2004
  26. (in) Proving Web History: How to use the Internet Archive - Beryl A. Howell, Journal of Internet Law 3-9 , febbraio 2006 [PDF]
  27. (in) Sito Web di Jessica Dye citato in giudizio per un viaggio controverso nel passato di Internet , EContent , 28 (11): 8-9, 2005
  28. (in) Internet Archive risolve la causa su Wayback Machine - Eric Bangeman, Ars Technica , 31 agosto 2006
  29. (in) Wrath of Deadheads bancarelle in giro di vite Web - Jeff Leeds e Jesse Fox Mayshark, International Herald Tribune , 1 ° dicembre 2005
  30. (in) Buona Novella e l'anno Apologia: GD su Internet Archive - Brewster Kahle e Matt Vernon, Musica dal vivo Archivio Forum, 1 ° dicembre 2005
  31. (in) Internet Archive v. Shell - Lewis T. Babcock, azione civile n. 06cv01726LTBCBS, 13 febbraio 2007 [PDF]
  32. (in) Colorado Woman fa causa per tenere i web crawler ai contratti - Thomas Claburn, InformationWeek , 16 marzo 2007
  33. (in) "  Internet Archive v. Suzanne Shell  ” ( ArchivioWikiwixArchive.isGoogle • Cosa fare? ) - Martin Samson, via Phillips Nizer LLP
  34. (in) Internet Archive e Suzanne Shell stabiliscono la causa , 25 aprile 2007
  35. (de) The Wayback Machine e Google Cache - eine Verletzung deutschen Urheberrechts? , Martin Bahr, 14 gennaio 2002, Internet-Zeitschrift für Rechtsinformatik und Informationsrecht: JurPC
  36. https://www.nextinpact.com/lebrief/46192/european-internet-archive-se-lance

Vedi anche

Bibliografia

  • (it) S. Aya, WYArms, L. Walle, B. Kot, R. Mitchell e P. Dmitriev, "Una biblioteca di ricerca basata sulle collezioni storiche di Internet Archive", rivista D-Lib , 12 (2) , 4, 2006
  • (it) S. Hackett, B. Parmanto e X. Zeng, “Accessibilità dei siti Internet nel tempo”, In ACM SIGACCESS Accessibility and Computing n o  77-78, ACM, 2004, pp.  32-39
  • (it) E. Jaffe, E. e S. Kirkpatrick, "Architecture of the internet archive", In Proceedings of SYSTOR 2009: The Israeli Experimental Systems Conference , ACM, 2009, p.  11
  • (it) B. Kahle, L'archivio Internet , 2012
  • (it) C. McKay, Ephemeral to enduring: the Internet Archive e il suo ruolo nella conservazione dei media digitali , Information Technology and Libraries, 23 (1), 3, 2004
  • (it) T. Schwarz, M. Baker, S. Bassi, B. Baumgart, W. Flagg, C. van Ingen, ... e M. Shah, "Indagini sull'errore del disco nell'archivio Internet", In Work-in -Progess session , NASA/IEEE Conference on Mass Storage Systems and Technologies (MSST2006), 2006

link esterno