Web semantico

Il Semantic Web , o web semantic , è un'estensione del Web standardizzata dal World Wide Web Consortium (W3C). Questi standard incoraggiano l'uso di formati di dati standardizzati e protocolli di scambio sul Web, basati sul modello Resource Description Framework (RDF).

Il Web semantico viene chiamato da alcuni Web 3.0.

Secondo il W3C, "Il Semantic Web fornisce un modello che consente di condividere e riutilizzare i dati tra più applicazioni, aziende e gruppi di utenti" . La frase è stata coniata da Tim Berners-Lee (inventore del Web e direttore del W3C), che sovrintende allo sviluppo delle comuni tecnologie del Web semantico. Lo definisce come “una rete di dati che può essere elaborata direttamente e indirettamente dalle macchine per aiutare i propri utenti a creare nuova conoscenza” . Per raggiungere questo obiettivo, il Web semantico implementa il Web of Data che consiste nel collegare e strutturare informazioni su Internet al fine di accedere semplicemente alla conoscenza che già contiene.

Mentre i suoi detrattori hanno messo in dubbio la sua fattibilità, i suoi promotori sostengono che le applicazioni fatte dai ricercatori nell'industria , nella biologia e nelle scienze umane hanno già dimostrato la validità di questo nuovo concetto. L'articolo originale del 2001 di Tim Berners-Lee su Scientific American descriveva un'evoluzione prevista dal web esistente a un web semantico, ma ciò deve ancora accadere. Nel 2006, Tim Berners-Lee e i suoi colleghi hanno affermato: "Questa semplice idea... rimane in gran parte inutilizzata. "

Storia

Il concetto di " rete semantica modello " è stato coniato negli anni '60 dallo scienziato cognitivo Allan Collins , dal linguista Ross Quillian (in) e dalla psicologa Elizabeth Loftus ed esposto in varie pubblicazioni come un modo di rappresentare la conoscenza strutturata. Applicato al contesto di internet, questo modello estende la hyperlink rete di umani leggibili le pagine web inserendo leggibile dalla macchina metadati sulle pagine. Questi metadati sono collegati tra loro, consentendo agli agenti di accedere al Web in modo più intelligente ed eseguire attività per conto degli utenti. Il web semantico è visto come un gateway per accedere ai dati tra diverse applicazioni e sistemi. Le sue applicazioni sono numerose nell'editoria, nei blog e in molti altri campi.

Tim Berners-Lee ha originariamente espresso il punto di vista del Web semantico come segue:

Ho un sogno per il Web [in cui i computer] diventano in grado di analizzare tutti i dati sul Web: il contenuto, i collegamenti e le transazioni tra persone e computer. Un "Web semantico", che dovrebbe renderlo possibile, deve ancora emergere, ma quando lo farà, i meccanismi quotidiani del commercio, della burocrazia e della nostra vita quotidiana saranno gestiti da macchine che parlano con macchine. Gli "agenti intelligenti" che le persone hanno propagandato per secoli finalmente si materializzeranno.

- Tim Berners-Lee, Weaving the Web

“Sogno un Web [in cui i computer] diventino in grado di analizzare tutti i dati sul Web: contenuti, collegamenti e transazioni tra persone e computer. Non è ancora emerso un "Web semantico", che dovrebbe renderlo possibile, ma quando lo farà, il lavoro quotidiano del commercio, dell'amministrazione e della nostra vita quotidiana sarà elaborato da macchine che dialogano con le altre macchine. Gli "agenti intelligenti" che sono stati propagandati a lungo si sarebbero finalmente materializzati. "

- Tessere il Web

La maggior parte delle tecnologie offerte dal W3C esisteva già in precedenza. Questi sono utilizzati in diversi contesti, in particolare quelli relativi a informazioni che abbracciano un dominio limitato e definito, e dove la condivisione dei dati è una necessità comune, come la ricerca scientifica o lo scambio di dati tra organizzazioni. Inoltre, sono emerse altre tecnologie con finalità simili, come i microformati .

Lo scopo principale del Web semantico è guidare l'evoluzione del Web per consentire agli utenti senza intermediari di trovare, condividere e combinare più facilmente le informazioni. Gli esseri umani sono in grado di utilizzare il web per svolgere compiti come trovare la parola Parigi per prenotare un libro in biblioteca, trovare una mappa e prenotare un biglietto di trasporto. Tuttavia, le macchine non possono svolgere tutte queste attività senza la guida umana, poiché le pagine Web sono progettate per essere lette principalmente dalle persone. Il Semantic Web mira a rendere le pagine esplorabili dagli umani così come dalle macchine. Ciò consentirebbe di svolgere il lavoro noioso e ripetitivo di recupero delle informazioni in modo automatizzato, migliorando e consolidando le informazioni sul Web per i suoi utenti.

Il Semantic Web, come era originariamente inteso, è un sistema che consente alle macchine di “capire” e rispondere a richieste umane complesse secondo il loro significato. Tale "comprensione" richiede che le relative fonti di informazione siano state strutturate semanticamente in anticipo. Questa struttura accessibile per le macchine consente una capacità di discovery molto maggiore di quanto è possibile semplicemente con il Web dei documenti. L'utilizzo di RDF per strutturare questi dati consente di sfruttare le prestazioni della macchina; la loro capacità di elaborare i dati consente di studiare le informazioni ottenute da questi dati per trarre nuove conclusioni dalle conoscenze esistenti. Con l'ausilio di RDF, i documenti prodotti in HTML diventano dati che, attraverso il lavoro congiunto di macchine e utenti, producono nuova conoscenza.

Spesso le espressioni " semantica ", " metadati ", " ontologie " e "Web semantico" sono usate in modo incoerente. In particolare, vengono utilizzati quotidianamente da ricercatori e professionisti la cui terminologia copre un ampio panorama di tecnologie, concetti e campi di applicazione. Inoltre, c'è confusione tra le tecnologie considerate per implementarlo e il movimento del web semantico. In un documento presentato da Gerber, Barnard e Van der Merwe viene disegnato il panorama del Web semantico e viene presentato un breve riassunto dei termini correlati e delle tecnologie abilitanti. Il modello architettonico proposto da Tim Berners-Lee viene utilizzato come base per rappresentare lo stato delle tecnologie attuali ed emergenti.

Soluzioni portate dal web semantico ai limiti dell'HTML

Esempio

Nell'esempio seguente, il testo “Paul Schuster è nato a Dresda” su una pagina web sarà annotato collegando la persona al suo luogo di nascita. Il pezzo di codice HTML visualizzato di seguito mostra come descrivere un mini-grafico utilizzando la sintassi RDFa con il vocabolario di Schema.org e un identificatore Wikidata :

<div vocab="http://schema.org/" typeof="Person"> <span property="name">Paul Schuster</span> est né à <span property="birthPlace" typeof="Place" href="http://www.wikidata.org/entity/Q1731"> <span property="name">Dresde</span>. </span> </div>

Questo esempio definisce le seguenti cinque triple ( in ), visualizzate in formato Turtle . Ogni tripletta rappresenta un arco del grafo generato: il suo primo elemento (il soggetto) è il nome del nodo da cui parte l'arco, il secondo elemento (il predicato) indica il tipo di arco, e l'ultimo (l'oggetto) è il nome del nodo di destinazione o un valore letterale (testo, numero, ecc.).

_:a <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> . _:a <http://schema.org/name> "Paul Schuster" . _:a <http://schema.org/birthPlace> <http://www.wikidata.org/entity/Q1731> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/itemtype> <http://schema.org/Place> . <http://www.wikidata.org/entity/Q1731> <http://schema.org/name> "Dresde" .

Limitazioni dell'HTML

Molti file su un computer possono essere più o meno classificati in due categorie: documenti leggibili dall'uomo e dati leggibili da una macchina. Documenti come e-mail , rapporti o opuscoli sono leggibili dall'uomo. I dati contenuti in calendari, rubriche, liste di lettura o fogli di calcolo, invece, sono leggibili a patto di utilizzare un'applicazione che ne consenta la lettura, la ricerca e la trasformazione in modi diversi.

Attualmente, il World Wide Web si basa principalmente su documenti scritti in Hypertext Markup Language (HTML) , ovvero una convenzione di markup utilizzata per codificare il testo intervallato da oggetti multimediali come immagini e moduli interattivi. I tag dei metadati forniscono un metodo con cui i computer possono classificare il contenuto delle pagine web; per esempio :

Con HTML e uno strumento di visualizzazione (che potrebbe essere un browser web o un altro "user agent" ), puoi creare e presentare una pagina che mostra gli articoli in vendita. L'HTML per una pagina di catalogo può essere fatto semplicemente, il documento contenente affermazioni come "il titolo di questo documento è 'Gadgets Supermarket'", ma il codice HTML non è in grado di affermare in modo univoco che, ad esempio, il numero di articolo X586172 è una tabella con un prezzo di $ 199 , né è un prodotto di consumo. L'HTML può solo dire che l'intervallo di testo "X586172" è qualcosa che dovrebbe essere posizionato vicino a "Mobili" e "199 € ", ecc. Non c'è modo di dire che "questa è una pagina di catalogo", e nemmeno dire che "Mobili" è una specie di titolo, e nemmeno di sapere che "199 € " è un prezzo. Non c'è modo di esprimere che queste informazioni siano collegate tra loro per descrivere un elemento discreto , distinto da altri elementi che possono essere elencati nella stessa pagina.

L'HTML semantico si riferisce all'uso di tag HTML per inserire informazioni aggiuntive nel documento. Ad esempio, utilizzando l'elemento HTML che deldesigna il contenuto eliminato anziché strikevisualizzare solo il testo barrato e specificarne solo la formattazione. L'HTML semantico lascia il layout al browser aggiungendo fogli di stile a cascata . Ma questa pratica raggiunge i suoi limiti quando si tratta di specificare la semantica di oggetti come gli articoli in vendita.

I microformati sono anche tentativi non ufficiali di estendere la sintassi HTML per una macchina in grado di leggere markup semantico su oggetti in un documento come articoli in vendita o contatti (ad esempio con hCard ).

Soluzioni web semantiche

Il Semantic Web offre linguaggi appositamente progettati per i dati: RDF ( Resource Description Framework ), OWL ( Ontology Web Language ) e XML ( eXtensible Markup Language ). L'HTML descrive i documenti e i collegamenti tra di essi. RDF, OWL e XML, d'altra parte, possono anche descrivere cose, come persone, riunioni o parti di aeroplani. Secondo Tim Berners-Lee, “RDF sta ai dati come l'HTML sta ai documenti. RDF consente di collegare i dati a una categoria. "

Queste tecnologie vengono combinate per fornire descrizioni che integrano o sostituiscono il contenuto dei documenti web. Pertanto, il contenuto può apparire sotto forma di dati descrittivi archiviati in database accessibili sul Web o tramite tag nei documenti (tramite HTML o la sua variante XHTML - XML HTML -). Questi dati possono quindi essere intercalati con XML, o talvolta pubblicati solo come XML, con layout e dati archiviati separatamente. Le descrizioni leggibili dalla macchina consentono ai gestori dei contenuti di aggiungere significato al loro contenuto, ovvero di descrivere la struttura della conoscenza all'interno del contenuto. In questo modo una macchina può:

elaborare la conoscenza stessa, invece del testo, utilizzando processi simili al ragionamento e all'inferenza deduttivi umani ,
ottenere risultati più significativi aiutando i computer a eseguire la raccolta automatizzata delle informazioni e quindi facilitare la ricerca .

Ecco un esempio di tag che verrebbe utilizzato in una pagina web non semantica:

La codifica di informazioni simili in una pagina web semantica potrebbe essere simile a questa:

Tim Berners-Lee spinge l'emergere di una rete di dati correlati ( linked data , in inglese ) o dati web ( in francese ) per il Giant Global Graph , a differenza del Web, che è una pagina HTML basata sul web in tutto il mondo. Tim Berners-Lee presume che se in passato abbiamo condiviso documenti, in futuro condivideremo i dati. La sua risposta alla domanda "come?" Si basa su tre pilastri. Uno, un URL deve puntare ai dati. Due, chiunque acceda all'URL dovrebbe essere in grado di recuperare i dati. Tre, le relazioni nei dati devono puntare ad altri URL con i dati.

Web 3.0

Tim Berners-Lee ha descritto il Web semantico come un componente del Web 3.0:

La gente continua a chiedersi cosa sia il Web 3.0. Penso che forse quando avrai una sovrapposizione di grafica vettoriale scalabile - tutto increspato e piegato e sembra confuso - sul Web 2.0 e l'accesso a un Web semantico integrato in un enorme spazio di dati, avrai accesso a un'incredibile risorsa di dati .

- Tim Berners-Lee , Un Web 'più rivoluzionario', 2006, Victoria Shannon

“La gente si chiede continuamente cos'è il Web 3.0. Immagino che quando hai una sovrapposizione di disegni vettoriali - tutti in onde e pieghe nebulose - che descrivono il Web 2.0 e l'accesso a un web semantico incorporato in un enorme spazio di dati, avrai accesso a un'incredibile risorsa di dati. "

- Un Web 'più rivoluzionario', 2006, Victoria Shannon

"Web semantico" è talvolta usato come sinonimo di "Web 3.0", sebbene la definizione di ciascun termine vari. Come "Web 2.0", "Web 3.0" è un neologismo e una parola d'ordine . Nel caso del Web 2.0, l'uso del termine è dibattuto tra chi pensa che sia un termine di marketing senza reali cambiamenti e chi pensa che ci sia stata una vera evoluzione.

Sfide

Alcune delle sfide del web semantico sono la vastità, la vaghezza, l'incertezza, l'incoerenza e l'inganno. I sistemi di ragionamento automatizzato dovranno affrontare tutte queste domande, al fine di mantenere le promesse del Web semantico.

Immensità: il World Wide Web contiene diversi miliardi di pagine . L'ontologia della terminologia medica SNOMED CT (en) contiene da sola 370.000 nomi di classi e nessuna tecnologia esistente è stata ancora in grado di eliminare tutti i duplicati dal punto di vista semantico di questa ontologia. Con l'avvento del Semantic Web, tutti i sistemi di ragionamento automatizzato dovranno poi fare i conti con una quantità davvero enorme di parametri .
Imprecisione: ci sono nozioni imprecise come "giovane" o "grande". Ciò deriva dalla vaghezza delle query degli utenti che si allineano con i termini utilizzati dai fornitori di contenuti. I fornitori con basi di conoscenza sovrapposte, tuttavia, ricreano concetti diversi con sottili differenze. La logica fuzzy è la tecnica più comune per affrontare la vaghezza.
Incertezza: sono concetti precisi con valori incerti. Ad esempio, un paziente può presentare una serie di sintomi che corrispondono a un numero di diagnosi diverse, ciascuna con una probabilità diversa. Le tecniche di ragionamento probabilistico sono generalmente utilizzate per affrontare l'incertezza.
Incoerenza: si tratta di contraddizioni logiche che inevitabilmente sorgeranno durante lo sviluppo di grandi ontologie e quando verranno combinate ontologie da fonti separate. Il ragionamento deduttivo non riesce a fronteggiare questa incoerenza a causa di una contraddizione che si può dedurre di tutto ( principio di esplosione ). Il ragionamento rivedibile e il ragionamento paraconsistente sono due tecniche che possono essere utilizzate per affrontare l'incoerenza.
Inganno: accade quando il produttore di informazioni vuole volontariamente ingannare il consumatore di questo tipo di informazioni. Le tecniche crittografiche sono attualmente utilizzate per affrontare questa minaccia e quindi garantire l'integrità dei dati .

Questo elenco di sfide è più illustrativo che esaustivo in quanto si concentra sulle sfide della "logica dell'unificazione" e del livello "prova" per l'implementazione del Web semantico. La maggior parte delle tecniche qui menzionate dovranno estendere il linguaggio OWL ( Web Ontology Language ) ad esempio per annotare la probabilità condizionata di un'informazione. Questa è un'area di ricerca attiva.

Specifiche

La standardizzazione del Web semantico è supervisionata dal W3C .

Struttura

L'espressione "web semantico" è spesso utilizzata in modo più specifico per designare formati e tecnologie che gli consentiranno di esistere. La raccolta, la strutturazione e il recupero dei dati correlati opereranno utilizzando tecnologie che forniranno una descrizione formale di concetti, termini e relazioni all'interno di un dato dominio di conoscenza . Queste tecnologie sono standardizzate dal W3C e comprendono in particolare:

Framework di descrizione delle risorse (RDF)
Schema RDF (RDFS)
Sistema di organizzazione della conoscenza semplice (SKOS)
SPARQL
Notazione3 (N3)
N-Triple (en)
Tartaruga
Linguaggio Ontologia Web (OWL)
Formato interscambio regole (RIF)

Il Semantic Web Stack è un'illustrazione per rappresentare l'architettura del Semantic Web. Le funzioni e le relazioni dei componenti possono essere riassunte come segue:

L' XML fornisce una sintassi di base per la struttura del contenuto all'interno dei documenti, ma non descrive la semantica del documento. XML non è attualmente un componente necessario delle tecnologie del Web semantico. Nella maggior parte dei casi, esistono sintassi alternative come Turtle . Turtle è uno standard di fatto perché è meno dettagliato di XML, ma non è stato scelto attraverso un processo di standardizzazione formale.
L' XSD è un linguaggio di descrizione del formato di documento XML per definire la struttura e il tipo di contenuto da un documento XML. Questa definizione consente in particolare di verificare la validità di questo documento.
L' RDF è un linguaggio semplice per esprimere modelli di dati come oggetti ( "risorse" ) e le loro relazioni. Un modello basato su RDF può essere rappresentato attraverso diverse sintassi di scambio, ad esempio RDF/XML, N3 , Turtle e RDFa . RDF è uno standard fondamentale del Web semantico.
RDF Schema estende RDF e il suo vocabolario per poter strutturare proprietà e classi all'interno di una risorsa descritta in RDF.
OWL aggiunge più vocabolario per descrivere proprietà e classi: come con le relazioni tra classi, cardinalità (es "esattamente una"), uguaglianza, tipizzazione delle proprietà, caratteristiche delle proprietà (es simmetria), ecc.
SPARQL (pronuncia sparkle ; in inglese : "spark") è un linguaggio di interrogazione e un protocollo che consente di cercare, aggiungere, modificare o eliminare dati RDF disponibili nel Web tramite Internet .

Progresso

Gli standard ancora necessari per implementare il Web semantico passano attraverso il processo di raccomandazione dei gruppi di lavoro del W3C ( World Wide Web Consortium ). Ciò significa che ogni nuova raccomandazione è stata oggetto di revisione pubblica. Quindi, le raccomandazioni del W3C, che saranno ampiamente adottate, diventeranno naturalmente gli standard del "Web semantico".

Ecco l'elenco degli standard e delle principali raccomandazioni su cui si basa il Web semantico:

Ecco le raccomandazioni attualmente attive:

RIF ( Rule Interchange Format ) è il livello di regole nello stack del web semantico .

D'altra parte, molti passaggi per implementare un "Web semantico" sono ancora da immaginare, chiarire e specificare. Tim Berners-Lee , attraverso il suo Semantic Web Stack , riassume questi passaggi attraverso i seguenti livelli:

Livello della logica di unificazione
Strato di prova
Livello di fiducia/integrità
Livello di crittografia

In attesa che tutti questi livelli vengano implementati, le tecnologie già disponibili, come SPARQL , consentono già di offrire un'interoperabilità con una granularità sui dati migliore rispetto a quella offerta dai servizi Web (il W3C ha inoltre ritirato la standardizzazione dei servizi Web di le sue priorità ).

L'insieme delle fonti di dati che condividono i propri dati con gli standard del Web semantico è stato denominato Web of data (o in inglese “ Linked Open Data ”) per facilitarne l'adozione da parte del pubblico. Il Data Web si basa su tecnologie Linked Data che si sovrappongono alle tecnologie del Semantic Web già ampiamente adottate. Il Linked Data è una delle principali tecnologie utilizzate nel movimento " open data " in Inghilterra che mira a condividere in maniera massiccia i dati pubblici per accelerare la ricerca e il commercio. L'emergere del Web semantico è considerato da alcuni come la prossima svolta tecnologica e quindi economica che già chiamano Web 3.0 .

L'obiettivo sarà quindi in futuro quello di migliorare l'accesso e l'utilità del Web e delle risorse interconnesse attraverso di esso quali:

Server che espongono dati utilizzando RDF e SPARQL . Esistono diversi convertitori RDF per varie applicazioni. Ad esempio, un server può convertire i dati contenuti in un database relazionale senza pregiudicarne il funzionamento e quindi rendere disponibili i dati in RDF e rispondere alle query SPARQL.
Documenti "taggati" con informazioni semantiche (un'estensione dei tag <meta>HTML utilizzati nelle pagine web consente di fornire informazioni ai motori di ricerca web utilizzando i crawler ). Il contenuto contiene quindi informazioni leggibili dalla macchina relative al documento come il creatore, il titolo, la descrizione, ecc. Queste informazioni possono contenere anche metadati che rappresentano un insieme di fatti (come altre risorse e servizi relativi al sito). Si noti che tutto può essere identificato tramite un URI ( Uniform Resource Identifier ) e quindi può essere descritto, per consentire al web semantico di ragionare su animali, persone, luoghi, idee, ecc. Questi tag o tag semantici sono spesso generati automaticamente, anziché manualmente.
Il vocabolario di metadati condivisi ( ontologie ) è un repository tra questo vocabolario che consente ai creatori di documenti di sapere come contrassegnare semanticamente i propri documenti in modo che gli agenti possano utilizzare le informazioni contenute nei metadati forniti.
Agenti automatizzati che svolgono le attività degli utenti del web semantico utilizzando questi dati strutturati e disponibili.
Servizi Web ( spesso ai propri agenti ) Forniranno informazioni accurate agli agenti, ad esempio un servizio di reputazione in cui un agente può chiedere se alcuni negozi online hanno una buona o cattiva reputazione e verificarlo.

Osservazioni scettiche

Fattibilità pratica

Le principali critiche riguardano la fattibilità completa o anche parziale del Web Semantico. Cory Doctorow parla di " metacrap " (un portmanteau formato da parole metadata e crap , che possiamo provare a portare al potere francese con "métamerde"), una critica che si basa sull'osservazione sarcastica del comportamento umano. Ad esempio, le persone possono includere microdati parassiti nelle pagine Web per ingannare i motori del Web semantico che si fideranno "ingenuamente" della veridicità di tutti i dati. Questo fenomeno è noto per ingannare: i motori di indicizzazione, come Google , cercano di rilevare questo tipo di manipolazione. Peter Gärdenfors e Timo Honkela (en) avevano notato che la logica delle tecnologie del Web semantico copre solo una frazione dei fenomeni che avranno un impatto sulla semantica del Web.

Nel 2001, Cory Doctorow ha stilato un elenco dei sette ostacoli apparentemente insormontabili all'ottenimento di metadati sufficientemente affidabili per eseguire un possibile Web semantico. Secondo lui :

La gente sta mentendo.
Le persone sono pigre.
La gente e 'stupida.
È difficile descrivere te stesso.
Le classificazioni non sono neutre.
L'unità di misura scelta influenza i risultati.
Ci sono molti modi per descrivere la stessa cosa.

Include anche altri motivi relativi all'obsolescenza dei metadati:

I dati possono diventare falsi nel tempo.
I dati non possono incorporare nuove idee.

Cory Doctorow ne deduce che la ricerca su un tale sistema potrebbe restituire solo dati obsoleti e parzialmente o totalmente errati.

L'architettura, gli strumenti e concetti stessi di Semantic Web è stato spesso criticato, citando che le tecnologie o processi per mantenere la qualità dei dati, sono stati inseriti da esseri umani e perciò fallibili, non può ancora operare su larga scala. Web . Questi limiti sono tutti problemi nuovi che la ricerca sta attualmente cercando di risolvere attraverso le sfide del web semantico . La web science (in) è il nome che diamo alla "disciplina" che mira a risolvere nuovi problemi scientifici che fa emergere il Web. Tuttavia, le tecnologie del web semantico sono state adottate all'interno di comunità specializzate nell'implementazione di sistemi informativi, ma principalmente in sistemi chiusi (esempio: intranet ), come nelle aziende o nelle biblioteche.

Censura e privacy

L'entusiasmo per il Web semantico potrebbe essere mitigato da considerazioni come il rifiuto della censura e il desiderio di proteggere la privacy . Ad esempio, attualmente si può facilmente indurre gli analizzatori di testo a usare altre parole, metafore o immagini invece di parole. È molto più facile per i governi visualizzare, e quindi controllare, la creazione di informazioni online se utilizza una struttura semantica, perché le informazioni sono quindi molto più facili da interpretare ed eventualmente bloccare per mezzo di un sistema automatizzato. Inoltre, il problema è stato sollevato anche dall'uso di metadati come FOAF o di Geolocation API (as) , che mettono in dubbio l'anonimato del World Wide Web . Queste preoccupazioni fanno della sicurezza dei dati personali un tema attivo di ricerca, come nel progetto “ Policy Aware Web ”.

Doppio formato di output Double

Un altro recensore parla di un aumento del tempo necessario per creare e pubblicare contenuti a causa della necessità di produrne due versioni: una per la visualizzazione umana e un'altra per le macchine. Tuttavia, molte applicazioni web affrontano già questo problema creando un formato leggibile per un browser web o su richiesta di un lettore RSS come un blog . Lo sviluppo dei microformati è stata una reazione a questo tipo di critiche. A sua difesa, il Web semantico ridurrà probabilmente lo sforzo associato alle attività di recupero delle informazioni e quindi compenserà il costo aggiuntivo di fornire un formato compatibile per le macchine.

Una delle prime soluzioni è stata quella di utilizzare il linguaggio GRDDL , un meccanismo che utilizza solo il contenuto già presente in una pagina HTML (con potenzialmente microformati) per estrarre da essa RDF. Tuttavia, la molteplicità e l'instabilità dei microformati, nonché la difficoltà di creare il convertitore XSLT per GRDDL, hanno portato a specificare RDFa per integrare in modo semplice ed esplicito RDF all'interno delle pagine HTML . Il metodo RDFa sarà inoltre integrato direttamente nello standard HTML5 tramite microdati , che semplificheranno ulteriormente l'inserimento dei dati RDF in un documento.

Progetti

Questa sezione elenca alcuni dei molti progetti e strumenti che esistono all'interno del movimento del web semantico.

Europa: ERCIM

Il progresso del Semantic Web in tutto il mondo è monitorato dal W3C come parte del progetto Semantic Web Advanced Deployment ( SWAD ). Il progetto SWAD -Europe ha avuto luogo damaggio 2002 a ottobre 2004.

L'organizzazione europea che ospita i progetti W3C e che monitora l'andamento del Web semantico è ERCIM ( European Research Consortium for Informatics and Mathematics ).

Progetto Data.bnf.fr della Biblioteca Nazionale di Francia

La Biblioteca Nazionale di Francia è entrando nel Semantic Web attraverso la sua data.bnf.fr progetto . Questo progetto integra i dati prodotti in vari formati, tra cui Intermarc, XML-EAD e Dublin Core , per la biblioteca digitale. I dati è modellato e raggruppati per l'elaborazione automatica e pubblicato in varie RDF standard : RDF-XML, RDF-N3, e RDF-NT. C'è anche una pubblicazione di dati in JSON . Il progetto utilizza la piattaforma di sviluppo semantico CubicWeb .

La Biblioteca Nazionale di Francia fornisce quindi:

URI per le risorse grazie a identificatori perenni, assegnati secondo il meccanismo ARK che consente l'accesso a tutte le risorse della biblioteca.
per ogni risorsa, un insieme di metadati associati all'URI della risorsa sotto forma di RDF triplica, secondo tecnologie linked open data . Questi metadati possono essere recuperati su ogni pagina (export) e per l'intero database (dump). Possono anche essere interrogati tramite una console Sparql.

Nel 2013, il progetto ha condiviso con Gallica lo Stanford Prize for Innovation in Research Libraries (SPIRL).

Dal 2017, il modello di dati data.bnf.fr si basa sul modello di riferimento concettuale IFLA LRM , consentendogli di navigare le relazioni tra le entità.

DBpedia e SemanticPedia

DBpedia è il primo tentativo storico di pubblicare dati strutturati estratti da Wikipedia : i dati vengono estratti dalle pagine e in particolare dai box informativi di Wikipedia pubblicati in RDF e resi disponibili sul Web dei dati tramite HTTP e SPARQL sotto licenza GFDL . .

SemanticPedia è una piattaforma per la pubblicazione dei dati di vari progetti Wikimedia in francese, supportata dal Ministero della Cultura e della Comunicazione , Inria e Wikimedia France . Una versione francese di DBpedia è stata sviluppata dal team di Wimmics sotto la responsabilità di Fabien Gandon presso il centro di ricerca Inria Sophia Antipolis. Questo capitolo francofono si chiama DBpedia.fr e contribuisce per il francese all'internazionalizzazione dell'iniziativa DBpedia estraendo e pubblicando dati dai diversi capitoli linguistici di Wikipedia . Questo capitolo francese di DBpedia supporta molte applicazioni. Il ministro della Cultura francese, Aurélie Filippetti , ha annunciato il19 novembre 2012 che il prossimo progetto riguarderebbe il Wikizionario e i suoi due milioni di termini.

Wikidata

Wikidata è uno dei progetti della Wikimedia Foundation. Il suo obiettivo è mettere a disposizione dei contribuenti senza alcun intermediario tutti i dati strutturati di tutti i progetti della fondazione.

Wikipedia è uno dei progetti collegati a Wikidata. Ogni articolo di Wikipedia ha ora un identificatore univoco sotto forma di IRI ed è un'entità nella comunità di Wikidata. Ogni entità è composta da più proprietà con uno o più valori (triple). Queste entità e proprietà sono contrassegnate da un identificatore univoco (ad esempio: Q90 è l'identificatore univoco di Parigi), che rende il database indipendente dalla lingua utilizzata. Il valore di queste proprietà può essere un'altra entità, ma anche una stringa, un numero, una data, ecc. I dati così strutturati possono essere riutilizzati in vari formati (XML, JSON, Turtle, ecc.) e possono infine essere utilizzati per alimentare gli infobox di Wikipedia, evitando così di doverli modificare manualmente in tutte le lingue poiché ogni volta che Wikidata viene modificato . , tutte le infobox vengono modificate contemporaneamente.

I dati di Wikidata sono concessi in licenza con CC0 . Tutti i dati condivisi sono quindi gratuiti e aperti a tutti i tipi di utilizzo.

Per il Semantic Web, Wikidata è uno dei pochi endpoint SPARQL collegati in tempo reale ai produttori di dati. Ciò significa che le modifiche in Wikidata hanno un impatto immediato sul database RDF e consentono quindi di riutilizzare questi dati in altre applicazioni tramite SPARQL. Dal punto di vista della sua ontologia, la struttura si costruisce nel tempo in maniera consensuale tra i contributori. La struttura di questa ontologia può quindi cambiare in qualsiasi momento secondo le esigenze dei contributori.

AKSW

AKSW ( Agile Ingegneria della Conoscenza e Semantic Web ) è un gruppo di ricerca che è ospitato dal Betriebliche Informationssysteme ( BIS ) presidentedel Institut für Informatik ( IFI ) della Università di Lipsia, come pure dal Institute for Applied Computing ( INFAI ) . Il gruppo di ricerca AKSW ha lanciato una serie di progetti come DBpedia.

Datalift

Datalift è una piattaforma originale destinata allo sfruttamento dei dati che integra in un'unica soluzione open source tutte le funzioni utili all'interconnessione dei dati, dalla loro acquisizione alla loro pubblicazione finale. In Datalift, i dati di input sono dati grezzi provenienti da formati eterogenei (database, CSV, XML, RDF, RDFa, GML, Shapefile...). I dati prodotti sono dati collegati. La piattaforma Datalift partecipa attivamente alla trasformazione dal Web al Web dei dati .

Progetti di ontologie

FOAF

FOAF ( Friend Of A Friend ) è un vocabolario che usa RDF per descrivere le relazioni che le persone hanno con le altre persone e le "cose" intorno a loro. FOAF è un esempio del tentativo del Web semantico di utilizzare le relazioni all'interno di un contesto sociale.

Comunità online semanticamente interconnesse (SIOC)

Il SIOC è un vocabolario per descrivere gli oggetti comunemente usati nei siti della comunità e le loro relazioni.

Altro

Il Web dei dati offre lo sviluppo di nuovi usi che concretizzano la nozione di intelligenza collettiva come:

Il social bookmarking .
I wiki semantici , che permettono di creare contenuti specificandone il significato e caratterizzandone la relazione attraverso una sorta di sintassi wiki .

Note e riferimenti

(fr) Questo articolo è parzialmente o interamente tratto dall'articolo di Wikipedia in inglese intitolato " Semantic Web " ( vedi l'elenco degli autori ) .

"Cerca del motore - Definizione e spiegazioni " , su techno-science.net (accessibile 22 giu 2021 )
(in) "XML and Web Standards W3C Semantic Timeline" (versione del 26 ottobre 2019 su Internet Archive ) ,4 febbraio 2012.
(en) “ W3C Semantic Web Activity ” , World Wide Web Consortium (W3C),7 novembre 2011(consultato il 26 novembre 2011 ) .
(in) Tim Berners-Lee , James Hendler e Ora Lassila, " The Semantic Web " , rivista scientifica americana ,17 maggio 2001( letto online , consultato il 26 marzo 2008 ).
(in) Lee Feigenbaum, " Il web semantico in azione " , Scientific American ,1 ° maggio 2007(consultato il 24 febbraio 2010 ) .
(in) Berners-Lee, Tim " The Semantic Web " , Scientific American ,1 ° maggio 2001(consultato il 13 marzo 2008 ) .
(in) Nigel Shadbolt , Wendy Hall, Tim Berners-Lee, " The Semantic Web Revisited " , IEEE Intelligent Systems ,2006(consultato il 13 aprile 2007 ) .
(in) Allan M. Collins e R. Quillian, " Tempo di recupero dalla memoria semantica " , Journal of Verbal Learning and Verbal behavior , furto. 8, n o 21969, pag. 240–247 ( PMID 615603750 , DOI 10.1016 / S0022-5371 (69) 80069-1 ).
(in) Allan Collins e Ross Quillian, "Le dimensioni influiscono sul tempo di categorizzazione delle categorie? » , Diario di apprendimento verbale e comportamento verbale , vol. 9, n ° 4,1970, pag. 432–438 ( DOI 10.1016 / S0022-5371 (70) 80084-6 ).
(in) Allan Mr Allan Collins e Elizabeth F. Loftus, " Una teoria dell'attivazione della diffusione dell'elaborazione semantica " , Psychological Review , vol. 82, n . 6,1975, pag. 407–428 ( DOI 10.1037 / 0033-295X.82.6.407 ).
(in) MR Quillian , " Concetti di parole - Una teoria e una simulazione di alcune capacità semantiche di base " , Scienze comportamentali , vol. 12, n . 5,1967, pag. 410–430 ( PMID 6059773 , DOI 10.1002 / bs.3830120511 ).
(in) Memoria semantica | libro: Marvin Minsky (editore): elaborazione delle informazioni semantiche, MIT Press, Cambridge, Massachusetts ,1988.
(in) Tim Berners-Lee , Fischetti, Mark, Weaving the Web , HarperSanFrancisco ,1999( ISBN 978-0-06-251587-2 ) , capitolo 12.
Yannick Maignien, “I problemi del web semantico” , in Marcello Vitali-Rosati , Michael E. Sinatra, Pratiche dell'editoria digitale , Montreal, Presses de l'Université de Montréal ,2014, 224 pag. ( ISBN 9782760632035 , leggi in linea ) , p. 77-94.
(in) Gerber, AJ Barnard, A, & Van der Merwe, Alta (2006) "A Semantic Web Status Model, Integrated Design and Process Technology" Numero speciale: ITDP, 2006.
(it) Gerber, Aurona; Van der Merwe, Alta; Barnard, Andries (2008) “A Functional Semantic Web architecture” European Semantic Web Conference 2008 ESWC'08, Tenerife, giugno 2008.
(in) Allineamento, stili dei caratteri e regole orizzontali , specifica HTML 4.01 , 24 dicembre 1999.
Tim Berners-Lee, " Il web cambierà dimensione ", The Search , n o 413,2007, pag. 34.
(in) Artem Chebotko e Lu Shiyong, "Querying the Semantic Web: An Efficient Approach Using Relational Databases" LAP Lambert Academic Publishing , ( ISBN 978-3-8383-0264-5 ) , nel 2009.
“ Blog di Tim Berners Lee ” .
(en) Victoria Shannon, “ Un Web 'più rivoluzionario' ” , International Herald Tribune ,26 giugno 2006(consultato il 24 maggio 2006 ) .
parola d'ordine, in particolare nel campo della tecnologia, più o meno priva di significato
http://www.worldwidewebsize.com ].
(in) " Uncertainty Reasoning for the World Wide Web " su www.w3.org , Incubator Group for Uncertainty Reasoning for the World Wide Web (URW3-XG) 2008(accessibile 1 ° luglio 2012 ) .
(in) Thomas Lukasiewicz e Umberto Straccia, " Gestione dell'incertezza e della vaghezza nelle logiche descrittive per il Web semantico " , Journal of Web Semantics , vol. 6, n ° 4,novembre 2008, pag. 291-308 ( leggi online ).
(in) Semantic Web Standards pubblicati dal W3C .
(in) " OWL Web Ontology Language Overview " , World Wide Web Consortium (W3C)10 febbraio 2004(consultato il 26 novembre 2011 ) .
(in) " RDF Tutorial " , D r Leslie Sikos (accessibile 5 luglio 2011 ) .
(in) " Resource Description Framework (RDF) " , World Wide Web Consortium .
(in) " Siti web standard " , D r Leslie Sikos (consultato il 5 luglio 2011 ) .
(in) Allemang, D. Hendler, J., RDF - Le basi del web semantico ; in: Semantic Web for the Working Ontologist ( 2 ° ed. ) , Morgan Kaufmann,2011( DOI 10.1016 / B978-0-12-385965-5.10003-2 ).
(in) Jim Rapoza, " SPARQL farà brillare il Web " , eWeek (in) ,2 maggio 2006(consultato il 17 gennaio 2007 ) .
" La designazione" Raccomandazione W3C "significa che un documento è stato sottoposto a revisione pubblica e che è stato fatto circolare tra le organizzazioni membri del W3C per la revisione. " (Versione del 5 agosto 2012 sul Internet Archive ) .
"Il W3C pubblica le raccomandazioni RDF e OWL " , su w3.org (consultato il 13 luglio 2021 )
Editoriale JDN, " Cos'è il Web 3.0?" » , Sul journal du net.fr ,29 gennaio 2019(consultato il 5 febbraio 2021 )
Jean-François Ruiz, " Dal DNA del Web 2.0 alla rottura del Web 3.0 attraverso il Web semantico, anche Dædalus si perderebbe nel Webyrinth... " , su Webdeux.info ,30 marzo 2006(consultato il 5 febbraio 2021 )
(in) Quale web semantico? .
(in) Peter Gärdenfors , " Come rendere il Web semantico più semantico " (Formal Ontology in Information Systems: Proceedings of the International Conference third (TIME-2004)), Frontiers in Artificial Intelligence and Applications , IOS Press,2004, pag. 17–34.
(in) Timo Honkela, City Könönen Tiina-Knuutila Lindh e Sanna-Mari Paukkeri, " Simulare processi di formazione e comunicazione dei concetti " , Journal of Economic Methodology ,2008.
""L'ontologia è sopravvalutata", di Clay Shirky, traduzione di Christophe Ducamp" (versione del 28 giugno 2008 su Internet Archive ) .
(in) James Hendler, Nigel Shadbolt, Wendy Hall, Tim Berners-Lee e Daniel Weitzner. 2008. “La scienza del web: un approccio interdisciplinare alla comprensione del web” Comunicazione ACM 51, 7 (luglio 2008), 60-69. DOI : 10.1145 / 1364782.1364798 .
(in) Ivan Herman, " Stato del web semantico " , Semantic Days 2007 ,2007(consultato il 26 luglio 2007 ) .
www.policyawareweb.org .
http://data.bnf.fr/semanticweb
(in) " 2013 Prizes " , su Stanford Libraries (consultato il 26 settembre 2020 ) .
Esempio del sito DBpedia.fr .
" DBpedia FR " su fr.dbpedia.org (consultato il 3 aprile 2017 ) .
Camille Gévaudan, " Wikipedia risparmierà i robot ", Liberation ,21 novembre 2012( letto online , accesso 19 maggio 2017 ).
AKSW ( Agile Ingegneria della Conoscenza e Semantic Web ) .
http://www.datalift.fr

Vedi anche

link esterno

(it) Sito ufficiale del Web semantico, W3C .
Collins AM & Quillian M. R, Tempo di recupero dalla memoria semantica , 1969.
Julien Plu, Introduzione al web semantico ,aprile 2011.
Perché e come il mondo è diventato digitale? Una sintesi della storia dell'informatica, INRIA, 2010. Video didattico di circa 24 minuti per studenti delle scuole superiori. Presentazione del Web semantico di Rose Dieng-Kuntz ; inizio: 15 min.

Bibliografia

Fabien Gandon , Catherine Faron Zucker e Olivier Corby , Il web semantico: come collegare dati e modelli sul web? , Dunod ,1 ° gennaio 2012( ISBN 978-2-10-057294-6 e 2-10-057294-6 , OCLC 795501050 )