Corpus

Un corpus è un insieme di documenti, artistici o meno ( testi , immagini , video , ecc.), Raggruppati per uno scopo specifico.

Possiamo utilizzare corpora in diversi campi: letterario , linguistico , studi scientifici , filosofia , ecc.

Generi corpus

Il corpus in linguistica

Il ramo della linguistica che si occupa più specificamente dei corpora è logicamente chiamato linguistica corporale . È legato allo sviluppo di sistemi informatici, in particolare alla costituzione di banche dati testuali. Dal 2009, la rivista universitaria CORPUS si è dedicata a questo campo.

Parliamo di un corpus per designare l'aspetto normativo del linguaggio: la sua struttura e il suo codice in particolare. "Corpus" è generalmente opposto a "status", che corrisponde ai termini di utilizzo della lingua. Questa opposizione è comune nello studio delle politiche linguistiche.

Il corpo della letteratura

Il corpus riunisce una serie di testi con uno scopo comune. Un corpus può essere composto da diversi documenti (tabella, estratto di testo, ecc.) E questi vari documenti hanno una cosa in comune. In generale, è il tema che rappresenta la loro somiglianza. Devi avere una tecnica particolare per decifrarlo.

Il corpus della scienza

Le aziende sono strumenti essenziali e preziosi nell'elaborazione automatica del linguaggio naturale . Consentono di estrarre una serie di informazioni utili per l'elaborazione statistica.

Da un punto di vista informativo, consentono di estrarre tendenze e in particolare di costruire insiemi di n-grammi .

Da un punto di vista metodologico, forniscono l'obiettività necessaria per la convalida scientifica nell'elaborazione automatica del linguaggio naturale . L'informazione non è più empirica , è verificata dal corpus. È quindi possibile affidarsi a corpora (purché ben formati) per formulare e verificare ipotesi scientifiche.

Corpo ben formato

Diverse caratteristiche devono essere prese in considerazione per la creazione di un corpus ben formato:

dimensione ;
il linguaggio del corpus;
il tempo coperto dai testi del corpus;
il registro.

Formato

Il corpus deve ovviamente raggiungere una dimensione critica per consentire un'elaborazione statistica affidabile. È impossibile estrarre informazioni affidabili da un corpus troppo piccolo (vedi Statistiche ).

Linguaggio

Un corpus ben formato deve necessariamente coprire una singola lingua e un'unica variazione di questa lingua. Ad esempio, ci sono sottili differenze tra il francese di Francia e il francese parlato in Belgio . Non sarà quindi possibile trarre conclusioni attendibili da un corpus franco-belga sul francese in Francia , né sul francese in Belgio .

Tempo coperto dai testi del corpus

Il tempo gioca un ruolo importante nell'evoluzione della lingua: il francese parlato oggi non assomiglia al francese parlato 200 anni fa né, in modo più sottile, al francese parlato 10 anni fa, in particolare a causa dei neologismi. Questo è un fenomeno da tenere in considerazione per tutte le lingue moderne. Un corpus quindi non deve contenere testi scritti a intervalli di tempo troppo ampi, o deve datarli (ad uso degli storici della lingua o dei concetti).

Registro delle lingue

È anche importante non mescolare registri diversi e lo scienziato non può permettersi di estrarre informazioni da un corpus destinato a un certo registro applicandole a un altro. Un corpus costruito da testi scientifici non può essere utilizzato per estrarre informazioni da testi divulgati, e un corpus che mischia testi scientifici e divulgati non consentirà di trarre alcuna conclusione su questi due registri.

Metodologia

Sarebbe scomodo da un punto di vista metodologico applicare sul corpus elaborazioni statistiche che permettessero di far emergere una classificazione o una modellizzazione del linguaggio.

Quando si lavora con i corpora, è quindi consigliabile separare un corpus iniziale in due sub-corpora:

il learning corpus , che viene utilizzato per estrarre un modello o una classificazione da una quantità sufficiente di informazioni;
il test corpus , che viene utilizzato per verificare la qualità dell'apprendimento dal learning corpus.

La calibrazione dei volumi dei corpora viene discussa in base al problema, ma è comune utilizzare 2/3 del corpus iniziale per l'addestramento e il restante terzo per eseguire i test.

Quando il volume del corpus iniziale non è sufficiente, è possibile combinare il corpus di test e training su più esperimenti (cross validation). Ad esempio, se dividiamo il corpus iniziale in 10 sub-corpora, numerati da 1 a 10

Esperimento 1: uso dei corpora da 1 a 8 per l'addestramento e 9 e 10 per i test;
Esperimento 2: uso dei corpora da 1 a 6 e 9 e 10 per l'apprendimento, 7 e 8 per i test;
...

La misurazione della qualità dei risultati (precisione o richiamo) è quindi più precisa, ma in nessun caso il corpus di apprendimento e di test è stato mischiato .

Corpora paralleli e comparabili

Corpus paralleli

Chiamiamo un corpus parallelo un insieme di coppie di testi tale che, per una coppia, uno dei testi è la traduzione dell'altro. È interessante allineare questi corpora, vale a dire far corrispondere ogni unità di testo nella lingua di partenza con ogni unità di testo nella lingua di destinazione (a livello di paragrafi, frasi e parole) per avere un gioco dati bilingue , soprattutto in campi specializzati in cui il vocabolario e l'uso di parole ed espressioni stanno cambiando rapidamente.

Anche se si dice che i testi siano paralleli, la traduzione genera differenze strutturali tra i testi. Alcune espressioni possono essere tradotte con un numero diverso di parole. Ad esempio "Teorie sul declino e la caduta dell'Impero Romano" è composta da 10 parole mentre la sua traduzione "Teorie sul declino dell'Impero Romano" è composta da sole 7 parole. Allo stesso modo, è probabile che le frasi nel testo di origine vengano raggruppate nella traduzione o, al contrario, divise. Il parallelismo quindi non è mai perfetto e i metodi di allineamento devono tenerne conto.

Tuttavia, corpi di testi paralleli sono relativamente rari. A titolo di esempio, citiamo il canadese Hansard , che è il rapporto dei Dibattiti della Camera dei Comuni canadese , pubblicato in francese e in inglese.

Corpus comparabile

I corpora linguistici che necessitano di grandi set di dati per funzionare, i corpora paralleli sono certamente molto preziosi, ma troppo rari per essere sufficienti per tutti gli scopi.

I corpora comparabili sono molto più diffusi. Déjean & Gaussier (2002) danno la seguente definizione di corpus comparabile

“Due corpi di due lingue e si dice che siano comparabili se v'è una significativa sub-parte del vocabolario del corpus linguaggio , rispettivamente , la definizione di che si trova nel corpus linguaggio , rispettivamente . " $l_ {1}$ $l_ {2}$ $l_ {1}$ $l_ {2}$ $l_ {2}$ $l_ {1}$

Un corpus comparabile è quindi composto da testi in lingue diverse, ma accomunati da parte del vocabolario utilizzato, il che generalmente implica che i testi parlino della stessa materia, contemporaneamente e in un registro comparabile. Una selezione di articoli di giornale in diverse lingue, che trattano le stesse notizie internazionali e allo stesso tempo, costituisce un buon esempio di un corpus comparabile.

L'allineamento non può quindi più essere basato sulla struttura del testo (che non deve essere identico da una lingua all'altra) e gli approcci proposti cercano piuttosto di tenere conto del contesto di ciascun termine da allineare., Cioè, il modo in cui vengono usati e le parole con cui concordano nel testo.

Altri sensi

Il genere Corpus designa un gruppo di insetti .
Il Corpus Omnium è un nome americano di un'immagine da un manoscritto inglese del XVI ° secolo. Questa immagine si chiama tablet Nalvage in francese.

Note e riferimenti

Corpus di opere di filosofia in lingua francese - Banche dati (dal Rinascimento al 1966)
Hervé Dejean & Éric Gaussier, un nuovo approccio all'estrazione di lessici bilingue da corpora comparabili , 2002 letto online

Vedi anche

link esterno

(fr) French Corpus: 700 milioni di parole online
(fr) Centro nazionale per le risorse testuali e lessicali
(fr) ciel-f: Il primo corpus ecologico del francese come lingua mondiale
(fr) corpus francese; database di quasi 37 milioni di frasi o circa 700 milioni di parole (Università di Lipsia)
(fr) http://www.spl.gouv.qc.ca/languefrancaise/corpuslexicales/ Corpus lexicales québécois - Secretariat for linguistic policy] (15 corpus, inGiugno 2013)
Reverso Context : insieme di corpora bilingue allineati al motore di ricerca (20 miliardi di parole in totale)

Bibliografia

(fr) Damon Mayaffre (2002), Reflexive corpora: between architextuality and hypertextuality ; Corpus, 1, Corpus and linguistic research, University of Nice.
(fr) squadra DECLIC (2004). Presentazione del corpo di riferimento del francese parlato (440.000 parole), a cura di (PDF, 30p)
(en) Svartvik J. (1990) The London Corpus of Spoken English: Description and Research . Lund Studies in English 82 Lund, Lund University press
Guillaume Wisniewski, Aurélien Max e François Yvon (2010) TALN Raccolta e analisi di un corpus ecologico di ortografie tratte dalle revisioni di Wikipedia ; Montreal, 19–23 luglio 2010