Linguaggio naturale

Una lingua naturale , o lingua ordinaria , è una lingua "normale" parlata da un essere umano. È opposto al linguaggio formale , come il linguaggio del computer , così come al linguaggio creativo Dei linguaggi costruiti .

Storia

Designiamo con linguaggio naturale la lingua parlata dagli esseri umani, che è apparsa tra 200.000 e 50.000 anni prima della nostra era. È dettagliato dalla storia delle lingue . Dopo 2 milioni di anni di gestazione da Homo erectus , subentrato a Homo habilis , l'uomo moderno, chiamato Homo sapiens , è apparso dalla congiunzione di molti fattori:

Ci sono due scenari per la comparsa dell'Homo sapiens : lo  scenario “  Out of Africa ” e lo scenario pluricentripeto (poligenesi). Recenti ricerche in paleolinguistica hanno individuato all'inizio del XXI E  secolo una base di 27 parole, comuni alla radice di tutte le lingue terrestri scritte, che spinge a favorire lo scenario “  Out of Africa  ” (monogenesi). Diverse fonti, infatti, non avrebbero avuto motivo di adottare la stessa protolingua di partenza.

Successivamente, l' Homo sapiens si è imposto all'interno della specie umana, sia per ipotesi produttivista, sia per ipotesi sociologica.

Per circa 7000 anni, questa lingua ha assunto una forma scritta in un certo numero di lingue, che si sono poi affermate come lingue dominanti. Soprattutto a causa di questo, 6.000 lingue sono oggi in pericolo di estinzione.

Linguaggi informatici

In informatica , il linguaggio naturale si oppone al linguaggio di programmazione  :

La sfida per gli editori di motori di ricerca è essere in grado di fornire risultati pertinenti a una query formulata in linguaggio naturale.

Alan Turing , matematico inglese della prima metà del XX °  secolo ha anche ipotizzato che l'intelligenza artificiale potrebbe così bene dare l'impressione di "parlare" sarebbe difficile discernere un essere umano. I test di intelligenza artificiale che hanno la capacità di imitare la conversazione umana sono chiamati test di Turing .

Coerenza del linguaggio naturale

Se la consistenza di un testo è proprietà di un testo che non necessita di deduzione per passare da un elemento documentario all'altro, useremo l'esempio di Florian Wolf et al. per illustrare questa proprietà:

Le inferenze da fare per comprendere il testo sono qui banali, nel rispetto del principio di rilevanza nella trasmissione delle informazioni. Sono progressisti. Ci vuole bel tempo per lanciare un razzo e il lanciatore Ariane può lanciare due satelliti. Dobbiamo ancora caratterizzare queste inferenze: "il tempo era bello e quindi" la prima inferenza rende esplicita, e "il lanciatore Ariane […] mise in orbita due satelliti" rende esplicita la seconda inferenza. Non è noto se il lanciatore possa lanciare quattro satelliti, ma non è questo il punto. Dobbiamo essere consapevoli della necessità di tutte le parole in questo testo.

Inoltre si rispetta la progressione: si parla di meteo, poi del lancio del razzo e infine di cosa viene lanciato.

Togli da questo testo l'aggettivo spazio attaccato al centro del sostantivo e non sappiamo più come giustificarne la coerenza. Dobbiamo quindi fare un'inferenza meno esplicita: il centro di Kourou è un centro spaziale. Per fare questo, dobbiamo guardare alla teoria della pragmatica per valutare il costo di questa inferenza. Va notato che il principio di rilevanza evolve fortemente sia che ci troviamo in una lingua scritta dove i precostituiti sono deboli, sia nella lingua orale dove il prestabilito è importante sapendo che l'autore conosce parte della conoscenza del suo ascoltatore.

Si deve riconoscere che molti testi non soddisfano questa proprietà: così Michel Charolles dedica molti documenti all'inventario di queste situazioni di ambiguità nei testi:

Questi esempi evidenziano la nozione di profondità del trattamento implicito che questi testi richiedono per raggiungere la coerenza.

Aspetti lessicali

La conformità tipografica sarà definita come la proprietà dei testi di rispettare l'ortografia e la tipografia per iscritto. Se è accettabile considerare che "Lift-Gate" costituisce un'entità nominata e che "lift-gate" è un nome comune, la traduzione letterale della parola "Lift-Gate" in un'entità nominata introduce rumore non necessario nell'elaborazione semantica . È auspicabile filtrare queste manifestazioni nei trattamenti morfologici.

La conformità lessicale consiste nella scelta del termine giusto per un concetto: quindi "portellone" è una parola composta esplicita, il "portellone" viene tradotto in francese con "portellone", anche se in francese, questo termine è ridondante perché "portellone" è abbastanza.

L'uso di un dizionario è soddisfacente fintanto che si cercano non solo le parole incontrate ma le parti delle parole (lessemi) che possono costituire parole.

Così è stata imposta la scelta, nei primi due documenti del corpus, di sostituire “decklid” con “baule” che significa “baule”. Designeremo questo tipo di errore per errore lessicale relativo all'analisi delle parole composte.

Oltre a ciò, dobbiamo rivolgerci a risolvere le ambiguità delle espressioni. Non dobbiamo fermarci alla radice dei lemmi delle parole composte.

Aspetti generici

Le qualità stilistiche che contribuiscono a una migliore coerenza. I documenti generici traggono vantaggio dall'essere scritti nel presente generico, standardizzando il più possibile le forme negative. Quindi un requisito adotta la forma attiva ed è scritto nel presente generico, e la trasformazione di forme passive in forme attive è sufficiente a soddisfare il bisogno. Può anche essere utile utilizzare una trasformazione per elaborare testi negativi.

Aspetti discorsivi

Le qualità dei documenti sono principalmente qualificate rispetto alle componenti del nucleo di coerenza:

Note e riferimenti

Appunti

  1. Vedi su questo argomento la ricerca dei genetisti al Max Planck Institute . Nel luglio 2006, l'Istituto e 454 Life Sciences hanno annunciato che stavano intraprendendo il sequenziamento del genoma dei Neanderthal. Composto da tre miliardi di coppie di basi, il genoma di Neanderthal ha all'incirca le dimensioni del genoma umano e probabilmente ha molti degli stessi geni. Si ritiene che il confronto del genoma dei Neanderthal e del genoma umano fornirà informazioni su questa specie estinta, nonché sull'evoluzione degli esseri umani e del cervello umano. Istituto Max-Planck per l'antropologia evolutiva .
  2. Queste aree sono state identificate alla fine del XIX °  secolo, e nessuna evidenza di attivazione di queste aree è dato ad altre specie di Homo che Homo sapiens
  3. http://www.tlfq.ulaval.ca/axl/monde/ origin- langues.htm
  4. Miglioramento della coerenza dei documenti delle specifiche dell'industria automobilistica, Jean Noël Martin 2012, Braga Portugal slate 2012 - giugno 2012 http://drops.dagstuhl.de/portals/oasics/index.php?semnr=12004

Riferimenti

  1. Cécile Lestienne, Ghislain Dehanne, Laurent Sagart, Pascal Picq, The Most Beautiful History of Language , Seuil, 2008.
  2. (a) Alec MacAndrew, FOXP2 e l'evoluzione del linguaggio .
  3. Jean-Pierre Changeux, The Neuronal Man , Fayard, Parigi, 1983.
  4. Jean-Pierre Changeux, Proprietà degli insiemi neurali in Teorie del linguaggio e teorie dell'apprendimento , Édition du threshold, Parigi, 1979.
  5. Joseph Donato, The Linguistic Variation in Linguistics under the direction of Fréderic François, PUF, 1980.
  6. Fabien Wolf e Edward Gibson, Coherence in Natural Language , Massachusetts Institute of Technology , 2006.
  7. Michel Charolles, Coherence, rilevanza e integrazione concettuale , Università di Parigi III, 2002.

Bibliografia

I riferimenti sono tra gli altri dal libro Aux Origines des Langues et du Langue, a cura di Jean-Marie Hombert, Fayard , 2005

  1. Jean-Jacques Hubelin, Il linguaggio dei primi uomini .
  2. Philippe Vernier, Evoluzione del cervello e l'emergere del linguaggio .
  3. Christophe Coupé, Alla ricerca degli indizi del linguaggio articolato .
  4. Christophe Coupé, The Impossible Quest for the Mother Tongue .
  5. Bernard Victorri, I misteri dell'emergere del linguaggio .

Vedi anche

Articoli Correlati