Sapere Scienza

Sapere Scienza

Intelligenza artificiale e traduzioni: la Bibbia come guida per gli algoritmi

26 Ottobre 2018

Dire quasi la stessa cosa. Si intitola così una delle opere di Umberto Eco, pubblicata nel 2003 e dedicata alla teoria della traduzione: una disciplina complessa che non può risolversi in una meccanica sostituzione di parole ma che coinvolge le culture delle lingue in questione, l'evoluzione dei linguaggi, le sensibilità di autori e traduttori e gli stili adoperati. Ed è proprio su quest'ultimo fattore che si sono concentrati i ricercatori del Dartmouth College (Stati Uniti). Per migliorare le traduzioni di testi svolte da un'intelligenza artificiale, in particolare per convertire un documento in differenti stili che si possano adattare a fasce di pubblico diverse, gli studiosi hanno fornito ai loro algoritmi dei dati particolari: hanno addestrato i propri calcolatori con la Sacra Bibbia.

 

Gli attuali traduttori online e il cambiamento di stile

 

Conosciamo tutti gli strumenti di traduzione disponibili in rete. Un esempio è Google Translate ma ne esistono molti altri, con caratteristiche più o meno simili. Come accennavamo, in questo caso parliamo di una traduzione che non implica il passaggio da una lingua all'altra ma una modifica di stile, affinché il testo sia adatto a lettori con bagagli culturali differenti. Sviluppare dei traduttori di stile, ossia strumenti che mantengano un testo nella stessa lingua ma ne trasformino lo stile, è un compito molto complesso il cui ostacolo maggiore è reperire l'enorme mole di dati necessari per istruire gli algoritmi. Esiste però un celebre testo, proverbiale per lunghezza, complessità, numero di versioni e strutturazione: è la Bibbia.

 

banner articoli sapere4

 

La guida perfetta: la Bibbia

 

Non solo una guida spirituale ma anche un mai sfruttato set di testi paralleli allineati. Ogni versione della Bibbia contiene più di 31.000 versi che i ricercatori hanno adoperato per produrre oltre 1,5 milioni di accoppiamenti unici di versi sorgente e target da inserire nei set di allenamento per il machine learning. Gli autori del lavoro, pubblicato nella rivista Royal Society Open Science, hanno spiegato che questa non è la prima volta che un dataset di testi paralleli è stato compilato per la traduzione di stili: già Shakespeare e le pagine di Wikipedia erano state utilizzate a tale scopo ma nessuna di queste due fonti possedeva le caratteristiche del testo di riferimento della religione cristiana. Oltre a esserci versioni in lingua inglese scritte in molteplici stili, la Bibbia è già scrupolosamente indicizzata grazie alla suddivisione in libri, capitoli e versi. L'organizzazione prevedibile del testo in tutte le versioni elimina, così, il rischio di allineamenti sbagliati causati dal metodo di accoppiamento automatico di differenti versioni dello stesso testo.

 

Come sono stai "allenati" gli algoritmi?

 

Per definire cosa si intendesse per "stile" i ricercatori hanno fatto riferimento alla lunghezza delle frasi, all'uso di voci passive o attive, alla scelta di parole che potessero risultare nei testi con vari gradi di semplicità e formalità. Gli scienziati hanno poi utilizzato 34 versioni della Bibbia stilisticamente distinte, attraversando l'estesa gamma di livelli di complessità linguistica, dalla Bibbia di Re Giacomo a quella in basic english.
I testi sono serviti ad "allenare" due algoritmi progettati per la traduzione: un sistema statistico chiamato Moses e una rete neurale usata comunemente, Seq2Seq. A partire da questo training, potrebbero essere sviluppati dei sistemi che traducano lo stile di qualsiasi testo scritto per pubblici diversi. Un esempio può essere Moby Dick di Herman Melville tradotto in versioni adatte per lettori giovani, non di madre lingua inglese o per persone con altri tipi di background. Non si tratterebbe quindi solo di una semplificazione ma di produrre un testo con lo stesso significato dell'originale, reso con parole diverse. Molteplici modi per "dire quasi la stessa cosa".

copertina   settembre-ottobre 2018

  COMPRA IL NUMERO

 
  ABBONATI

 
  SOMMARIO

 
  EDITORIALE

bannerCnrXSapere 0

iscriviti copia

tirelli

Questo sito utilizza cookie, anche di terze parti, per migliorare la tua esperienza di navigazione. Se vuoi saperne di più consulta l'informativa estesa. Cliccando su ok acconsenti all'uso dei cookie.