1. Introduzione
L'era dei modelli linguistici su larga scala (LLM) ha trasformato radicalmente il panorama della generazione di testo, abilitando una fluidità e una coerenza sintattica senza precedenti. Tuttavia, nonostante i notevoli progressi, un'analisi critica rivela che la produzione linguistica di queste intelligenze artificiali presenta ancora significative carenze a livello pragmatico e retorico. Il linguaggio umano, infatti, non è solo un insieme di regole grammaticali, ma un sistema complesso di segnali sociali, intenzioni e scelte stilistiche che gli attuali modelli faticano a replicare. Questo articolo si propone di esplorare le problematiche irrisolte, sostenendo che esse derivano da un'interpretazione puramente statistica del linguaggio che ne ignora le sue complesse funzioni sociali e comunicative.
2. Problematiche pragmatiche e retoriche del linguaggio AI
2.1 La saturazione retorica: un linguaggio che "Urla"
Una delle prime e più evidenti lacune riscontrate nei testi generati dall'intelligenza artificiale è l'uso non naturale di determinate figure retoriche. L'IA, addestrata su un vasto e indiscriminato corpus di dati online, apprende che alcune espressioni sono frequentemente associate a contesti di successo, come il marketing o il giornalismo sensazionalistico. Questo porta i modelli a replicarle in modo eccessivo, un fenomeno che è stato definito saturazione retorica.
Pensiamo alle iperboli o a figure come l'epanortosi enfatica. L'epanortosi è una figura retorica che consiste nel tornare su un'affermazione appena fatta per correggerla o, più spesso, per intensificarla. Ad esempio: "È stato un buon pasto, anzi, è stato eccezionale!" o “Non era arrabbiato, anzi, era furioso” ma anche "Non è un problema, ma un'opportunità per crescere." L'efficacia di questa figura risiede proprio nella sua rarità e nella sua capacità di catturare l'attenzione, creando un effetto di sorpresa e di impatto emotivo. Tuttavia, gli algoritmi non percepiscono questo valore pragmatico. Per loro, l'epanortosi non è una mossa retorica da usare con parsimonia, ma un modello statistico da replicare ogni volta che ne trovano l'opportunità. Questo porta alla produzione di testi che, pur essendo tecnicamente corretti, risultano innaturalmente enfatici e privi di sfumature, come se stessero costantemente "urlando" per catturare l'attenzione.
2.2 La mancanza di una voce autoriale
Oltre all'uso sbilanciato delle figure retoriche, l'intelligenza artificiale incontra grandi difficoltà nel sostenere una "voce" autoriale coerente. Il linguaggio umano è intrinsecamente legato all'identità di chi parla, manifestandosi attraverso scelte lessicali, preferenze sintattiche e un ritmo unico. L'IA, al contrario, tende a produrre un linguaggio omogeneo e "anonimo" [2].
Questa lacuna non è sorprendente, data la sua architettura. I modelli sono progettati per prevedere la parola successiva in un contesto locale, non per mantenere un'intenzione stilistica a lungo termine [3]. Il risultato è un testo che può cambiare sottilmente tono o stile da un paragrafo all'altro, risultando "sterile" e impersonale per il lettore.
2.3 L'impatto cognitivo: l'apprendimento di un linguaggio non naturale
La questione non riguarda solo la qualità estetica del testo prodotto, ma si estende al suo impatto cognitivo e sociale. Con la crescente esposizione dei giovani a contenuti generati dall'IA attraverso motori di ricerca, social media e piattaforme educative, il rischio è che essi apprendano un modello di linguaggio distorto [4].
Questo linguaggio, caratterizzato da saturazione retorica, mancanza di voce e uso non ponderato di figure retoriche, potrebbe diventare la loro norma. L'apprendimento di un linguaggio "perfetto" ma privo delle imperfezioni e delle sfumature che lo rendono umano potrebbe compromettere la loro capacità di comprendere e produrre una comunicazione autentica, sottile e pragmaticamente efficace. L'IA, in questo senso, non è solo uno strumento di produzione, ma un modello linguistico che, se non corretto, potrebbe influenzare la stessa evoluzione del linguaggio umano.
3. Prospettive e azioni future
Per superare le lacune pragmatiche e retoriche che abbiamo identificato, la comunità scientifica dovrà adottare un approccio che vada oltre la mera ottimizzazione statistica. Non basta più insegnare all'IA cosa dire, ma anche come e quando dirlo, con una sensibilità più vicina a quella umana.
3.1 Oltre la quantità: l'addestramento sulla qualità
L'attuale addestramento dei modelli linguistici si basa principalmente su enormi quantità di dati non filtrati. La soluzione risiede nella creazione e nell'utilizzo di corpus di addestramento qualitativamente superiori. Questo potrebbe includere:
Corpus Annotati. Sviluppare dataset in cui le figure retoriche, il tono e le intenzioni pragmatiche sono esplicitamente etichettati. In questo modo, l'IA potrebbe imparare non solo a riconoscere l'epanortosi, ma anche a capire in quali contesti è più efficace e con quale frequenza deve essere utilizzata.
Addestramento per la parsimonia.
Implementare meccanismi nel processo di addestramento che penalizzino l'uso eccessivo di certe espressioni. L'IA imparerebbe così che, per alcune figure retoriche, la moderazione è un valore aggiunto, e che il loro impatto diminuisce con l'aumentare della frequenza.
3.2 Modelli per la coerenza e la voce
Per affrontare la mancanza di una voce autoriale e i problemi di coerenza a lungo termine, le architetture dei modelli dovranno evolversi. Potremmo vedere lo sviluppo di:
Moduli stilistici. Creare moduli specifici all'interno dell'architettura del modello che siano dedicati unicamente al mantenimento di uno stile e un tono coerenti per l'intero testo. Questo permetterebbe al modello di avere una "memoria" stilistica a lungo termine, evitando di cambiare registro da un paragrafo all'altro.
Sistemi di pianificazione del discorso. Invece di generare il testo parola per parola, i futuri LLM potrebbero adottare un approccio di pianificazione preliminare, delineando la struttura e gli obiettivi argomentativi prima di iniziare la scrittura. Questo garantirebbe una maggiore coerenza logica e tematica su testi estesi.
3.3 Il ruolo cruciale del feedback umano
Infine, il Reinforcement Learning from Human Feedback (RLHF) dovrà diventare più sofisticato. La valutazione umana non dovrà più concentrarsi solo sulla correttezza grammaticale o sulla coerenza logica, ma includere anche giudizi sulla naturalezza e sull'autenticità del testo. In questo modo, gli esseri umani potranno guidare l'IA verso una comprensione più profonda delle sfumature che rendono la comunicazione veramente umana.
4. Conclusioni
Le attuali limitazioni del linguaggio dell'IA non sono insormontabili, ma rappresentano un'opportunità di ricerca cruciale. Affrontare le problematiche pragmatiche e retoriche non renderà l'IA solo un generatore di testo più sofisticato, ma un partner comunicativo più naturale ed efficace. Questo passo, tuttavia, richiederà uno sforzo congiunto tra informatica, linguistica e scienze cognitive, per insegnare alle macchine non solo a parlare, ma a comunicare in modo veramente umano.
Bibliografia
[1] Bambini, V. (2017). Pragmatica della comunicazione umana. Carocci editore.
[2] Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
[3] Schmid, H. (2018). Natural language processing. Oxford University Press.
[4] Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. In Advances in Neural Information Processing Systems.
*Board Member, SRSN (Roman Society of Natural Science)
Past Editor-in-Chief Italian Journal of Dermosurgery