mercoledì 1 giugno 2016

Fiumi di parole: un nuovo e-book sulla lingua e il discorso di Twitter


Da ieri (31 maggio) l’ebook a cui ho lavorato negli ultimi mesi, Fiumi di parole. Discorso e grammatica delle conversazioni scritte in Twitter, è disponibile
nelle maggiori librerie online e in tutti i formati più diffusi.
Si tratta, almeno a mia conoscenza, del primo studio sistematico italiano sugli aspetti linguistici e discorsivi delle interazioni in Twitter, basato su un ampio campione di dati reali estratti da Twitter, analizzati anche attraverso metodologie statistico-quantitative.
In questa pagina ci sono i link ai siti delle librerie online in cui è possibile acquistare l'ebook.
Questo è l'indice, e questa è l'introduzione.



venerdì 1 gennaio 2016

Le parole più usate dai giornali nel 2015

Come l'anno scorso, gli ultimi due giorni dell'anno ho guardato alcuni dati estratti da quotidiani italiani pubblicati nel 2015, per ricavare, usando metodologie statistiche (la misura della keyness in particolare), le parole che hanno caratterizzato la stampa del 2015 rispetto a quella dell'anno precedente. Ho utilizzato in particolare 45.000 articoli usciti nel 2015 (oltre 21 milioni di parole) e li ho confrontati con 65.000 usciti nel 2014.
Il risultato sono alcune centinaia di parole specifiche degli articoli di giornale di quest'anno: nel confronto con quelle dell'anno precedente, infatti, risultano usate con frequenza statisticamente anomala. Le possiamo quindi considerare le parole chiave usate dalla stampa nel 2015.

Migranti
Il sostantivo più specifico del 2015 è migranti; in generale, tutta l'area relativa ai flussi migratori è molto più presente nella stampa del 2015 rispetto all'anno precedente (sono usati molto di più ad esempio profughiaccoglienza, immigrati, rifugiati, asilo, barconi, immigrazione, scafisti).

Grecia
Un altro tema che ha molto occupato la stampa di quest'anno rispetto all'anno scorso è quello della Grecia e della sua crisi economica, come dimostra l'elevato valore di keyness di parole come Grecia, Atene, Syriza, greci, creditori, grexit.

Terrorismo
I temi legati al terrorismo sono presenti in modo capillare nelle parole-chiave della stampa del 2015: Charlie Hebdo, Isis, Parigi, attentati, terrorismo, terroristi, strage, Bataclan, vignettejihadisti rientrano fra le 100 parole con valori di keyness più alti.

Guerra e religione
Nonostante corrisponda ad un tema sempre molto presente nella stampa, anche guerra ricorre significativamente di più sui giornali di quest'anno, specialmente quando è associato ad elementi lessicali che riguardano la religione (Islam, islamici, musulmani, religione, jihadista).

Cronaca
Alcuni fatti di cronaca, nazionale ed internazionale, sono rispecchiati nell'uso frequente di specifiche parole: ad esempio Volkswagen, relativo allo scandalo che ha coinvolto la casa automobilistica tedesca, Giubileo, CasamonicaExpoxylella, il batterio che ha colpito gli ulivi del Salento.
Da segnalare che il 2015 è stato anche l'anno della scuola, di cui si è parlato significativamente di più rispetto all'anno precedente, e della questione del gender, che ha fatto molto discutere anche sulla stampa.

Nomi propri
Una classe di parole che riporta sempre valori di keyness molto elevati è quella dei nomi propri di persona, che variano molto nell'uso dei giornali a seconda dei periodi. Il 2014 è stato l'anno di Renzi (il nome di persona più caratterizzante). I 20 nomi propri di persona che hanno più caratterizzato la stampa del 2015 sono invece quelli riportati nella tab. 1.

Tab. 1 - I 20 nomi propri di persona più specifici del 2015 rispetto al 2014

I nomi rispecchiano alcuni fatti di cronaca di cui si è molto parlato lo scorso anno (l'aereo precipitato della Germanwings, pilotato da Lubitz, l'attentato a Charlie Hebdo, messo in atto dai fratelli Kouachi, o la sparatoria al tribunale di Milano, ad opera di Giardiello). La politica estera è rappresentata essenzialmente da politici greci, al centro dell'attenzione della stampa per molti mesi, mentre quella italiana dal presidente Mattarella, eletto quest'anno, e da alcuni politici la cui presenza sui giornali è stata evidentemente molto più marcata rispetto all'anno precedente (Salvini, Marino, De Luca, Paita e Gentiloni).

Aggettivi: poca originalità
Infine, è da rilevare la scarsità di aggettivi presenti tra le 500 parole con misura di keyness più elevata: tra questi, indisponibili (riferito a calciatori che non possono giocare la prossima partita), sedicente (relativo all'ambito terroristico: il sedicente Califfato o Stato islamico), satirico, e poi un paio di neo-formazioni di ambito politico (verdiniani e fittiani). Una categoria a parte è quella individuata dall'aggettivo sostantivato impresentabili, che si riferisce soprattutto ai candidati con problemi in sospeso con la giustizia, ma anche a personaggi (troppo) spesso presenti in programmi televisivi o a manifestazioni pubbliche.
In generale, questa scarsità di aggettivi come parole-chiave in un'annata di articoli di giornale indica che i giornalisti tendono a riutilizzare sempre gli stessi: cambiano gli avvenimenti che vengono descritti, quindi, ma si usano tendenzialmente le stesse parole per farlo. Per il 2016 vogliamo auspicare un piccolo sforzo in più nel senso dell'originalità?

sabato 22 agosto 2015

Il Perugia corpus: una risorsa linguistica disponibile in rete

Dalla fine di giugno del 2015 il Perugia corpus (PEC), un corpus di riferimento dell'italiano contemporaneo, scritto e parlato, è disponibile in rete, all'interno di un sito che prevede l'accesso libero a dati linguistici offerto dall'Università per Stranieri di Perugia.

Il corpus, che include oltre 26 milioni di parole, è suddiviso nei 10 generi testuali riportati in grassetto nella figura. Ciascun genere è a sua volta suddiviso in una serie di sottogeneri (le 43 tipologie testuali elencate nella figura), per un totale di 41.401 testi. Una descrizione più approfondita delle caratteristiche del corpus è disponibile qui.


I 10 generi e le 43 tipologie testuali del PEC

Il PEC è interrogabile attraverso CQPweb, uno dei software più diffusi per la gestione di corpora testuali (qui una serie di corpora in altre lingue della famiglia di CQPweb). Il software permette tra l'altro di effettuare ricerche semplici e complesse sull'intero corpus, su singoli generi o singole tipologie testuali, per anno o per canale (scritto e parlato), e consente di gestire i dati attraverso concordanze, liste di frequenza ed estrazione di collocazioni.

Insieme al PEC è inoltre disponibile CAIL2, un learner corpus scritto di apprendenti dell'italiano di livello intermedio ed avanzato.

L'accesso ai corpora è aperto a tutti, previa registrazione al sito.

domenica 1 marzo 2015

60 anglicismi nella stampa italiana, dal 1985 ad oggi

Alcuni eventi recenti (la petizione #dilloinitaliano, promossa da Annamaria Testa, che ha in breve tempo raccolto decine di migliaia di adesioni, e il convegno "La lingua italiana e le lingue romanze di fronte agli anglicismi", organizzato dall'Accademia della Crusca) hanno riportato all'attenzione di tutti il tema della (eccessiva) diffusione di anglicismi nella nostra lingua. In discussione è in particolare l'opportunità di tutelare l'italiano, semplicemente promuovendo un uso più consapevole degli anglicismi (come auspica il testo della petizione), o, più incisivamente, attraverso l'istituzione di apposite commissioni che vigilino sul dilagare del fenomeno (di questo e di molti altri aspetti parla il prezioso articolo di Luca Serianni sul Corriere della Sera).
Sul banco degli imputati sono in particolare i mezzi di comunicazione, nei quali soprattutto è diffuso l'uso, spesso sciatto o pigro, di parole inglesi al posto di corrispondenti parole, perfettamente esistenti in italiano. O, peggio ancora, l'uso furbetto e consapevole di alcuni giornalisti, che mirano, attraverso l'inglese, ad evocare nei lettori una sorta di immotivato ed anestetizzante prestigio culturale. 
La disponibilità di corpora di giornali italiani consente di monitorare l'evoluzione nella stampa delle parole che importiamo dall'inglese, per comprendere meglio le cause del loro uso così frequente. È quello che ho brevemente cercato di fare, prendendo in esame i seguenti 60 anglicismi di ampia diffusione in italiano:
audience, austerity, authority, background, backstage, badge, band, benefit, box, brand, budget, business, cameraman, card, cash, coach, compilation, convention, copyright, display, editor, escalation, fan, fashion, fitness, flop, gadget, gap, gossip, hot, kit, leader, light, live, look, manager, marketing, network, partner, pullman, sandwich, show, sprint, staff, stand, store, stress, target, team, teenager, test, ticket, tilt, top, trailer, trend, turnover, tutor, welfare, workshop.
I dati che ho utilizzato per analizzare la diffusione dei 60 anglicismi sono:

  • il corpus Repubblica, che include gli articoli pubblicati dal quotidiano nelle 16 annate che vanno dal 1985 al 2000;
  • un corpus di articoli del Corriere della Sera pubblicati nel 2012;
  • un corpus che include gli articoli pubblicati dalle testate online di Il Post, Huffington Post, Il Fatto quotidiano e Il Giornale nel 2013 e nel 2014.

Un arco temporale di 30 anni, dunque, anche se con un buco di 11 anni (dal 2001 al 2011). Ecco, in breve, che cosa è emerso.

Anglicismi in aumento
Per circa i 2/3 degli anglicismi analizzati, nell'ultimo trentennio si osserva un aumento costante nella loro frequenza d'uso. Questo aumento diventa un'impennata nel passaggio dal 2000 al 2012 (vedi il grafico in fig. 1 sulla frequenza di fan); possiamo ipotizzare che l'aumento si sia mantenuto costante anche negli 11 anni non coperti dai dati, e che quindi le frequenze del 2014 siano il risultato di un incremento progressivo e costante nel tempo. 


Fig. 1 : Frequenza di fan nei giornali analizzati (per milione di parole)


Per alcuni anglicismi, tuttavia, l'impennata si registra in particolare nel passaggio dal 2012 al 2013; in questi casi (vedi gli esempi in fig. 2 di trailer, hot e stress) possiamo ipotizzare che la rilevanza dell'incremento sia legata al fatto che le testate analizzate siano online (è questo secondo me il caso di trailer: i quotidiani online rimandano spesso agli anteprima dei film in uscita), oppure ad un generale atteggiamento della stampa nei confronti di alcuni lemmi, associati ad esempio ad una maggiore presa sul pubblico rispetto agli equivalenti italiani.


Fig. 2 : Frequenza di trailer, hot e stress nei giornali analizzati (per milione di parole)

Anglicismi stabili
Ci sono tuttavia casi sporadici di anglicismi rimasti più o meno stabili nelle loro frequenze d'uso nel corso del trentennio analizzato: la fig. 3 mostra l'andamento di ticket, che, se si eccettua il picco del 1989 (anno in cui nel Sistema Sanitario Nazionale fu introdotto, appunto, un ticket sulle prestazioni mediche), non mostra sostanziali incrementi nel corso degli anni.


Fig. 3 : Frequenza di ticket nei giornali analizzati (per milione di parole)

Anglicismi oscillanti
Un piccolo gruppo di anglicismi presenta invece un andamento tendenzialmente oscillante, piuttosto che una tendenza costante all'aumento di frequenza. Si tratta probabilmente di parole legate ad eventi specifici che caratterizzano in misura diversa differenti periodi. È questo ad esempio il caso di convention (vedi fig. 4).


Fig. 4 : Frequenza di convention nei giornali analizzati (per milione di parole)

Anglicismi in calo
Ebbene sì, ci sono anche pochi anglicismi che sembrano essere usati di meno negli ultimi due o tre anni dai giornali italiani. Pullman, ad esempio, è in flessione dal 2000; partner ha iniziato a declinare dal 2012; card (fig. 5) scende vistosamente a partire dal 2013.


Fig. 5 : Frequenza di card nei giornali analizzati (per milione di parole)

Per concludere
La maggior parte dei 60 anglicismi analizzati tende ad essere utilizzata nei quotidiani italiani in misura crescente nel corso degli anni (Michele Cortelazzo ha riscontrato a questo proposito che "tutti i forestierismi hanno dei periodi di latenza di alcuni anni prima di imporsi con forza all’attenzione del parlante non specializzato"). Questo incremento raggiunge in alcuni casi dei veri picchi di frequenza, che si registrano più spesso negli ultimi due o tre anni, oppure in periodi in cui situazioni contingenti portano ad un uso generalizzato di quel lemma, che si impone in modo repentino sugli antagonisti italiani (nel già citato caso di ticket, la scelta era già stata effettuata a monte dai rappresentanti politici che avevano presentato la norma, probabilmente considerando che ticket sarebbe stato meno ostico per i contribuenti rispetto a tassa).
Dall'analisi dei dati si rileva dunque una tendenza generalizzata (anche se con alcune eccezioni) ad un uso crescente nel tempo del campione di anglicismi; occorre ora cercare di quantificare e misurare l'entità di questa tendenza, per indagare le cause che portano un termine inglese ad avere più successo di un altro o ad essere sistematicamente preferito ad un equivalente termine italiano. Il seguito alla prossima puntata.


martedì 17 febbraio 2015

Le conversazioni scritte dei social media

Dal 19 al 21 febbraio si terrà a Lecce il convegno annuale dell'Associazione Italiana di Linguistica Applicata (AITLA: questo è il sito del convegno).
Sabato 21 è prevista una mia presentazione dal titolo Le conversazioni scritte dei social media: un’analisi multidimensionale. Queste sono le slide della mia presentazione (via Slideshare).




martedì 23 dicembre 2014

Selfie, patto e stress: le parole-chiave del 2014 secondo i giornali

E’ la fine dell’anno: tempo di bilanci e di valutazioni, anche nelle parole a cui siamo stati esposti nel corso del 2014. Le righe che seguono non si riferiscono però alle parole che abbiamo amato o odiato di più lo scorso anno, ma a quelle che sono state effettivamente usate dalla stampa quotidiana. Per ottenerle, ho prelevato più di 60.000 articoli di giornale pubblicati quest’anno, e li ho messi a confronto, usando una metodologia statistica, con circa 180.000 articoli pubblicati dalla stampa nel 2013 e nel 2012.
Il risultato è il contributo lessicale specifico del 2014, che lo differenzia rispetto ai due anni precedenti. Ecco in breve che cosa è emerso.

La cronaca
A dispetto dell’idea positivista che ci vuole ormai vittoriosi sulla natura e sulle malattie, lo scorso anno si è parlato in modo specifico di Ebola, epidemie, virus e quarantena, di alluvione e di torrenti. Si è scritto inoltre di un muratore ritenuto assassino, di un aereo che ha avuto problemi durante un volo, di continui casi di overdose, di (baby) squillo e di assoluzioni. Sono tutte parole legate a specifici fatti di cronaca che hanno occupato a lungo le pagine dei giornali, come anche quelle relative all’evento sportivo dell’anno, i mondiali di calcio, che hanno fatto scrivere i giornalisti di ct, azzurri, centrocampo, tifosi, maglia, portieri ed ammoniti.

Notizie dal mondo
Le parole che ci hanno narrato i fatti più importanti accaduti nel mondo ci consegnano l’istantanea di una situazione internazionale spesso drammatica e pervasa da conflitti; se la parola-chiave delle relazioni internazionali, oggi come centinaia di anni fa, sembra essere frontiera, queste parole ci raccontano soprattutto di Isis e Ucraina, Jihadisti, miliziani, raid, sanzioni, cessate il fuoco, combattenti, persone rapite, annessione, e addirittura di decapitazione e tagliagole (ma anche, per fortuna, di ostaggi liberati e di tregua).

La politica italiana
Matteo Renzi (in tutte le sue manifestazioni: i renziani, il renzismo, Renzie, i gufi, la palude, gli scout, l’annuncite e le slide) è il politico più citato nel 2014 nel confronto con i due anni precedenti. I temi di cui si è parlato in particolare quest’anno sono le immancabili riforme, le preferenze, la soglia di sbarramento, la minoranza (non quella opposta alla maggioranza di governo: la minoranza PD o Dem), la spending review, il bonus (di 80 euro), la busta paga, il rimpasto, gli appalti, gli euroscettici, le coperture, i tagli, le tutele e le partecipate. Le ministre sono un’altra specificità lessicale di quest’anno, insieme alle due inquietanti locuzioni svolta/deriva autoritaria. I politici nominati di meno nel 2014 rispetto ai due anni precedenti sono invece Monti, Bersani, Letta, Ingroia, Bossi, Cancellieri e Berlusconi.
Patto è a mio giudizio la parola-simbolo del lessico usato dai giornali in ambito politico: a parte la recente versione di quello del Nazareno, parlando di patto i giornalisti sembrano dare il meglio di sé nello scovarne infinite e sottilissime variazioni: alla tedesca, della staffetta, di bilancio, di coalizione, di collaborazione, di consultazione, di desistenza, di governo, di fiducia, di lealtà, di legislatura, di non belligeranza o di stabilità. Un patto può essere bipartisan, civico, costituente, d’acciaio, d’onore, generazionale e per le riforme; ma anche segreto, sotterraneo, tacito, e addirittura scellerato.

Parole quotidiane
I giornali nel 2014 sono anche caratterizzati dall’uso di molti termini della vita quotidiana. Alcuni appartengono al dominio della tecnologia, dove spiccano il pluripremiato selfie, Whatsapp, hashtag e tweet. Altri provengono dal campo delle scienze, come dna, usato in campo medico e giudiziario, ma anche nella frequentissima locuzione è nel suo dna (detto spesso di squadre di calcio che “nel proprio dna” hanno la vittoria). L’anno che si sta chiudendo è inoltre caratterizzato dai divorziati e dagli ex (ex leader, magistrato, alleato, ministro, parlamentare, partito, amministratore, oltre che ex partner, coniuge, marito/moglie, amico), a testimonianza del fatto che le persone di cui si parla sui giornali sono spesso le stesse, anche se ricoprono nel tempo ruoli diversi. Un’altra categoria protagonista del 2014 sono i genitori: nei giornali sono crudeli, spaventosi, illusi, iperprotettivi, divorziati, separati, insopportabili, e solo a volte amorevoli. I genitori abbandonano, invecchiano, e sono talvolta associati ad un’azione con cui non dovrebbero mai avere a che fare, né come soggetti né come oggetti: massacrare.

Ciò che in definitiva colpisce, analizzando le parole-chiave del 2014, è l’assenza quasi totale di leggerezza e di speranza; si sa che i giornali scrivono soprattutto di notizie cattive e che il buono e il bello trovano poco spazio sulla stampa, ma l’anno che sta terminando sembra caratterizzato da un’atmosfera cupa, senza spiragli. Le parole che lo descrivono ci consegnano insomma l’immagine di un anno vissuto con difficoltà: proporrei quindi come parola giornalistica dell’anno stress, che nel 2014 è stress economico, finanziario, emotivo, da lavoro, fisico, psicologico; in breve, quest’anno lo stress è stato il nostro pane quotidiano.

mercoledì 5 novembre 2014

I titoli dei giornali online, negoziatori di condivisione

I titoli dei giornali online si stanno trasformando rispetto a quelli dei giornali cartacei; è questa l'ipotesi che ho cercato di dimostrare in un lavoro che ho presentato al XIII Convegno della SILFI (Società Internazionale di Linguistica e Filologia Italiana. Il testo integrale dell'articolo è qui). 
Nella mia ricerca ho analizzato oltre 85.000 titoli di quotidiani pubblicati tra il 2012 e il 2013; più in particolare, ho messo a confronto i titoli di quattro quotidiani online (Il Post, l'Huffington Post, Il Fatto quotidiano e Il Giornale) con quelli di un quotidiano cartaceo, il Corriere della sera. Tra i quotidiani online, ne ho selezionati due che non hanno mai avuto un'edizione cartacea, e quindi sono nativamente delle testate online (Il Post e l'Huffington Post), e due che invece hanno anche una parallela edizione cartacea (Il Fatto quotidiano e Il Giornale).
La mia ipotesi è che i titoli online siano sempre più influenzati dal fatto di essere diffusi attraverso i social media: le redazioni dei giornali li riversano continuamente nel flusso delle conversazioni online attraverso i loro profili Facebook e Twitter, con l'obiettivo di catturare l'attenzione dei lettori e di indurli a cliccare sul link e visitare le pagine dei relativi articoli.
Il titolo, dunque, diventa una sorta di negoziatore di condivisione, con la funzione cruciale di attrarre il numero più elevato possibile di lettori nelle pagine online dei quotidiani.
In che modo il titolo online svolge questa funzione? La mia prima ipotesi è che i titoli tendano ad instaurare una relazione diretta coi lettori, rivolgendosi a loro in modo esplicito. Linguisticamente, questo corrisponde ad esempio all'uso di domande dirette o di pronomi di prima e seconda persona, come negli esempi:


Ve la ricordate la spiaggia di "The Beach"? Ora è diventata così.  (HP)
Voi, dove volete andare? (Il Post)
Louis Vuitton vi spiega come fare le valigie (Il Post)

Il grafico mostra come tutti e tre i tratti linguistici che indicano il tentativo di relazionarsi direttamente coi lettori raddoppiano la loro frequenza nelle edizioni online.


Domande dirette (non incluse in un discorso diretto) e pronomi di II persona sing. e pl. nei titoli online e cartacei (per 1.000 parole)

Parallelamente, nei titoli online si osserva un uso più limitato di alcuni tratti linguistici che per decenni sono stati dei cliché dei titoli di giornale; eccone alcuni:
  • i titoli che iniziano con e o con ma, che rivelano il riferimento ad un contesto noto al lettore, magari perché trattato in un articolo posto fisicamente vicino, come negli esempi: Ma a chi serve la Torino - Lione?  (Fatto), oppure E il Caimano si svegliò Ornitorinco  (Fatto);
  • i titoli che usano delle false subordinate, che non dipendono da nessuna principale, e che sono spesso introdotte da se o quando: Se le madri che lavorano soffrono meno di depressione (CDS), oppure Quando il tweet crea imbarazzo (CDS);
  • i titoli introdotti da così o da quel, come in Quel muro in Golan che separa gli innamorati (Fatto), oppure  Così il rigore del Prof ha messo al tappeto l' economia italiana (Giornale).
Tutti questi fenomeni subiscono una drastica riduzione nei titoli dei quotidiani online, che sembrano dunque servirsi di meno di usi linguistici cristallizzati (e in buona parte usurati) nel corso degli ultimi decenni.

Alcuni cliché usati nei titoli online e cartacei (per 1.000 parole)

Infine, è interessante notare come ci siano differenze sostanziali tra i quotidiani online che hanno anche un'edizione cartacea (Il Giornale, Il Fatto) e quelli nativamente online (Il Post, HP). Un'analisi per cluster dei tratti linguistici considerati sopra mostra infatti che i titoli dei due quotidiani solo online si comportano in modo omogeneo, formando un unico cluster, mentre Il Giornale in particolare ha un comportamento decisamente disomogeneo, e tendenzialmente più simile a quello del quotidiano cartaceo, il Corriere della sera.
Questo è probabilmente dovuto al fatto che Il Giornale utilizza per la sua edizione online gli stessi titoli dell'edizione cartacea, oppure che è meno influenzato rispetto alle altre testate online dai mutamenti che la diffusione attraverso i social network sta comportando.

Analisi per cluster agglomerativi, metodo di Ward

Nell'articolo integrale riporto l'analisi di altri tratti linguistici che differiscono nei titoli online e cartacei; ciò che sembra evidente, come risultato dell'analisi, è che la fruizione attraverso i social media e il loro flusso di conversazioni scritte sta gradualmente modificando i titoli dei quotidiani online.