sabato 22 agosto 2015

Il Perugia corpus: una risorsa linguistica disponibile in rete

Dalla fine di giugno del 2015 il Perugia corpus (PEC), un corpus di riferimento dell'italiano contemporaneo, scritto e parlato, è disponibile in rete, all'interno di un sito che prevede l'accesso libero a dati linguistici offerto dall'Università per Stranieri di Perugia.

Il corpus, che include oltre 26 milioni di parole, è suddiviso nei 10 generi testuali riportati in grassetto nella figura. Ciascun genere è a sua volta suddiviso in una serie di sottogeneri (le 43 tipologie testuali elencate nella figura), per un totale di 41.401 testi. Una descrizione più approfondita delle caratteristiche del corpus è disponibile qui.


I 10 generi e le 43 tipologie testuali del PEC

Il PEC è interrogabile attraverso CQPweb, uno dei software più diffusi per la gestione di corpora testuali (qui una serie di corpora in altre lingue della famiglia di CQPweb). Il software permette tra l'altro di effettuare ricerche semplici e complesse sull'intero corpus, su singoli generi o singole tipologie testuali, per anno o per canale (scritto e parlato), e consente di gestire i dati attraverso concordanze, liste di frequenza ed estrazione di collocazioni.

Insieme al PEC è inoltre disponibile CAIL2, un learner corpus scritto di apprendenti dell'italiano di livello intermedio ed avanzato.

L'accesso ai corpora è aperto a tutti, previa registrazione al sito.

Nessun commento:

Posta un commento