Topic Analysis dell'epistolario di Svevo

Nel sottoporre ad analisi statistica le lettere sveviane per ricavarne i temi maggiormente trattati,  sono state considerate solo le lettere scritte in italiano (826 delle totali 894) dal momento che le missive in francese, tedesco e inglese non erano sufficienti a fornire risultati significativi e tradurle sarebbe stato lungo e poco proficuo per le finalità del progetto.
I testi di lingua italiana sono stati preparati per procedere al data mining e per massimizzare la quantità di informazioni sugli argomenti contenuti nelle lettere, riducendo al minimo le dimensioni del dizionario che si sarebbe generato a partire dalle parole che compongono il “macrotesto” lettere di Svevo.
 
La preparazione è avvenuta per fasi. Si è provveduto a
1 – tokenizzare i testi delle lettere, convertendoli in un unico mosaico di parole (token) riportate in carattere minuscolo;
2 – rimuovere la punteggiatura
3 – togliere le stopwords contestuali dai token: la lista di stopwords ( “parole da non considerare” perché non portatrici di significato se non all’interno del contesto e perciò trascurate dai motori di ricerca – per portare un esempio d’uso comune) di riferimento per la parte di topic modeling è quella italiana di spaCy, una library (vale a dire lista di parole) di un software open-source usato per il Natural Language Processing.
Oltre a queste, sono state eliminate stopwords contestuali specifiche, che ricorrono molto spesso nelle lettere in quanto atto della comunicazione che prevede formule di saluto ripetitive, la presenza di molti nomi propri e di verbi generici usati per raccontare azioni quotidiane. Nella fattispecie, sono state considerate stopwords contestuali ‘schmitz’, ‘signore’, ‘signora’, ‘mano’, ‘ettore’, ‘lettera’, ‘parola’, ‘fare’, ‘cosa’
4 – part-of-speech-tagging è l’atto di associare ad ogni termine in una frase il suo ruolo grammaticale nella frase stessa (esempio: verbo, complemento, congiunzione). Per la parte di topic modeling sono stati sottoposti a POS i nomi comuni e propri e i verbi all’infinito, in quanto parole portatrici del maggior numero di informazioni riguardo al tema (topic) di cui tratta un qualsiasi testo.
5 – lemmatizzazione dei token, ovvero riportare le varie forme con cui le singole parole ricorrono nel testo analizzato alla loro forma di base, ossia di lemma (per cui, ad esempio, le voci verbali penso pensavo pensarono pensasse pensando etc. vengono tutte ricondotte al modo infinito pensare).
 
Un passaggio cruciale è stato quello di eseguire un ulteriore filtraggio del dizionario, rimuovendo tutte le parole ricorrenti in meno di cinque lettere o più del 5% in tutto corpus. Questa fase è stata necessaria per rimuovere i valori anomali, in particolare i saluti e le espressioni senza alcun peso reale per un’analisi dei temi di cui Svevo tratta nelle sue lettere.
 

Il modello e il suo allenamento

Per effettuare la Topic Analysis è stato utilizzato il modello di LDA latent Dirichlet allocation contenuto nella libreria gensim con la caratteristica di essere allenato attraversando l’intero corpus italiano 200 volte per rendere più precisa la divisione dei temi.
Per la Topic Analysis delle lettere di Svevo è stato utilizzato il modello a cinque temi. Il modello è stato valutato confrontando la distribuzione temporale degli argomenti con una sequenza temporale contenente tutti gli eventi significativi nella vita di Svevo. Questa procedura ha confermato la pertinenza delle scelte progettuali, producendo un’evidente relazione tra gli argomenti nelle lettere e gli eventi nella vita dell’autore.