Course details

Questo corso nasce come introduzione al text mining con R. Cominceremo con un'introduzione relativa agli usi dei dati non strutturati nelle varie lingue. Proseguiremo poi nel vedere con una parte teorica relativa al preprocessing  di testi per l'analisi. Impareremo a effettuare la pulizia e l'analisi dei testi con le funzioni base, e poi con il pacchetto tm, uno dei più importanti sul text mining in R. 

Parleremo di alcune metodologie di machine learning, sia supervisionate che non supervisionate, per la classificazione dei testi, ad esempio per discernere un testo come spam o non spam tramite procedure automatiche (ad esempio tramite algoritmi di regressione knn e alberi di decisione), o come clusterizzare i testi tramite metodologie di clustering e di LDA.

Andando avanti vedremo come estrarre e analizzare dati da Twitter, e come utilizzare altre stringhe e pacchetti per estrarre e modificare i nostri testi. Vedremo anche altri pacchetti per la pulizia, il calcolo degli ngram e il Natural Language Processing.

Dedicheremo una sezione anche alla visualizzazione di dati, tramite grafici a barre, cluster e wordcloud. 

Infine ci dedicheremo ad alcune metodologie, supervisionate e non supervisionate, per la Sentiment Analysis. Il corso si chiude con alcuni accenni all'analisi qualitativa dei testi tramite il pacchetto RQDA.

Updated on 27 December, 2017
Courses you can instantly connect with... Do an online course on Programming starting now. See all courses

Rate this page