Ce projet a été réalisé par Benjamin Amsellem, Martin Bordes et Matthieu Bricaire dans le cadre du cours Python pour le Data scientist en 2ème année de l'ENSAE. Son but est de comparer les réactions engendrées par deux films sortis au cinéma en 2021 : Space Jam: A New Legacy (ou Space Jam 2) et Dune. Cette comparaison sera réalisée au moyen d'une analyse de sentiments sur une base de données constituée par webscraping sur Twitter.
Le notebook Scraping.ipynb permet de scraper des tweets en Anglais concernant les deux films sur des périodes pertinentes, choisies par les auteurs, et de les passer sous forme de dataframe pandas pour qu'ils soient aisément manipulables par la suite.
Les modèles que nous utiliserons dans la partie modélisation relèvent des méthodes supervisées. Nous aurons donc besoin d'une base de données déjà labellisées pour les entraîner. À cette fin nous aurons recours à la base Sentiment140 qui contient 1.6 million de Tweets en langue anglaise, portant sur des sujets divers, et déjà labellisés (Positive
ou Negative
).
Le notebook Preprocessing.ipynb effectue le preprocessing sur cette base Sentiment140 et sur les tweets webscrapés. Il effectue également un travail de visualisation et permet, au moyen de wordclouds, de constater visuellement l'efficacité des différentes méthodes de préprocessing utilisées.
Nous entraînons trois modèles d'apprentissage supervisé différents dans trois notebooks différents:
- Gaussian Naive Bayes : GaussianNB_model.ipynb
- Multinomial Naive Bayes : MultinomialNB_model.ipynb
- Logistic Regression : LogisticRegression_model.ipynb
Méthodes de feature extraction utilisées :
- Count Vectorizer
- TF-IDF
- N-grams
Le modèle le plus efficace parmi les trois testés est le modèle de régression logistique, utilisé avec la méthode de feature extraction "TfidfVecotrizer" avec Ngram. Le notebook Conclusion.ipynb applique ce modèle entraîné sur la base Sentiment140 à la base de tweets webscrapés en première partie. Puis il propose une visualisation qui montre l'évolution des sentiments sur les deux films dans le temps, et qui permet de les comparer ainsi que de mesurer le succès qu'ils ont connu.
Merci de votre attention et bonne lecture !