Python_2A

Ce projet a été réalisé par Benjamin Amsellem, Martin Bordes et Matthieu Bricaire dans le cadre du cours Python pour le Data scientist en 2ème année de l'ENSAE. Son but est de comparer les réactions engendrées par deux films sortis au cinéma en 2021 : Space Jam: A New Legacy (ou Space Jam 2) et Dune. Cette comparaison sera réalisée au moyen d'une analyse de sentiments sur une base de données constituée par webscraping sur Twitter.

Table des matières

Python_2A

A. Webscraping de Twitter

Le notebook Scraping.ipynb permet de scraper des tweets en Anglais concernant les deux films sur des périodes pertinentes, choisies par les auteurs, et de les passer sous forme de dataframe pandas pour qu'ils soient aisément manipulables par la suite.

B. Préprocessing et visualisation

Les modèles que nous utiliserons dans la partie modélisation relèvent des méthodes supervisées. Nous aurons donc besoin d'une base de données déjà labellisées pour les entraîner. À cette fin nous aurons recours à la base Sentiment140 qui contient 1.6 million de Tweets en langue anglaise, portant sur des sujets divers, et déjà labellisés (Positive ou Negative).

⚠️ N.B. : Nous aurions souhaité enregistrer tous les dataframes préprocessés au format .csv. Cela nous a été possible pour la base des données scrapées sur Twitter et ses huit versions préprocessées de manières différentes. Malheureusement, les huit versions préprocessées de la base d'entraînement Sentiment140 n'ont pas pu être enregistrées en .csv car elles excédaient la capacité maximale uploadable sur Github (200MB contre une limite maximale de 100MB). Les huit versions préprocessées de la basee Sentiment140 seront donc enregistrées en pickle avec l'extension bz2.

Le notebook Preprocessing.ipynb effectue le preprocessing sur cette base Sentiment140 et sur les tweets webscrapés. Il effectue également un travail de visualisation et permet, au moyen de wordclouds, de constater visuellement l'efficacité des différentes méthodes de préprocessing utilisées.

⚠️ N.B. : Nous avons décidé d'effectuer un travail de visualisation en plusieurs parties : la première intervient avant le traitement par modèles de machine learning et sert à constater "visuellement" l'efficacité du préprocessing.La deuxième intervient lors de l'étude des différents modèles de machine learning auxquels nous nous sommes intéressés. La dernière intervient à la fin du projet, elle vise à exploiter les résultats de nos travaux de preprocessing et de machine learning, et nous permet de répondre à notre problématique initiale.

C. Modélisation

Nous entraînons trois modèles d'apprentissage supervisé différents dans trois notebooks différents:

Gaussian Naive Bayes : GaussianNB_model.ipynb
Multinomial Naive Bayes : MultinomialNB_model.ipynb
Logistic Regression : LogisticRegression_model.ipynb

Méthodes de feature extraction utilisées :

Count Vectorizer
TF-IDF
N-grams

D. Conclusion

Le modèle le plus efficace parmi les trois testés est le modèle de régression logistique, utilisé avec la méthode de feature extraction "TfidfVecotrizer" avec Ngram. Le notebook Conclusion.ipynb applique ce modèle entraîné sur la base Sentiment140 à la base de tweets webscrapés en première partie. Puis il propose une visualisation qui montre l'évolution des sentiments sur les deux films dans le temps, et qui permet de les comparer ainsi que de mesurer le succès qu'ils ont connu.

Merci de votre attention et bonne lecture !

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Python_2A

Table des matières

A. Webscraping de Twitter

B. Préprocessing et visualisation

C. Modélisation

D. Conclusion

About

Releases

Packages

Contributors 4

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
Data		Data
.gitignore		.gitignore
Conclusion.ipynb		Conclusion.ipynb
GaussianNB_model.ipynb		GaussianNB_model.ipynb
LICENSE		LICENSE
LogisticRegression_model.ipynb		LogisticRegression_model.ipynb
MultinomialNB_model.ipynb		MultinomialNB_model.ipynb
Preprocessing.ipynb		Preprocessing.ipynb
README.md		README.md
Scraping.ipynb		Scraping.ipynb

License

MartinBordes/Python_2A

Folders and files

Latest commit

History

Repository files navigation

Python_2A

Table des matières

A. Webscraping de Twitter

B. Préprocessing et visualisation

C. Modélisation

D. Conclusion

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Languages

Packages