restricted:rec

Ces travaux dirigés sont des "notebooks" fonctionnant sur l'interpréteur "jupyter". Les notebooks permettent d'écrire et d'exécuter des scripts python à l'aide d'un simple navigateur web. Les résultats d'exécution sont conservés et peuvent être retrouvés d'une session à l'autre.

Téléchargez les fichiers .ipynb dans un dossier. Ouvrez un terminal dans ce même dossier et tapez :

jupyter-notebook

Ceci ouvre un onglet de l'interpréteur jupyter dans votre navigateur. Cliquez ensuite sur le notebook sur lequel vous souhaitez travailler.

Pour utiliser un notebook, voir :

La librairie numpy

Les exercices et problèmes seront réalisés à l'aide des librairies scientifiques de Python: numpy, scipy et matplotlib. Le lien suivant propose une introduction à la librairie numpy (manipulation de matrices et de vecteurs en Python) :

La librairie scikit-learn

Téléchargez le fichier suivant :

Filtrage collaboratif sur la base "MovieLens"

Téléchargez le fichier suivant :

Le but de ce TD est de développer un moteur de recherche dans une base de textes. Nous utilisons une base constitués d'un peu plus de 11.000 messages postés sur des forums de discussion (anglophones), fréquemment utilisée en analyse des données.

Il s'agit de la base 20newsgroups.

Le TD est constitué de plusieurs exercices ainsi que d'un problème. Les principales opérations sont réalisées à l'aide de la librairie scikit-learn.

  • indexation des fichiers et des termes
  • génération une matrice creuse comptant les fréquences d'occurrence des termes
  • vectorisation des messages et des requêtes
  • fichier inverse
  • calcul de similarité et tri de la liste des réponses
  • restricted/rec.txt
  • Dernière modification : 2023/01/12 13:42
  • de edauce