Les cartes auto-organisatrices de Kohonen (SOM)

Les cartes auto-organisatrices de Kohonen (SOM) pour la segmentation sémantique de textes

Organisé par le LIASD.
La forte croissance des documents sur le web notamment les documents textuels, rend la recherche d’une information exacte de plus en plus difficile. Il y a eu beaucoup d’intérêt à développer de nouvelles techniques pour explorer et organiser d’une manière automatique ce volume important de données textuelles. Et ce dans le but de faciliter l’exploitation et la visualisation de ces données par l’utilisateur.
Regroupement de texte (Text Clustering) est l’une de ces techniques la plus prometteuse dans ce domaine, qui consiste à regrouper d’une manière non supervisée, des mots ou des documents en fonctions de leur similarité. Cependant, il y a plusieurs méthodes de regroupement (Clustering), parmi ces méthodes nous avons choisi d’utiliser les cartes auto-organisatrices de Kohnoen (SOM). Car ces dernières se sont révélées au fil du temps comme un outil puissant et pratique pour le regroupement et la visualisation de données.
Les cartes topologiques auto adaptatives ou cartes auto-organisatrices SOM (Self Organizing Maps) ont été proposées par Teuvo Kohonen en 1982. Ce modèle s’applique quand on veut classifier des données pour lesquelles on ne dispose d’aucune indication a priori. Le principe de base consiste à regrouper les observations qui se ressemblent dans une même zone sur la carte topologique. Elles sont dotées d’un algorithme d’apprentissage compétitif non supervisé, qui réalise une projection des données multidimensionnelles sur une carte topologique de faibles dimensions (le plus souvent en deux dimensions). La réduction dimensionnelle permet de visualiser des relations de similarité, implicites dans les données, difficiles à visualiser dans leur espace d’origine. Plusieurs extensions de SOM initiales ont été proposées dans la littérature, notamment GSOM (Growing SOM), ayant été développé pour surmonter l’inconvénient de fixer la taille de la carte dans la version standard. Ce modèle est capable de découvrir automatiquement le nombre de clusters.
Plusieurs implémentations de ces variantes existent. Mais, beaucoup de ces algorithmes ne fonctionnent pas efficacement pour un volume important de données textuelles, représentées par des vecteurs creux de grande taille. Afin de pallier ces limites, nous proposons un modèle de SOM, bien adapté à ce type de données.

Informations pratiques

Jeudi 8 décembre 2016
Université Paris 8, UFR MITSIC, Salle A148
Horaires : 13h-15h

Contact
Nourredine Aliane
Doctorant - Laboratoire LIASD

Événements passés

8 décembre 2016

Séminaire organisé par le LIASD.

Lieu : Université Paris 8 - Bâtiment A, salle A148 - De 13h à 15h