Text mining et insoumission

Text mining et insoumission

La fouille de textes, plus couramment désignée par l'anglicisme text mining, est une branche de l'extraction de données (data mining), sous-domaine de l'intelligence artificielle. Elle consiste à extraire des éléments d'un texte ou d'un corpus de textes enfin de révéler de façon automatique leurs significations.

Le text mining

text-mining-1476780_640Pour donner du sens à ces données textuelles, la fouille de textes fait appel à des algorithmes d'apprentissage et à des outils statistiques, couplés à des éléments de linguistique. Partant de là, une première étape consiste à analyser ces documents à travers les mots et phrases qu'ils renferment, leurs relations ainsi que leurs sens. Puis souvent, une seconde étape vise à tirer des conclusions de cette analyse en classant des documents ou des portions de texte, en mettant en exergue des phrases, mots ou champs lexicaux caractéristiques, ...

Le text mining permet entre autres de détecter des anomalies dans un texte et ainsi de classer un courriel dans les courriers indésirables, d'aider une équipe médicale dans un diagnostic, de mieux cibler un client dans une démarche marketing ou encore d'améliorer les résultats de requêtes soumises à son moteur de recherche.

Application à des contributions  d'internautes

Dans cet article, je vous propose une petite étude sans prétention mêlant la fouille de textes à la politique, à travers les contributions programmatiques faites par les membres de la France Insoumise, mouvement lancé par Jean-Luc Mélenchon pour l'élection présidentielle de 2017. Ces propositions d'internautes ont été faites sur la plateforme collaborative JLM2017.fr et ont constitué un des viviers pour la rédaction du programme porté par le candidat. Leur récupération a été faite sous R avec des lignes de codes semblables à celles présentées dans l'article Vexillologie et segmentation.

Pour ce faire, deux méthodes de text-mining sont utilisées : les nuages de mots et l'analyse de similitudes. Elles ont tous les deux été réalisées à partir du logiciel libre iRaMuTeQ, distribué sous les termes de la licence GNU GPL v2 et développé par le Laboratoire d’Études et de Recherches Appliquées en Sciences Sociales de l’Université Toulouse 3 - Paul Sabatier. Elles requièrent toutes les deux une étape de pré-traitement, appelée lemmatisation en linguistique. Commençons donc par un petit focus sur cette technique avant de décrire sommairement les méthodes et de commenter les résultats associés.

Lemmatisation

La lemmatisation est souvent nécessaire en amont d'un algorithme de text mining afin d'éviter de comptabiliser séparément un verbe au conditionnel et sa forme au futur, un nom au singulier et sa forme au pluriel, ou encore un mot au masculin et sa forme au féminin. Cette analyse lexicale vise ainsi à réduire chaque mot à sa forme canonique, appelée lemme. En pratique, elle consiste à mettre chaque verbe à l'infinitif et chaque adjectif et nom commun au masculin singulier. Selon l'objectif de l'étude, une telle lemmatisation peut être contraignante, ne permettant pas de mettre en avant l'existence d'une disparité de genre par exemple. La lemmatisation a été menée avec le logiciel Iramuteq.

Nuages de mots

Un nuage de mots (word clouds), aussi appelé analyse textométrique, est une représentation graphique des occurrences des mots intervenant dans un ou plusieurs textes. Généralement, il attribue une taille de caractères proportionnelle à la fréquence d'apparition d'un mot donné. Parfois, cette fréquence est également retranscrite dans le jeu de couleurs utilisé via l'utilisation de différentes couleurs ou de dégradés, dans l'opacité des caractères, ... Une fois les propriétés graphiques des mots spécifiées selon leurs occurrences, ils sont affichés dans un carré, un cercle ou un ovale de façon le plus souvent aléatoire, tant dans leur positionnement les uns par rapport aux autres que dans leur inclinaison. Cet aléa implique de générer plusieurs nuages afin de retenir le plus lisible.

Si on trouve les premières traces de nuages de mots dans des écrits des années 1990, c'est bien le début du vingt-et-unième siècle à travers l'émergence du Web 2.0 qui a popularisé cet outil simple de visualisation de données, permettant de mettre en exergue les mots-clés (tags) des sites Internet. Ce type d'usage permet de mettre en avant des sujets plus populaires que d'autres. Par ailleurs, les mots ainsi représentés sont souvent pourvus de liens hypertextes permettant lorsqu'on clique sur un mot-clé particulier d'ouvrir une page référençant tous les articles qui lui sont associés. On a aussi pu découvrir sur la toile des nuages de mots utilisés pour mettre en avant les votes des internautes parmi une liste de mots ou dernièrement encore pour pointer le champ lexical d'une personnalité politique.

Ici, des nuages de mots sont réalisés à partir des contributions au programme de la France Insoumise pour rentre compte des sujets abordés. La qualité visuelle a été privilégiée en post-traitant les résultats du logiciel Iramuteq au moyen du site WordClouds.com qui offre de nombreuses possibilités dans le choix des couleurs, de la police d'écriture et de la forme du nuage. Ainsi, le code de couleur retenu dans cette étude est celui du mouvement politique et la forme considérée un arbre, aboutissant ainsi à une forêt de mots issue des contributions faites sur la plateforme participative de la France Insoumise. La figure finale est une agrégation des nuages de mots post-traitée avec le logiciel Gimp et des éléments graphiques issus du site JLM2017.fr.

Supposant le lectorat de ce site familier des nuages de mots, aucune interprétation ne sera faite de ma part ; je précise juste le sens des pourcentages apparaissant sur ce graphique (cliquez dessus pour l'agrandir) : ils correspondent à la proportion de contributions dans chaque axe thématique du programme.

fi-wordclouds

Et à présent, place à une analyse de similitudes, un concept à peine plus compliqué que le nuage de mots mais dont la compréhension fine et l'utilisation requièrent des bases en théorie des graphes et une description poussée du logiciel Iramuteq. Dans cet article, le choix est fait de ne pas rentrer dans ces détails.

Analyse de similitudes

fi-similitudes
Graphe des similitudes associé aux contributions programmatiques de la France Insoumise

Ce graphique (cliquez dessus pour l'agrandir) est le résultat d'une analyse de similitudes appliquée aux contributions de la plateforme participative JLM2017.fr.

Une analyse de similitude décrit au moyen d'un graphe les cooccurrences entre les formes canoniques des mots présents dans un corpus. Différents indices de similitudes entre deux lemmes (formes canoniques des mots) existent pour cela, sortant néanmoins du cadre du présent article. Les lemmes représentent les sommets du graphe et les arêtes les cooccurrences entre eux. L'épaisseur d'une arête est proportionnelle à la cooccurrence entre les deux mots qu'elle relie. L'analyse de similitudes n'étant pas mon domaine d'expertise, j'ai fait le choix d'utiliser les paramètres par défaut de l'algorithme, à savoir l'indice cooccurrence comme indice de similitude, la représentation de Fruchterman Reingold pour l'optimisation du rendu visuel et le graphe maximum. Par souci de lisibilité, j'ai opté pour l'affichage des communautés, concept de la théorie des graphes permettant de mettre en évidence des groupes de mots fortement cooccurrents.

Pour aller plus loin : je vous invite à consulter le site du logiciel Iramuteq et les liens bibliographiques qu'il comporte.

Si tout ne peut pas être expliqué à partir d'une telle analyse, une proposition de trame de ce qu'on dit les "Insoumis.e.s" (internautes de la plateforme participative de la France Insoumise) à travers leurs contributions programmatiques peut être faite. En voici une. Elle permet de mettre en évidence les principaux centres d'intérêts abordés dans les CONTRIBUTIONS.

POLITIQUE

Tout d'abord, le premier domaine évoqué dans le contribution est la POLITIQUE pour laquelle il faut se DONNER des MOYENS SUFFISANTS et CONSÉQUENTS. Une POLITIQUE de GAUCHE est mise en avant tout comme la notion de PARITÉ et de sortie de la POLITIQUE PROFESSIONNELLE. Des liens importants sont faits entre la POLITIQUE et les domaines du CITOYEN et du SOCIAL, ainsi qu'avec le duo PEUPLE / INSTITUTION.

SOCIAL

En matière de SOCIAL, il a été question de LOGEMENT, de PRESTATION, de COTISATION, de SÉCURITÉ, de FAMILLE, d'ENVIRONNEMENT, de DÉPENSES, d'une VIE DIGNE et COLLECTIVE ainsi de DROIT, avec la précision DROIT FONDAMENTAL et FEMME-HOMME (notion d'égalité).

VIE

Pour préciser le domaine de la VIE, les contributions ont mis en avant la QUALITÉ, la MALADIE (liée à la notion d'ASSURANCE), la MORT, la COMPRÉHENSION de l'ESSENTIEL, la DISTRIBUTION par CIRCUIT COURT ainsi que l'ENFANT. Ce dernier terme était relié au PARENT, à l'APPRENTISSAGE ainsi qu'à l'ÉCOLE du PRIMAIRE à l'UNIVERSITÉ, avec l'ÉDUCATION et la problématique d'une CLASSE avec le binôme ELEVE ENSEIGNANT.

CITOYEN

Concernant le domaine CITOYEN, une première nébuleuse intervient mêlant CONTRÔLE, DÉBAT, REPRÉSENTATIVITÉ, LIBERTÉ, INTERNET et SE SENTIR (citoyen). Un lien important est fait vers l'ÉLU avec les notions de MANDAT, d'ÉLECTION et de CUMUL. Un lien vers l'adjectif POPULAIRE également, que cela soit en matière de RÉFÉRENDUM, d'INTERVENTION ou d'INITIATIVE. Un autre lien vers un duo LOI - ÉLECTION PRÉSIDENTIELLE où la notion de PROMESSE de CAMPAGNE est mis en avant. On retrouve aussi un sous-domaine autour du verbe SORTIR : sortie UE, sortie du CAPITALISME et sortie des TRAITÉS EUROPÉENS.

ASSEMBLÉE / NATIONAL

Le domaine CITOYEN est aussi lié au domaine important de l'ASSEMBLÉE et du NATIONAL, via les notions de DÉPUTÉS, de CONSTITUANTE, de SÉNAT et de pouvoirs EXÉCUTIF et LÉGISLATIF pour le terme ASSEMBLÉE. Le terme NATIONAL, fortement lié au terme ASSEMBLÉE, est en liaison avec les mots CADRES, NIVEAU et CONSTRUCTION, ainsi qu'avec l'échelon LOCAL : COLLECTIVITÉ, ORGANISER et PROXIMITÉ.

PROJET

Enfin, le domaine CITOYEN est lié à la notion de PROJET, non pas FINANCIER mais d'INTÉRÊT GÉNÉRAL, avec des marqueurs forts comme l'ENGAGEMENT, l'UTILITÉ ou encore l'AVENIR.

PEUPLE / INSTITUTION

Relié au domaine POLITIQUE, le domaine centré sur les deux pôles PEUPLE et INSTITUTION parle d'un PEUPLE SOUVERAIN, avec un pouvoir de DÉCIDER et de se doter de REPRÉSENTANT-E-S. Il parle aussi d'INSTITUTIONS DÉMOCRATIQUES et aborde la DÉMOCRATIE DIRECTE ; la notion de PRÉSIDENT est abordée ainsi que celle de 6ème RÉPUBLIQUE, d'une NOUVELLE CONSTITUTION et de CONTRÔLE.

REVENIR (lire REVENU)

La question du REVENU est ici liée au SALAIRE et au SOCIAL. Y sont abordés pelle-mêle : le POUVOIR d'ACHAT, les NICHES FISCALES, les ALLOCATIONS, le REVENU MINIMUM, les TRANCHES, les RESSOURCES, la PROGRESSIVITÉ, le REVENU DE BASE ou UNIVERSEL, la TAXATION, le FOYER FAMILIAL, la TRANSITION ÉCOLOGIQUE PLANIFIÉE et ÉNERGÉTIQUE. Un gros lien apparaît aussi vers le domaine de l'IMPÔT.

EXEMPLES

Il est curieux de voir que le domaine REVENU est lié à un domaine d'EXEMPLES où l'on retrouve principalement des références à Jean-Luc Mélenchon (soit nommément, soit par liens vers son site), des pages de Wikipedia ou des vidéos sur Internet.

IMPÔT

Le mot IMPÔT intervient avec les notions de PROGRESSIVITÉ, de SOLIDARITÉ, de TAXE à l'égard de l'INDUSTRIE et des VENTES. Le PRÉLEVEMENT à la SOURCE est aussi évoqué.

SALAIRE

Le REVENU est aussi lié au domaine du SALAIRE, avec des liens vers BERNARD FRIOT, la QUALIFICATION, la notion d'ÉCART, celle de MAXIMUM et de RICHE. Le plus gros pôle relié à la notion de SALAIRE est celui du TRAVAIL où sont évoquées les notions de PARTICIPATION, de CONGÉ, d'ÉCONOMIE, d'ORGANISATION, de TRAVAILLEUR, de RAPPORT HUMAIN, de FORMATION, de SALARIÉ ou encore d'ACTIONNAIRE.

Les commentaires sont clos.