Huit ans de science au Monde

jeudi 23 avril 2020
par  david
popularité : 51%

Première publication d’une expérience d’exploration d’un grand corpus de textes

Je reprends ce blog par la mise en ligne d’une expérience visant à explorer un vaste corpus de textes. A savoir plus de 800 articles écrits pour Le Monde entre fin 2011 et fin 2019.
J’utilise l’outil du medialab,Cortext, auquel j’ai pu avoir gracieusement accès.
Cette plateforme se nourrit de gros corpus, les indexe, repère les mots-clés spécifiques (autrement que par la naïve fréquence ou le célèbre Tf-idf ; voir les détails dans l’HDR de Jean-Philippe Cointet) et visualise les réseaux de proximités entre ces termes (entre autres).
J’en ai fait plus précisément deux "cartes". L’une montre environ 400 mots-clés spécifiques de ce corpus. Les liens entre les noeuds/mots-clés indiquent que les deux termes liés sont "proches" (ils peuvent être en cooccurrence, mais aussi synonymes ; leur profil de cooccurence est proche plus précisément).
A partir de ces liens, la création automatique d’agrégats montre la proximité géographique, et donc sémantique/thématique, entre les mots, identifiant ainsi des thématiques différentes : particule, onde gravitationnelle, fraude, intelligence artificielle...

Et la légende,

Il y a six gros paquets, trois de chaque "côté". Dans le premier, c’est la physique des particules, l’astrophysique, les ondes gravitationnelles...
Dans l’autre, il y a l’intelligence artificielle et l’informatique, la politique de recherche, l’intégrité scientifique. Ces espaces sont bien séparés par l’algorithme.

L’outil Gephi permet d’exporter en javascript la carte qui se trouve à cette adresse. Il faut zoomer fort pour voir les noms (désolé).

Dans la seconde carte, les noeuds sont cette fois les articles eux-mêmes (environ 500, mais le calcul porte sur les 800). Les liens entre deux noeuds indiquent que les deux articles partagent un des mots-clé. La création automatique d’agrégats montre la proximité géographique cette fois entre les articles, identifiant ainsi des thématiques différentes : maths, particule, onde gravitationnelle, fraude, intelligence artificielle...
Je suis assez content que l’algorithme ait repéré une petite thématique, celle de la science amusante, légère... (en vert clair/fluo) vers la gauche.
C’est spatialement moins séparé que la précédente représentation, mais l’algorithme de coloration des communautés de Gephi (dit Louvain) permet de s’y retrouver et en effet on peut constater que les articles de même couleur parlent de la même chose.
Je trouve assez puissante cette inférence d’un classement thématique à partir des liens entre mots.

Et en "interactif".


Commentaires

Navigation

Articles de la rubrique

  • Huit ans de science au Monde

Statistiques

Dernière mise à jour

lundi 7 décembre 2020

Publication

5 Articles
Aucun album photo
Aucune brève
1 Site Web
1 Auteur

Visites

0 aujourd’hui
3 hier
251 depuis le début
1 visiteur actuellement connecté