Tutoriel – Utiliser ReaderBench pour analyser automatiquement des discussions

Informations

  • Auteurs : Philippe Dessus, LaRAC & Inspé, Univ. Grenoble Alpes, & Nadine Mandran, LIG-CNRS, Univ. Grenoble Alpes.
  • Date de création : Octobre 2020.
  • Date de modification : 21 juin 2021.
  • Statut du document : En cours.
  • Résumé : Ce document explique la procédure à suivre pour analyser automatiquement des discussions pour apprendre ou construire des connaissances avec ReaderBench, un système d’analyse sémantique textuelle. Ce document complète et reprend les informations d’un chapitre d’ouvrage à paraître (Dessus et al., en préparation).
  • Documents associés : CONPA : Un jeu de création et réflexion sur l’usage du numérique.
  • Fichiers associés :
  • Remerciements : Nous remercions chaleureusement les participantes à la session de focus group dont il est question ici, à la fois pour leur participation enthousiaste et leur autorisation de diffusion de la transcription de la session.
  • Note légale : « Le Jeu CONPA s’est inspiré du jeu MotivéSens, imaginé et exploité par la société MotivéSens (817 404 908 R.C.S. Vienne) en matière de psychologie (Thérapie Comportementale et Cognitive et inspiré de la Psychologie Positive) qui a créé un jeu basé sur l’idée de Mesdames Carré et Valantin consistant en un travail de réflexion et de choix autour de cartes ressources pour atteindre un objectif positif préalablement défini. Il est rappelé que la notice du Jeu MotivéSens est soumise à droit d’auteur et que toute reprise ou citation, de tout ou partie du Jeu MotivéSens, comme toute utilisation du Jeu MotivéSens est strictement interdite, que ce soit pour un usage de formation ou commercial, sauf accord préalable et exprès des auteurs dudit Jeu. La reprise ou la citation du Jeu CONPA nécessitera obligatoirement la mention, en tant que source d’inspiration du concept de jeu du Jeu CONPA, de la société MotivéSens, développé par Mesdames Carré et Valantin en 2015.

Voir aussi : Document Outils d’analyse textométrique pour l’enseignement.

  • Licence : Document placé sous licence Creative Commons : BY-NC-SA.

Introduction

Les discussions (ou débats) sont de bons moyens pour permettre à des apprenants de débattre d’un sujet, et d’approfondir collaborativement leurs connaissances, que ces débats se réalisent en présence ou à distance, via des plates-formes et des forums ou chats. Pour autant, il reste difficile pour l’enseignant animant ces débats, ou le chercheur qui veut les étudier, d’en avoir une vision immédiate : leur analyse est coûteuse en temps. Il existe des logiciels d’analyse automatique qui autorisent une première représentation des contributions de chaque participant, par exemple. Dans ce tutoriel nous allons montrer comment utiliser ReaderBench à cette fin.

ReaderBench est un outil d’analyse automatique de productions écrites liées à l’apprentissage. Il est multilingue (anglais, français, italien, espagnol, roumain, néerlandais) et utilise des méthodes de traitement automatique de la langue éprouvées pour analyser la cohésion entre composants du texte (phrases, tours de parole, documents, etc.). Il a été conçu par la mise en œuvre de deux modèles différents et complémentaires. Le modèle de la cohésion est opérationnalisé comme la mesure de similarité moyenne entre entités du texte (mots, phrases, tours de parole, conversation complète). Un graphe de cohésion entre tours de paroles est construit, composé d’un nœud central (la discussion complète) décomposé en tours de parole, puis en phrases, les liens entre ces nœuds symbolisent des relations de cohésion fortes. Ce mécanisme permet d’évaluer la contribution de chaque participant en rapport avec la discussion complète, mais aussi avec les contributions des autres participants. Le reste de ce document détaille la procédure pour analyser une discussion collaborative.

Procédure

Description du corpus utilisé

À titre d’exemple, nous allons analyser les données produites lors d’une séance de test d’un jeu sérieux pour l’élaboration de questions de recherche en technologie de l’éducation, CONPA (Dessus & Jolivet, 2016), voir CONPA : Un jeu de création et réflexion sur l’usage du numérique pour les règles du jeu. Le jeu CONPA, pour Comportements, Outils, Notions, Pensée, Actions, les différents thèmes des cartes du jeu) est un jeu de table librement inspiré du jeu MotivéSens (Broc et al., 2017), et permet de stimuler la conception de situations de recherche et développement (R&D) d’usages innovants du numérique en situations scolaires. L’activité des joueurs est de réaliser des liens (intégration) entre un problème de recherche qu’ils spécifient initialement, avec chacune des cartes qu’ils tirent tour à tour, montrant un mot-clé (voir les mots-clés des Figures 3, 4 et 5). Les joueurs raffinent collaborativement et en parallèle leur problème sur une carte de concepts personnelle, son caractère aléatoire incitant à « sortir du cadre » et imaginer des pistes de travail originales. Ce type de jeu implique les joueurs dans une démarche de co-construction de connaissances.

Pour tester ce jeu sérieux, nous avons mis en œuvre un focus group (voir Tutoriel – Mener un focus group). Après la présentation du jeu (but, principes et règles) par l’animateur, ce dernier lançait une session de jeu d’environ 1 h 30 avec les participants. Lors de cette session, tous les échanges oraux ont été enregistrés. A l’issue de cette partie de jeu, une discussion a été conduite pour recueillir les avis de tous les participants y compris l’animateur. L’objectif de cette discussion était de faire émerger de nouvelles propositions pour améliorer CONPA. Les participants de la discussion analysée plus loin étaient cinq enseignantes également étudiantes de Master 2 mention « Métiers de l’enseignement, de l’éducation et de la formation ».

Les enregistrements audio ont été transcrits dans leur intégralité. Le corpus se présente sous la forme d’un fichier texte brut comprenant un tour de parole par paragraphe. La section suivante montre comment le transformer en un fichier XML lisible par ReaderBench.

Codage du corpus

Chaque tour de parole doit être codé entre des balises spécifiques, indiquant à quel moment de la discussion il a été produit, et par qui. Le format général est de ce type (en exemple, le premier tour de parole de la discussion) :

Cela signifie que l’animateur est le locuteur de ce tour, qu’il démarre la discussion (qui a démarré le 15 janvier 2015 à 14:00), elle ne réfère à aucun autre tour (ref=”0”). Il est assez aisé de concevoir un tableau dans lequel on insère les tours de parole (1 tour par paragraphe), les autres éléments étant répliqués et éventuellement incrémentés (variables time et ref). Le fichier xls montre comment organiser ce codage. Les étapes suivantes sont à réaliser :

  • coller dans la colonne I du tableur les tours de parole, comme autant de paragraphes ;
  • étendre les autres colonnes en vérifiant bien que les colonnes E, l’identifiant du tour et G, le temps s’incrémentent bien ;
  • sauvegarder le fichier résultant en format CSV ;
  • l’ouvrir dans un logiciel de traitement de textes permettant les remplacements multiples
  • rechercher/remplacer les caractères § par une tabulation et les caractères $ par un retour de paragraphe ;
  • sauvegarder le fichier résultant dans le format XML
  • en ajoutant au début :
        <?xml version="1.0" encoding="UTF-8"?>
<corpus>
        <Dialog team="Identifiant_de_la_discussion">
                <Participants/>
                <Topics/>
                <Body>

et à la fin

                </Body>
        </Dialog>
</corpus>

Pour faciliter les tests, voici les deux documents à télécharger :

Traitement dans ReaderBench

La section “analyse de discussions collaboratives” de ReaderBench est à cette URL : http://readerbench.com/demo/cscl . Voici la procédure (chaque étape est représentée par un nombre cerclé de noir) :

  1. Téléverser le fichier XML précédemment par un glissé-déposé ;
  2. Mentionner la langue, et les types de traitement (laisser ceux par défaut) ;
  3. Cliquer sur le bouton “Process” et l’analyse débute, qui peut durer plusieurs minutes selon la longueur de la discussion.
_images/rb-conpa-1.jpg

Voici ensuite les différentes analyses possibles. Nous ne les mentionnons pas toutes :

  1. Les informations de base sur chaque participant : nombre de tours de parole, impact global du participant sur la discussion.
_images/rb-conpa-4.jpg
  1. La représentation du poids cumulé des contributions de chaque participant tout au long de la discussion :
_images/rb-conpa-2.jpg
  1. La représentation du niveau de construction sociale de connaissances tout au long de la discussion :
_images/rb-conpa-3.jpg
  1. Le poids sémantique des mots au sein de la discussion, ainsi que leur liste par importance décroissante, et le graphique de leurs liens principaux.
_images/rb-conpa-6.jpg

Références

  • Broc, G., Carré, C., Valantin, S., Mollard, E., Blanc, V., & Shankland, R. (2017). Thérapie cognitive et comportementale et thérapie positive par le jeu : une étude pilote comparative. Journal de Thérapie Comportementale et Cognitive, 27 (2), 60–69. doi: 10.1016/j.jtcc.2016.12.002
  • Dessus, P., & Jolivet, S. (2016). CONPA : Un jeu de création et réflexion sur l’usage du numérique