Outils d’analyse textométrique pour l’enseignement

Informations

  • Auteurs : Philippe Dessus, LaRAC & Inspé, Univ. Grenoble Alpes, et Fanny Rinck, LIDILEM & Inspé, Univ. Grenoble Alpes.
  • Date de création : Février 2021.
  • Date de modification : 21 juin 2021.
  • Statut : En travaux.
  • Résumé : Ce document propose une revue de quelques outils d’analyse de différents paramètres du texte et donne quelques pistes d’utilisation en contexte scolaire.
  • Voir aussi : Document tuto_rb_conpa.
  • Licence : Document placé sous licence Creative Commons : BY-NC-SA.

Introduction

Il est souvent difficile, pour un enseignant, de déterminer rapidement, globalement, et objectivement certaines caractéristiques des textes qu’il donne à lire à ses élèves, ou que ces derniers produisent, et lui procurer des représentations aisées à analyser. Bien sûr, tout logiciel de traitement de textes dispose déjà de quelques fonctionnalités qui vont l’aider (comme le comptage de mots), mais elles sont limitées.

Il existe un courant de recherche assez ancien, la textométrie, qui étudie ce type de caractéristiques. Cette discipline a bien sûr des utilisations plus diverses que celle ci-dessus. Par exemple, des controverses peuvent survenir à propos de la paternité littéraire de tel ou tel ouvrage ou, même œuvre. La textométrie permet d’analyser finement le vocabulaire employé dans la ou les œuvre(s), et donc, au bout du compte, de savoir si tel auteur en est bien l’auteur. Récemment, Cafiero et Camps (2020) ont pu démontrer que Molière était bien l’auteur de ses œuvres et qu’elles se différenciaient bien, à la fois du point de vue du vocabulaire que de la syntaxe, de celles de Corneille, qui a longtemps été suspecté d’avoir écrit ces œuvres. Le but de ce document est de donner aux enseignants une boîte à outils dans ce domaine.

Buts pédagogiques

Listons maintenant les buts pédagogiques qu’un enseignant peut avoir en tête en lisant des productions d’élèves ou en sélectionnant des textes pour ces derniers. La mise en œuvre de chacun de ces buts sera exemplifié rapidement avec un logiciel.

  • connaître les statistiques de l’usage des mots (ou la capacité à les orthographier), par niveau ;
  • avoir un aperçu global du contenu d’un texte, avant de l’étudier de plus près ;
  • évaluer la lisibilité et complexité des textes donnés à lire aux élèves (Lieury, 1996, ayant montré que les manuels scolaires de collège comprennent environ 5 000 mots qui sont hors de la compréhension des élèves) ;
  • évaluer la complexité des textes écrits par les élèves ;
  • être une aide à l’écriture (correcteur orthographique et grammatical).

Quelques utilisations pédagogiques

Voici quelques utilisations pédagogiques des outils présentés plus bas.

  • Faire réaliser, dans deux classes différentes (ou deux groupes d’une classe), des textes produits dans deux conditions différentes (en changeant la tâche, les contraintes de production), et utiliser des outils de comparaison (p. ex., lexicale).
  • Faire produire des textes avec une tâche précise (p. ex., des portraits de monstres). Analyser leur richesse lexicale (noms, verbes, adjectifs utilisés) et la comparer avec celle d’albums de littérature de jeunesse. Étudier de plus près les concordances (p. ex. “un monstre cruel”, “des yeux terribles”). On peut également étudier de plus près les adjectifs utilisés.

Quelques outils

Statistiques sur l’usage et le sens des mots

Un premier niveau d’utilisation des outils lexicaux est de s’y intéresser au niveau des mots. Ce niveau n’est bien sûr pas utilisable dès que les élèves sont confrontés à de très nombreux mots, mais il peut être utile : - au niveau du Cycle 2, pour étalonner des lectures ; au niveau du Cycle 3, pour étalonner des dictées ; et à tous les autres niveaux pour chercher des mots spécifiques.

Il existe plusieurs bases lexicales pour le français, recensées par OpenLexicon ; elles sont classées par contenu ; les bases :

  • généralistes (principalement Manulex de Lété et al. (2004) ; Lexique, de New et al. (2001)) ;
  • sous-lexicales, listant des fréquences de bigrammes ou trigrammes de lettres, ou phonèmes ;
  • par âge d’acquisition ;
  • de valence émotionnelle (évaluant le type d’émotions véhiculées par un mot donné) ;
  • de fréquence subjective ou familiarité ;
  • d’expérience sensorielle (évaluant le degré auquel un mot suscite une expérience sensorielle)
  • de durée de lecture.
  • de synonymie classée par difficulté : Resyf (Univ. de Louvain, Belgique).

Évaluer la lisibilité des textes

Les enseignants proposent, et parfois produisent de nombreux textes à lire à leurs élèves sans toujours se questionner sur leur lisibilité. On peut envisager ce terme à plusieurs niveaux. Tout d’abord, celui de la complexité de surface des mots, phrases, paragraphes, et ensuite celui de la connaissance nécessaire pour comprendre ces textes.

Cette lisibilité se mesure de deux manières : en fonction de caractères objectifs du texte (longueur moyenne des mots, des syllabes de mots, de phrases), et en fonction de caractères plus psychologiques (âge moyen d’acquisition de mots).

Le site Scolarius propose d’évaluer, selon 4 indices différents, des textes en fournissant un score proportionnel à son niveau de difficulté (par exemple, ce paragraphe a été évalué comme étant de niveau universitaire, avec un score de 186). Voici brièvement expliqués les 4 indices (voir Conquet & Richaudeau, 1973, pour plus d’informations :

  • La formule de Flesch, qui agrège deux scores, l’un de facilité de lecture, qui tient compte du nombre moyen de syllabes par mots et de la longueur moyenne des phrases en mots ; l’autre d’intérêt humain, qui tient compte du pourcentage de mots personnels (pronoms, noms référant à des humains) et du pourcentage de phrases de style direct.
  • La formule de Gunning (ou l’index “brouillard”), qui tient compte du nombre moyen de mots par phrases et le pourcentage de mots de plus de 3 syllabes (donne des scores corrélant bien à ceux de Flesch).
  • La formule de Fry, qui tient compte du nombre, pour 3 passages de 100 mots pris au hasard dans le texte, du nombre de ses phrases et du nombre de syllabes.
  • *La formule d’“écoutabilité” de Fang, qui tient compte du pourcentage de mots de plus de 2 syllabes par phrase.

On peut aussi recourir, pour une analyse plus détaillée, au site `A-Mesure < http://cental.uclouvain.be/amesure/>`_ de T. François, qui analyse la difficulté lexicale, syntaxique, et textuelle, bien que centré sur les textes administratifs. voir Manulex, les différentes échelles (Ters, Dubois-Buyse).

Étudier les concordances

Il peut être intéressant d’étudier, dans un ensemble de textes, les concordances d’un mot incluant son contexte (les mots qui le précèdent et le suivent). On peut ainsi s’intéresser aux contextes dans lesquels apparaissent tel ou tel mot, central dans la compréhension d’une notion. Par exemple, si l’on veut, au lycée, avoir une idée de ce que les élèves comprennent à propos de la notion de gène, on peut utiliser un concordancier, qui présente le mot gène et son contexte proche (i.e., les mots qui le précèdent et le suivent). Ainsi, l’enseignant aura une idée des conceptions des élèves à son propos.

Pour cela, il est possible d’utiliser un concordancier, une fonction disponible dans TMX de Heiden et al. (2010).

Il existe aussi des concordanciers bilingues s’appuyant sur de vastes corpus, utilisables dans l’enseignement de langues (très utile en traduction, notamment), comme Linguee (anglais-français) ou Tradooit (anglais, français, espagnol).

Faire des comparaisons intertextes

On peut aussi avoir dans l’idée de comparer les textes produits par ses élèves selon différents facteurs. À cette fin, des logiciels comme IRaMuTeQ ou R temis peuvent être utiles, mais nécessitent un niveau de compréhension minimale du logiciel de statistiques R.

Avoir un aperçu global du contenu d’un texte

Des logiciels du type d’Anatext <http://phraseotext.univ-grenoble-alpes.fr/anaText/> donne une vue globale suffisante dans beaucoup de cas (nombre de phrases, mots les plus fréquents, etc.). Avoir un aperçu de ce que traite un texte est une autre application possible. Le tutoriel de P. Godiveau (s.d.) est utile à cette fin, ainsi que Granfeldt (2006). Les nuages de mots sont un moyen très utilisé d’avoir ce type d’aperçu, pour autant, ils sont assez controversés (Hearst, 2008 ; Marchand & Ratinaud, s.d.).

Analyse morpho-syntaxique

Jusqu’à présent, l’analyse des mots ou textes produits était uniquement au niveau lexical, et non grammaticale. La plupart des analyseurs morpho-syntaxiques sont d’accès difficile, mais Direkt Profil en propose une version en ligne gratuite.

Correcteur orthographique et grammatical

Grammalecte est un correcteur orthographique et grammatical pouvant se greffer à la suite LibreOffice/OpenOffice et aux principaux navigateurs.

Analyse de la participation à des discussions

Dans le cadre de discussions (p. ex., débats en public, discussions en ligne), il est difficile pour un enseignant, ou un chercheur, d’avoir une vue générale de la participation de chacun. ReaderBench est un système en ligne qui permet cette vue générale. Le Tutoriel tuto_rb_conpa donne un aperçu de son utilisation.

Accéder à des corpus d’écrits

Il peut également être intéressant de comparer les productions de ses élèves avec d’autres. Pour cela, il existe quelques corpus librement accessibles de productions d’élèves

Ressources web

Nous présentons ici une liste de logiciels gratuits (et/ou libres) permettant de réaliser certaines des opérations décrites ci-dessus.

Ressources

Références