Thèses CIFRE

Thèse en cours

Modèles de génération et d'analyse des traces pédagogiques

Travaux de thèse menés par Camila Canellas co-encadrée par Vanda Luego et François Bouchet de l'équipe MOCAH du LIP6 de Sorbonne Universités. Les travaux ont démarré le 10 avril 2018.

En savoir plus ...

Un premier enjeu scientifique de la thèse vise à déterminer quels modèles de génération de traces et donc quelles modalités d'exploitation de ces traces sont utiles en fonction des modalités pédagogiques des différentes plateformes produites avec des chaînes éditoriales (positionnement, SPOC/MOOC, Social Learning, jeux sérieux). Il s'agit ici d'expérimenter plusieurs modèles de génération de traces afin proposer un modèle générique, adaptable et paramétrable avec l'approche orientée par les modèles.

Au delà du cœur scientifique et technologique, la thèse s'attachera à qualifier l'opportunité de l'approche technologique des chaînes éditoriales pour généraliser la création, le suivi et l'analyse de données apprenants quelles que soient les modalités d'apprentissage.

Problématique

Un des problèmes majeurs de la communauté fédérée autour des thèmes des learning analytics et de la fouille de données éducatives (EDM – Educational Data Mining) est relatif à la réplicabilité des travaux à des contextes connexes. Ainsi, dans un article de synthèse sur l'évolution de ce jeune champ de recherche, Romero et Ventura (2013) concluaient sur le fait que « les résultats de la recherche en EDM sont typiquement obtenus dans le contexte étroit de projets de recherche ou d'environnements éducatifs donnés, alors qu'il est nécessaire d'obtenir des résultats plus généraux (...) par exemple si un modèle prédictif est toujours fiable lors de son utilisation dans un contexte différent ». L'approche généralement considérée pour répondre à cette problématique passe par la capitalisation des traces et/ou des processus d'analyse. Ainsi, DATAShop (Koedinger et al. 2010) permet de partager des traces (données d'interaction, modèles d'apprenants et résultats d'analyse), notamment liés à l'utilisation de système de tuteurs intelligents développés au Pittsburgh Science of Learning Center. Au niveau français, le projet Mulce (Reffay et al. 2012) poursuivait un objectif comparable, mais surtout depuis 2014 le projet ANR HUBBLE tente d'aller plus loin dans cette approche en partageant également les processus d'analyse afin notamment de « permettre la reproductibilité d'analyses sur plusieurs corpus » (Luengo 2014). Toutefois dans chacun de ces cas, si le partage de données et de processus facilite les comparaisons d'algorithmes par exemple, il reste difficile de comprendre pourquoi un processus d'analyse appliqué à deux jeux de données différents recueillis dans des contextes plus ou moins similaires ne donne pas toujours les mêmes résultats.

Approche proposée

Dans ce contexte, l'exploitation de traces générées à l'aide de modèles permettrait des analyses facilement comparables car issues de plateformes dont les différences sont connues et parfaitement identifiées par nature, puisqu'elles proviendraient d'instanciations différentes d'une même chaîne éditoriale. Une telle approche permettrait donc d'améliorer la détermination de la robustesse des processus d'analyse utilisés, et la compréhension des paramètres qui permettent à un processus d'analyse d'être pertinent ou non.

Jalons prévisionnels

Dans le contexte de la thèse, le programme de travail inclura donc une phase d'analyse de l'état de l'art autour des systèmes de traces orientés éducation existants (notamment le format TinCan/xAPI) afin de guider le choix. Une fois le modèle choisi et implémenté, le candidat mènera une étude comparative d'au moins deux plateformes implémentant le modèle de génération de traces choisi afin d'analyser les données recueillies et de contraster la nature et les interprétations possibles de celles-ci, par le biais d'algorithmes de fouille de données (e.g. analyse de séquences, clustering).

Thèses réalisées

Deux thèses CIFRE ont été réalisées au sein de la société, co-encadrées par Stéphane Crozat et Bruno Bachimont, du laboratoire UMR-CNRS 7253 Heudiasyc, de l'Université de Technologie de Compiègne (UTC),

Outils d'analyse généalogique et philologique de documents numériques structurés en contexte de rééditorialisation collaborative

Thèse réalisée par Léonard Dumas de 2012 à 2016 sur les algorithmes de Diffs&Merge génériques XML.

En savoir plus ...

La production documentaire en contexte professionnel entraîne généralement un processus de révision dans lequel les documents doivent être relus avant validation et publication. Cette tâche importante fait face à de nouvelles difficultés avec le numérique. Trois propriétés de l'écriture numérique sont problématiques : les documents évoluent très fréquemment et ne peuvent pas être relus entièrement à chaque version ; les interactions hypertextuelles rendent la tâche laborieuse, voire impossible ; la rééditorialisation documentaire augmente le nombre de formes documentaires à relire.

En tant que technologie d'écriture numérique avancée, les chaînes éditoriales XML sont un cadre pertinent pour l'étude de la relecture de documents numériques. Partant du constat que les formes documentaires qu'elles proposent, à savoir les formes génératrices (sources XML modifiables via un éditeur WYSIWYM) et les formes publiées (documents issus de la transformation des sources XML), font défaut à la relecture, la thèse envisage la conception de formes documentaires dédiées à cette activité selon deux approches : la linéarisation, qui consiste à restaurer une certaine linéarité matérielle des contenus pour faciliter leur relecture exhaustive ; et la tabulation, qui vise à paralléliser, afin de mieux les comparer, les différents contextes de rééditorialisation d'un document.

Mémoire de thèse

Doctorant : Léonard Dumas [2012-2016]

Rééditorialisation documentaire en contexte collaboratif

Thèse réalisée par Thibaut Arribe de 2011 à 2014 sur la formalisation et l'appréhension de la complexité d'un graphe documentaire.

En savoir plus ...

Les travaux de recherche traitent de la conception des chaînes éditoriales numériques XML au sein desquelles la publication des documents s'opère par transformation de fragments XML en documents numériques aux formats standards. La composition des fragments permet d'instrumenter la rééditorialisation documentaire soit l'usage de contenus existants dans la rédaction de documents originaux. La production de ces documents rééditorialisés implique une modification de la représentation logique des documents de la forme classique d'arbre à celle de graphe de fragments liés entre eux. Les travaux de recherche s'intéressent aux limites rencontrées lorsque la complexité du graphe devient un frein à la production de documents cohérents.

La thèse propose une théorie pour la conception des chaînes éditoriales qui s'appuie sur deux approches complémentaires s'articulant autour de la figure de l'atelier - soit l'environnement d'écriture des fragments - pour accompagner les rédacteurs dans l'édition de graphes complexes.

  • La première approche est une articulation interne à l'atelier. Il s'agit de modéliser des fragments pragmatiques dont l'enjeu est d'assister les rédacteurs dans la gestion des fragments tout en enregistrant l'activité sur le graphe. Ces fragments participent à la documentarisation de l'activité puisqu'ils produisent et mettent à jour une documentation des actions opérées sur le graphe.

  • La seconde approche est une articulation externe à l'atelier. Il s'agit de structurer le graphe documentaire dans plusieurs ateliers en fonction des projets éditoriaux (projets de documents à publier) et auctoriaux (projets d'organisation de la production). L'enjeu est d'éclater le graphe dans plusieurs ateliers afin d'en simplifier la perception et donc la manipulation.

Mémoire de thèse

Doctorant : Thibaut Arribe [2011-2014]

Vous avez un projet de thèse en lien avec les chaînes éditoriales ?

N'hésitez pas à nous contacter pour étudier ensemble l'opportunité de vous accompagner sur un projet de recherche commun.