De la thèse considérée comme un genre littéraire

A. Guénoche



Ce texte s'adresse aux doctorants en Informatique, même si beaucoup des principes mentionnés ici sont également valables dans d'autres disciplines. Il est inspiré des réflexions que m'ont suscité trois rapports de thèse au printemps 1997, travail à la suite duquel j'ai essayé de recenser les principaux défauts rencontrés. J'ai abouti à un catalogue de recommandations qui, à ma connaissance, n'a pas d'équivalent mais dont les thésards en cours de rédaction m'ont souligné l'intéret.

Le système des thèses est un système de cooptation. Un doctorant, présenté par un directeur, demande à entrer dans le cercle des docteurs. C'est donc le directeur qui décide que le travail est suffisamment achevé pour effectuer la présentation. Pour cela, le doctorant a rédigé un texte qui sera examiné par un jury, plus ou moins désigné par le directeur. Les personnages essentiels sont les rapporteurs. Le premier des examinateurs est en fait le directeur mais les rapporteurs sont les garants de l'exactitude de ce qui est écrit, du moins si on leur en laisse le temps. Ils lisent très attentivement le contenu et font en sorte que l'on respecte les règles du genre. Chaque rapport demande en moyenne une semaine de travail d'où des délais importants pour cause de disponibilité.

En tant que texte les thèses sont soumises à des règles. Une thèse n'est pas un long article ou plusieurs articles cousus ensemble, ce qui est souvent le cas des documents d'habilitation ; ce n'est pas un livre, même si le premier chapitre joue souvent un rôle identique, situer le sujet de recherche ; ce n'est pas un rapport de recherche, même si de minutieux détails peuvent (doivent) y figurer ; ce n'est pas un journal des travaux menés au fil des trois ou quatre années que demandent sa réalisation. Un thèse est un raisonnement, d'une certaine ampleur, sur un sujet. Chaque mot appelle un commentaire :

Un raisonnement : Il doit y avoir une progression dans les idées, pour aboutir à ce qui correspond au mot thèse dans son sens commun, c'est à dire quelque chose d'original, que l'on affirme et auquel on croit. Très souvent en Informatique la thèse c'est "Pour résoudre tel problème je préconise telle méthode" et le raisonnement c'est la présentation du problème et ses difficultés, les solutions employées jusqu'alors et leurs défauts, la description de la nouvelle méthode en soulignant ce qu'elle a d'original, l'étude de ses propriétés et la preuve qu'elle est meilleure que ce qu'on faisait jusqu'à présent.

Une certaine ampleur : les documents de thèse font généralement entre 80 et 160 pages. A moins, on pense que certains points auraient pu être plus développés. A plus on pense qu'un effort de synthèse eut été nécessaire ou que certaines digressions auraient pu être évitées ou que certaines parties pourraient être reportées en annexe. Mais le fond du problème n'est pas là : l'ampleur de la thèse borne le sujet. On peut passer sa vie (de chercheur) sur un problème, mais comme la thèse est en temps limité, il faut définir un sous-problème. L'ampleur montre votre aptitude à définir un sous-problème traitable dans ce laps de temps et cette quantité de papier.

Un sujet : pas deux ou trois. Une thèse n'est pas une suite de mémoires de DEA, aussi bons soient-ils, même si chacun d'eux aboutit à une publication. Le sujet initial est proposé (imposé) par le directeur de thèse mais il peut évoluer au cours des travaux et souvent le problème traité, et ses limitations, n'apparaissent qu'un an plus tard. Le sujet se cerne au fil du temps.

Une thèse est donc un document très structuré, je dirai le plus possible. Ce n'est pas l'énumération de tout ce que l'on sait sur un thème donné. Cette structure est sous-tendue par un plan, qui est imprimé sous forme détaillée ; le plan doit crever l'écran. Dans mon exemple de raisonnement classique en Informatique, ce plan est linéaire, un enchaînement d'idées, mais ce n'est pas toujours le cas. Ce peut être un arbre avec plusieurs branchements. Par exemple, dans l'analyse d'une alternative "La méthode proposée par monsieur Machin aurait pu être étendue ou améliorée et l'on aurait eu tel résultat". Cette extension peut prendre 10 pages et ne mener à rien sur le thème central ; tant qu'elle est originale, il n'y a rien à redire. Ce peut être des développement en parallèle qui aboutissent au même point. "Il y a trois sous-problèmes distincts qu'il faut aborder de manière différente" quitte à revenir aux mêmes procédures d'évaluation.

Le titre

Il doit être juste, précis et concis.

Juste, parce que si la thèse traite d'un problème (théorique) et si on mentionne des "applications", il faut qu'il y ait vraiment des applications, au sens du domaine visé. Un exemple d'illustration du déroulement de la méthode ne constitue pas une application, même si celle-ci requière un vocabulaire ésotérique qui ne relève pas de la discipline de la thèse. Par exemple "j'ai appliqué ma méthode à la classification des kangourous" est et restera une illustration de la méthode, tant que le résultat de la classification n'apporte pas une réponse à un problème d'évolution ou d'organisation des enclôts d'un zoo. Les exemples empruntés au réel, même s'ils sont un peu simplifiés sont passionnants, mais ils ne constituent pas des applications.

Précis, parce que le titre est une incitation à lire. Si le titre est trop vaste, le lecteur hésite à s'engager ; s'il est trop "analytique" peu de lecteurs se sentent concernés. Cette notion est fonction du temps, car un titre sur un sujet nouveau peut s'avérer trop général quelques années plus tard, quand le sujet connaîtra de nombreux développements.

Concis, parce que de nos jours les références bibliographiques sont informatisées. Pensez aux documentalistes et bibliothécaires qui vont taper des titres interminables (et incompréhensibles). Pensez aux limitations du champ titre dans les bases de données bibliographiques et aux systèmes d'indexation automatique qui retiennent chaque mot. Pensez à ceux qui auront envie de vous citer, mais que la longueur de la référence va rebuter.

Introduction

C'est le chapitre qu'il faut écrire en dernier. Il présente le sujet de recherche, non pas tel qu'il a été posé, mais le sujet finalement traité dans la thèse. Rien n'empêche d'y arriver par un détour historique du genre "Nous sommes partis de ... pour arriver à ...". Au contraire, plus vous faites apparaître que vous avez contribué à la définition du sujet, plus vous méritez les félicitations.

On y donne ses motivations. C'est particulièrement apprécié en Informatique, parce que dans la multitude des problèmes qui méritent des développements, les raisons du choix sont souvent révélatrices de la personnalité de l'auteur, personnalité que l'on aimerait voir apparaître au travers d'un texte, dont les contraintes du genre font qu'il est assez figé. Voilà une occasion à ne pas manquer.

On y annonce comment on va traiter le sujet et l'on souligne tout de suite quelle est la part d'apport personnel. Souvent cette question n'est pas évoquée. L'auteur laisse aux rapporteurs le soin de faire le tri, ce qui apparaît nécessairement dans leurs rapports, mais la question sera posée lors de la soutenance. Le fond de la question n'est pas "Qu'est-ce que vous avez apporté au problème" mais "Est-ce que vous avez conscience de ce que vous avez apporté au problème". C'est donc votre lucidité qui doit s'exprimer ici.

Enfin on introduit le plan dans ses grandes lignes et l'on décrit chaque chapitre. Ca ne sert pas vraiment en première lecture mais, après avoir tout lu, ce plan commenté peut servir d'ossature au résumé et au rapport de thèse ; on aide le rapporteur à faire son travail.

Chapitre I

C'est un passage obligatoire : d'une manière ou d'une autre il devrait s'intituler "Situation du sujet de recherche". D'abord il définit et borne le cadre de la recherche dans un des sous-domaines de la discipline. Ensuite il rappelle "qui a fait quoi" sur ce sujet. Souvent en partant des origines ; et là il faut citer les références historiques et non pas le texte dans lequel vous avez découvert la contribution de tel ou tel. Parfois il est plus facile d'apprendre (ou de comprendre) une nouvelle notion dans une thèse récente (bien écrite) que dans l'article original. Celui-ci peut-être difficile à trouver, écrit selon des normes - typographiques ou stylistiques - qui n'ont plus courre. Néanmoins ce sont ces auteurs initiaux qu'il faut citer, d'abord parce qu'il faut rendre à César ce qui appartient à César, ensuite parce qu'il y a très souvent entre ces vieilles lignes de jeunes idées. Elles ont été gommées dans les reprises - tout comme au cinéma - et le texte original est toujours recommandable. Faute de le faire, vous passerez pour un béotien, un nouveau savant, concept apparenté à celui de nouveau riche.

Ce chapitre introduit une terminologie consensuelle. Trop souvent on voit le monde connu rebaptisé par un doctorant qui a redécouvert des notions, parfois élémentaires, qu'il ignorait. On ne re-invente pas, sous un autre terme, l'eau tiède. Il définit des notations cohérentes qui serviront tout au long du texte. Dans la majorité des thèses que j'ai rapportées, l'auteur pouvait être pris en défaut ; majeur quand la même notation est utilisée dans plusieurs sens ; mineur quand une salade de majuscules minuscules ne permet plus de distinguer les ensembles des simples paramètres ou quand le changement d'alphabet n'est plus justifié. Durant la préhistoire de l'Informatique, jusque dans les années 80, la pauvreté des traitements de textes forçait à réfléchir ; aujourd'hui la débauche de possibilités ne libère pas ; elle est trompeuse puisqu'elle permet de se fourvoyer.

Ce chapitre ne devrait pas dépasser les trente pages - cinquante quand il est nécessaire d'exposer une problématique et une terminologie qui ne relève pas de l'Informatique, mais du domaine d'application - architecture, biologie, linguistique, productique, .. etc. Sinon on commence à se demander ou est la contribution - nécessairement originale - de l'auteur et si la description du domaine ne sert pas de remplissage. Une compilation ne fait pas une thèse.

Chapitre 2, .. p-1

Chaque chapitre traite d'un aspect du problème : par exemple d'un modèle général de représentation des connaissances, d'une méthode particulière et de son analyse, d'un ensemble de variantes basées sur la même idée, des développements formels - mathématiques - sous-jacents. La validation est souvent l'objet d'un chapitre à part ; je l'ai traité comme tel.

Les principes de la rédaction sont la cohérence et la clarté.

La cohérence consiste à respecter quelques règles très simples :

Si l'on change d'idée, de propos, on change de paragraphe. Mais bien sûr une idée peut nécessiter plusieurs paragraphes qui devront être consécutifs. On ne revient pas sur une idée au détour d'une phrase, dix pages plus loin voire dans un chapitre ultérieur. De même on évitera les redites, que malheureusement on trouve souvent au niveau des principes.

On accorde à chaque idée une place proportionnelle à sa profondeur, à la difficulté qu'il y a à l'exposer, à sa compréhension. Combien de fois ai-je lu de sempiternelles digressions sur des choses élémentaires alors que les idées originales sont escamotées au détour d'une phrase. La raison en est bien simple ; les premières sont tellement bateau qu'elle flottent toutes seules, au fil de la plume ; les secondes sont dures à exprimer puisque, jusqu'à présent, non formulées et donc il faut forger leur expression. Pourtant c'est à ces dernières qu'il faudrait réserver la plus large part. Quant aux premières elles invitent au commentaire qu'il vaut mieux éviter : "Monsieur Jourdain fait de la Science"

On n'expose pas avec force détails des algorithmes classiques - pour d'autres que vous qui les avez découverts avec ravissement. C'est bien de les reconnaître comme essentiels et de les citer, mais généralement si vous en avez eu connaissance c'est parce qu'ils avaient atteint la célébrité. Alors les re-expliquer longuement donne un côté naïf au texte. Mais tout dépend du degré de célébrité et des raisons pour lesquelles vous faites cette présentation. On peut exposer l'algorithme de Boyer-Moore si l'on s'apprête à justifier quelques variantes ; cela devient inutile si c'est pour rechercher des mots dans une chaîne de caractères.

La clarté est plus insaisissable. "Ce qui se conçoit bien s'énonce clairement". En fait si vous n'arrivez pas à vous expliquer, c'est que vous n'avez pas les idées très claires. Essayez la méthode pédagogique : expliquez cette méthode, cette idée, à vos collègues néophytes, et tant qu'ils n'ont pas compris, c'est que vous n'êtes pas clairs. Je dirai même plus, c'est que vous n'avez compris vous-même !

Il y a quelques principes simples pour rendre les idées claires :

Il faut à chaque instant aider le lecteur. C'est un paresseux doublé d'un imbécile, du moins au moment où il lit ce chapitre qui vous parait lumineux et qu'il trouve très alambiqué, .. pour ne pas dire plus. L'aider, c'est annoncer ses intentions ; ce n'est pas au lecteur de les découvrir a posteriori. En particulier, pensez à présenter les idées d'abord. Combien de fois n'ai-je décrypté ces idées cachées au coeur d'un algorithme écrit dans une sorte de pseudo-pascal ! Alors qu'il eut été si facile d'écrire que "L'algorithme ci-dessous est basé sur le principe xxx et que dans un premier temps on établit telle structure de données, puis on calcule telle et telle quantité, que l'on utilise ensuite pour ..". Donc le principe de base de la clarté c'est : Les idées d'abord.

Mettez des exemples ; cela permet de démêler les interprétations concurrentes et de vérifier que l'on a bien compris. Mieux qu'un exemple une suite d'exemples liés. On illustre les étapes avec les mêmes données depuis le début, ce qui contribue à la solidité de l'ensemble et évite au lecteur de passer du coq à l'âne. Dans l'Exemple 1 on part d'un graphe, auquel on applique telle transformation ; dans l'Exemple 2 on repart du résultat et on calcule quelque chose qui met en évidence une propriété du graphe initial ; dans l'Exemple 3 on applique au même graphe une autre opération, .. etc. Évidemment cette chaîne d'exemples n'est pas le fruit du hasard ; le graphe initial est construit pour mettre en évidence toutes les propriétés que l'on veut illustrer.

Si on expose les idées des autres, dans sa propre terminologie, il faut que l'explication soit meilleure que l'originale ou que la terminologie soit plus appropriée. Sinon cela n'apporte rien.

Chapitre p

Encore une figure imposée ; c'est le chapitre de validation. Bien souvent il manque dans les thèses et les rapporteurs demandent que l'on fasse quelque chose dans ce sens. Pour des raisons de délais - tout le monde comprend bien que votre bourse est finie, que vous voulez que la soutenance ait lieu avant la date de dépôt des dossiers de qualification, que vous voulez éviter une nouvelle inscription à l'Université ou que, je vous le souhaite, un job vous attend - ce travail ne figure pas dans la thèse. A part dans le dernier cas où l'avenir dans la recherche publique importe peu, il faut y satisfaire, sous peine d'obtenir des rapports mitigés et/ou de rater la qualification.

Toujours selon mon schéma général, vous avez proposé une nouvelle méthode : Elle a de bonnes propriétés que vous avez étudiées. Elle est applicable, vous avez évalué sa complexité dans le cas le pire voire en moyenne. Vous avez jugé ses limites ; on ne peut pas faire mieux pour telle donnée, on ne peut plus l'appliquer au delà de telle dimension de problème. Maintenant il vous reste à prouver que c'est une bonne méthode. De deux choses l'une :

soit vous avez des arguments théoriques : votre approche a des propriétés d'optimalité que vous avez démontré sous forme de théorèmes et, dans ce cas, vous pouvez omettre ce chapitre;

soit vous n'en avez pas et vous devez faire une validation expérimentale, qui n'est pas une preuve, mais qui doit emporter l'adhésion.

En général on simule des problèmes aléatoires et l'on évalue les performances en moyenne de sa méthode, que l'on compare à ses concurrentes. Dans certains domaines on utilise des cas d'école - benchmarks - pour lesquels les performances des autres sont publiées. On montre que dans des situations expérimentales particulières on s'en sort bien alors que les autres s'effondrent. La caractérisation de ces situations peut d'ailleurs être un sujet intéressant.

N'hésitez pas à commenter les résultats de ces simulations. Ne croyez pas que ce qui vous parait évident à vous qui avez passé trois quatre ans sur le sujet doit sauter aux yeux du lecteur. Rien de plus rébarbatif que ces tableaux de chiffres tout secs. Expliquer pourquoi dans certains cas les performances sont meilleures et dans d'autres moins bonnes est le signe que vous avez bien saisi les limites de votre travail, ce qui est essentiel dans les travaux scientifiques.

Conclusion

Pas grand chose à dire si ce n'est qu'il faut reprendre le fil du texte en soulignant votre apport personnel. Un bon point supplémentaire si vous pouvez mentionner dans quelle direction tel résultat pourrait être prolongé. Mais ne confondez pas de nouvelles recherches, qui sortent du cadre que vous avez initialement défini, avec un travail que vous auriez du faire et que vous n'avez pas eu le temps d'entreprendre. Les premières mettent en évidence vos aptitudes à faire de la recherche, le second une lacune dont vous avez conscience et qui ne vous honore pas.

Bibliographie

Si vous avez lu tout ce que vous citez, c'est bien ; si vous avez lu tout ce qui relève du sujet, vous mentez. Vous ne serez jamais exhaustifs. Les références bibliographiques sont donc un choix qui révèle votre famille de pensée. Vous marquez à travers ce choix la communauté scientifique à laquelle vous vous rattachez.

Les bibliographies constituent un ensemble homogène de références. Il ne faut citer que ce qui est utile à la compréhension et qui est cité dans le texte. Donc à vous dans la "situation du sujet de recherche" d'être exhaustif quant aux aspects et sélectifs quant aux auteurs. J'ai expliqué plus haut pourquoi il faut revenir aux références séminales ; elles montrent bien que vous n'ignorez pas les fondateurs du sujet.

Comme pour le nombre de pages, le nombre de références est révélateur. Moins d'une cinquantaine, il faut qu'elles soient très bien sélectionnées - que des textes importants. Plus de cent cinquante, vous avez cité largement et je doute que vous n'ayez pas recopié les références cités dans les articles cités dans les articles .. etc.

Trop souvent on voit cités des pré-prints. Si le texte est très récent - trois ans maximum - c'est justifiable, sinon il doit être publié, sous forme révisée, dans une revue ou un livre ou des actes de colloques. Cherchez les références, au besoin en demandant à l'auteur qui sera ravi de connaître un lecteur attentif et d'être cité. Indiquez cette forme révisée et non pas la première version ! Celle-ci, tirée à quelques exemplaires, devient rapidement introuvable. Et c'est la raison d'être des références permettre de retrouver un texte.

C'est pourquoi elle doivent être complètes :
- pas de livre sans éditeur,
- pas de thèse sans mention de l'université,
- pas d'actes de colloque sans préciser les éditeurs (personnes physiques) qui ont sélectionnés et réunis les textes et l'éditeur (personne morale) qui a fait imprimer le livre.
- pas de référence sans les pages (ne serait-ce que pour commander des photocopies à l'INRIA ; il faut pré-payer proportionnellement au nombre de pages).

Enfin les références doivent être tapées dans un style unique. Il varie nécessairement d'un type à l'autre - article, livre, actes de colloques, thèse - mais pour un même type, choisissez un style et gardez le ! Ceci peut paraître mineur, ça l'est, mais c'est le signe d'un travail bien fini, qui n'est pas achevé dans la précipitation.

Ouf ! C'est fini. Si j'avais su tout ça avant de commencer la mienne, j'aurais sans doute abandonné devant l'ampleur de la tâche. Mais soyez sûrs qu'aucune thèse ne satisfait à toutes ces contraintes ; certaines sont d'ailleurs mineures et relèvent plus des recommandations que des obligations. Ne regardez pas maintenant les thèses que vous lirez sous cet éclairage très cru mais demandez vous si elles vous ont appris quelque chose. C'est la qualité essentielle de celle que vous vous apprêtez à écrire : qu'elle apprenne quelque chose à ses futurs lecteurs et en particulier à ses rapporteurs. Ainsi vous obtiendrez les félicitations du jury.