La #Cour_de_cassation mise sur l' #intelligence_artificielle pour l'ouverture des décisions de justice, article paru le 29 novembre 2019 dans la revue Acteurs Publics #cour_de_cassation #ia #intelligence_artificielle

Jean GASNAULT
 

La Cour de cassation mise sur l’intelligence artificielle pour l’ouverture des décisions de justice

 

 

Article de M. Emile Marzolf, paru dans la revue Acteurs Publics du 29 novembre 2019,

reproduit à titre exceptionnel sur la liste Juriconnexion avec l’aimable autorisation de l’auteur et de l’éditeur. Tous nos remerciements pour cette autorisation.

https://www.acteurspublics.fr/articles/la-cour-de-cassation-mise-sur-lintelligence-artificielle-pour-louverture-des-decisions-de-justice

 

 

Grâce à l’intelligence artificielle, une micro-équipe de spécialistes du numérique intégrée à la Cour de cassation est parvenue à concocter en à peine dix mois un logiciel d’anonymisation des arrêts de la Cour suprême et des décisions des cours d’appel beaucoup plus performant, et qui devrait entrer en action d'ici la fin de l'année. À terme, la publication de ces décisions en open data pourrait enfin passer à la vitesse supérieure, en se passant en grande partie de toute intervention humaine.

 

Publier gratuitement en ligne toutes les décisions de justice, mais tout en préservant la vie privée des personnes concernées. C’est que prévoyait déjà la loi de 2016 pour une République numérique, qui renvoyait à un décret ultérieur le soin de préciser dans quelles conditions cette ouverture devait se faire. La loi de réforme de la justice de mars 2019 est venue rappeler l’ambition d’ouverture tout en resserrant son encadrement, s’agissant notamment de l’identité des personnes physiques. 

 

Dans la foulée, et pour tenter de faire ce grand écart a priori impossible entre open data et protection des données personnelles, la Cour de cassation a recruté 2 entrepreneurs d’intérêt général (EIG), placés sous la supervision d’Édouard Rottier, ancien chef du bureau des diffusions numériques et des relations avec les cours d’appel, pour plancher sur un tout nouveau logiciel d’anonymisation des décisions. Une tâche loin d’être facile pour la machine, qui doit en plus composer avec une contrainte de taille : effacer les éléments permettant d’identifier les personnes physiques, mais pas les professionnels du droit que sont les greffiers, avocats et magistrats. 

 

Au terme des dix mois, les EIG et leur mentor en sont convaincus : ils ont nettement amélioré le procédé d’anonymisation des décisions. Car la Cour de cassation ne partait pas de rien, mais simplement de très loin. Depuis janvier 2018 et sa reprise en main du processus d’anonymisation - alors qu’elle sous-traitait auparavant cette tâche au site Légifrance -, la Cour s’appuyait déjà sur un premier logiciel, composé d’une interface d’annotation des décisions et d’un outil permettant d’occulter les éléments susceptibles d’identifier une personne. Mais avec une efficacité toute relative. À tel point qu’à l’heure actuelle, toutes les décisions publiées en open data par la Cour font obligatoirement l’objet d’une relecture humaine.

 

4 millions de décisions rendues par an

 

Jusqu’à présent, c’est donc à une équipe de 3 à 4 personnes que l’on devait la publication de 12 000 à 15 000 décisions par an. Alors même que les bases Jurinet et Jurica de la Cour s’enrichissent annuellement de 15 000 et 150 000 décisions chacune. Au total, on estime à 4 millions le nombre de décisions rendues chaque année par les tribunaux de France. 

 

Sur son ordinateur, Édouard Rottier déroule plusieurs exemples de décisions anonymisées par le logiciel actuel, concocté par deux prestataires : Sword Group et Expert Systems. Plutôt que des éléments permettant d’identifier une personne qui seraient passés entre les mailles du filet, ce sont au contraire des dizaines d’éléments injustement occultés qui apparaissent à l’écran.

 

Preuve s’il en est de la nécessité de repasser derrière pour corriger tout cela. 

 

La limite du logiciel est qu’il repose principalement sur des règles dites déterministes.  “Après le mot “Monsieur”, on sait évidemment que c’est un nom qui va suivre”, donne pour exemple l’un des deux datascientists, Amaury Fouret, “mais ce type de règles est très fragile, car le langage naturel comporte souvent des fautes d’orthographe, de typographie ou de syntaxe” qui viennent enrayer la machine. Par ailleurs, il n’existe pas, à ce jour, d’harmonisation au niveau de l’ensemble des tribunaux de France de la manière de rédiger et structurer une décision. Or, les machines supportent difficilement tout ce qui n’est pas standardisé. Même poussé dans ses retranchements par l’équipe de la Cour, le logiciel laisse encore passer une ou plusieurs erreurs graves, comme un prénom ou un nom, dans au moins 5 % des décisions. 

 

Techniques de l’intelligence artificielle

 

Quant au logiciel créé par les EIG, il atteint 99,96 % de réussite sur les noms et prénoms. Une performance obtenue grâce au recours aux techniques de l’intelligence artificielle. D’abord, il a leur a fallu représenter mathématiquement le langage pour permettre à une machine de faire des rapprochements entre les mots. Un procédé qui permet d’adopter une approche statistique et non plus par règles déterministes, comme le faisait le précédent logiciel.

 

Le but, ensuite, c’est d'optimiser le coût de notre corpus de décisions de justice : plus notre modèle fait d’erreurs et plus le coût est fort”, détaille le second datascientist, Valentin Barrière. De simples optimisations mathématiques permettent de réduire ce coût et d’améliorer le modèle qui fera fonctionner le moteur d’anonymisation. “Nous sommes partis de modèles de reconnaissance d’entités nommées entraînés sur la langue française, que nous avons soumis à un réglage fin des paramètres (fine-tuning) pour les appliquer au domaine juridique”, poursuit l’expert des données.

 

Les deux EIG sont mêmes allés jusqu’à améliorer l’état de l’art en la matière et sont parvenus à réduire le taux d’erreur de ce type de modèles de 30 % à 40 % en prenant davantage en compte le contexte dans lequel un mot apparaît. Ainsi, le logiciel permet de repérer et donc d’anonymiser automatiquement un total de 17 identifiants “directs” : noms et prénoms, adresses, dates de naissance, numéros de téléphone, plaques d’immatriculation… Mais pas encore tous avec la même fiabilité.

 

Degré d’automatisation à définir 

 

Toujours est-il que même avec ce nouveau logiciel basé sur l’intelligence artificielle, la Cour n’envisage pas de se passer de l’humain. “Quelle que soit la qualité de notre outil, il y aura toujours un taux d’erreur”, reconnaît Édouard Rottier, qui pense tout de même pouvoir avoisiner les 100 % concernant les noms et prénoms. En l’occurrence, un tel outil n’a – pour le moment en tout cas - pas vocation à se débarrasser de l’humain, mais simplement à automatiser tout ce qui peut l’être pour minimiser son intervention.

 

Loin de vouloir supprimer des postes, la Cour cherche même à renforcer ses équipes pour vérifier la bonne anonymisation des décisions. Leur nombre est récemment passé de 3 à 10 personnes et pourrait même grimper à une quinzaine. Par comparaison, en restant sur la même technologie et donc la même organisation, il aurait fallu mobiliser au moins 200 personnes à plein temps pour relire et corriger les décisions dans la perspective d’une publication de toutes les décisions, comme le veut la loi. 

 

Au vu des résultats du nouveau logiciel, la Cour envisage tout de même de revoir sa politique de relecture de fond en comble. Alors que l’intégralité des décisions publiées sur Légifrance font aujourd’hui l’objet d’une relecture, la réflexion est engagée pour réévaluer ce degré d’intervention humaine. Mais elle n’aboutira qu’une fois le décret d’application publié, dont tout dépend.

 

Cela n’a pas empêché la Cour de commencer à travailler sur le nouvel outil, qu’il suffira de paramétrer différemment pour correspondre au cadre réglementaire instauré par le décret. Cela ne l’empêche pas non plus de commencer à réfléchir à une nouvelle politique de relecture.

 

“L’idée n’est ni de tout relire ni d’abandonner toute relecture, mais plutôt de la cibler”, explique Édouard Rottier. Reste à définir la proportion des décisions qui seront relues ou non, et sur quelles bases. “On pourrait par exemple décider d’en relire d’abord la moitié, puis 25 % et enfin 10 % ou moins”, imagine l’ancien chef du bureau. Le ciblage pourrait également se faire en fonction de différents critères, tels que le potentiel de lisibilité de la décision, sa sensibilité, ou bien encore dans le cas où la machine elle-même émettrait un doute sur sa propre efficacité.

 

L’équipe travaille d’ores et déjà sur ce dernier point, mais il reste largement à améliorer.

 

Quant à un éventuel raccourcissement des délais de publication (la procédure actuelle s’étend sur deux semaines), Édouard Rottier ne s’engage pas, arguant que l’impératif premier n’est pas de publier plus vite, mais davantage, en automatisant l’anonymisation le plus possible. Quoi qu’il en soit, la performance du nouvel outil permettra d’aborder cette question beaucoup plus “sereinement”, assure le magistrat. 

Pérennisation et partage

 

L’un des principaux enjeux qui se posent désormais devant la Cour est celui de la pérennisation du projet. L’institution a d’ores et déjà reconduit l’un des datascientists, mais voudrait stabiliser l’équipe, actuellement composée d’un développeur et de 2 datascientists.“L’enjeu, pour nous, est d’arriver à conserver les compétences en interne pour poursuivre le projet et pouvoir l’adapter continuellement en suivant l’état de l’art, les éventuelles nouvelles exigences légales et l’arrivée de nouveaux types de décisions”, indique Édouard Rottier.

 

L’institution aurait d’ailleurs pu à nouveau faire appel à un prestataire pour concevoir le logiciel, mais “sur un tel projet d’innovation, recourir à la prestation reviendrait beaucoup plus cher et poserait des difficultés en termes de gestion de projet et de compréhension des enjeux métiers”, fait valoir Édouard Rottier. Passer par le programme EIG présentait également l’avantage de l’attractivité des talents et de l’esprit de communauté qui le sous-tend.

 

Conformément à l’esprit du programme, les 2 EIG se sont appuyés uniquement sur des solutions open source pour concevoir leur logiciel. En revanche, tout ce qu’ils ont créé ne l’est pas forcément. “Tout ce qu’il est possible de partager, on le partage, mais ce qui nous retient parfois, ce sont les questions de protection des données, dans la mesure où nos deux modèles statistiques ont été entraînés sur des données personnelles, et le fait que notre code est très lié aux formats de fichiers utilisés par la Cour”, plaide Amaury Fouret. Leurs algorithmes, eux, sont néanmoins parfaitement gratuits et accessibles, ce qui rend leur démarche largement reproductible.

 

La mission Etalab se chargera, à ce titre, de faire office de courroie de transmission avec les autres institutions désireuses d’appliquer la méthode de la Cour de cassation pour anonymiser leurs documents. Pour autant, la généralisation du nouveau moteur d’anonymisation à toutes les institutions judiciaires n’est pas pour demain, tant le paysage des applicatifs informatiques du ministère de la Justice reste encore aujourd’hui éclaté. En attendant, la Cour devrait adopter le nouveau logiciel mis au point par les deux EIG d'ici la fin de l'année.

 

Un moteur de recherche des décisions 

Parallèlement à ce projet de logiciel d’anonymisation, la Cour a fait développer, par un autre entrepreneur d’intérêt général (EIG), un tout nouveau moteur de recherche juridique. Avec la masse de décisions qui devraient être publiées sur Internet dans les prochaines années, un tel outil est en effet indispensable pour faciliter la navigation. L’idée n’est pas d’en faire le point d’accès privilégié, voire obligatoire, pour accéder aux décisions, mais plutôt “un outil qui permette à tous types de citoyens d’accéder aux décisions”, assure Édouard Rottier. Ainsi, il suffit de saisir une série de mots-clés dans une simple barre de recherche pour que le moteur affiche des résultats, dont le contenu “s’affine dynamiquement à mesure que sont ajoutés de nouveaux éléments de recherche”, explique son développeur, Mathieu Perez. Une première version devrait être mise en ligne d’ici la fin de l’année, mais le moteur de recherche pourra encore faire l’objet d’améliorations, en lien direct avec les travaux menés par ses 2 collègues EIG en matière d’analyse sémantique, pour permettre d’explorer plus finement la masse documentaire. 

 

par Emile Marzolf

29 novembre 2019

Join Juriconnexion@groups.io to automatically receive all group messages.