Ce site utilise des cookies afin d’améliorer votre expérience utilisateur et de réaliser des statistiques d’audience.
J'accepteJe refuseEn savoir plus
en es
en es
Menu
Toutes nos actualités
03/03/2021

Thèse – Analyse conjointe de la localisation de l’écriture et de sa reconnaissance dans des documents d’identité

Depuis début mars, l’équipe recherche d’ARIADNEXT compte un nouveau doctorant : Timothée Neitthoffer, diplomé de l’INSA Rennes, rejoint notre entreprise pour sa thèse CIFRE, réalisée en partenariat avec l’équipe INTUIDOC de l’IRISA. Il sera encadré par Bertrand Couasnon, Aurélie Lemaître et Yann Soullard à l’IRISA, et Ahmad Montaser Awal à ARIADNEXT.

 

Le premier défi : Diminuer le nombre d’étapes de traitement

 

Actuellement, l’analyse de documents réalisée par IDCheck.io s’effectue en 3 étapes successives :

  • L’analyse de la structure globale du document (localisation des zones de texte, identification des différents champs)
  • La reconnaissance optique des caractères afin de pouvoir passer d’une image à un texte
  • Une modélisation de la langue qui permet d’apporter des corrections linguistiques ou de détecter des mots-clés.

Le premier objectif de cette thèse sera de réaliser un système capable de réaliser conjointement les tâches d’analyse et de reconnaissance, afin d’augmenter les performances de notre système actuel.

Ce travail s’appuiera sur les dernières innovations en matière d’apprentissage profond, en particulier les mécanismes d’attention développés par l’équipe de Xu en 2015 [1].

La difficulté sera de prendre en compte les contraintes spécifiques de l’application à la vérification de documents d’identité, à savoir pouvoir traiter et reconnaître un très grand nombre de types de documents différents, tout en n’ayant que très peu d’exemples de chaque type pour réaliser l’apprentissage.

 

Le second défi : s’adapter à tout type de nouveau document

 

La deuxième étape de cette thèse s’intéressera à l’ajout d’une nouvelle classe de document au système développé précédemment. L’objectif pour le système sera de savoir s’adapter à ce nouveau type de document, c’est-à-dire d’être capable de localiser les différents champs et d’en analyser les caractères en ayant besoin d’un nombre d’exemples très restreints, voire idéalement sans aucun exemple.

 

Quelles applications pour ARIADNEXT ?

 

Les travaux de cette thèse seront réalisés dans le cadre de l’amélioration continue des performances et les capacités de nos algorithmes de vérification de documents d’identité.

Toutes les étapes de construction du système et d’apprentissage seront faites selon le cahier des charges de l’entreprise, et à partir d’exemples tirés des bases de données à disposition d’ARIADNEXT.

Le partenariat avec l’IRISA nous permettra de bénéficier d’une expertise complémentaire à la nôtre en termes d’analyse et de reconnaissance de documents. Ils apporteront également une vision un peu différente des problèmes à traiter qui nous permettra de prendre de la hauteur par rapport à notre recherche.

 

Une thèse avec ARIADNEXT ?

 

Votre laboratoire souhaiterait monter une thèse avec notre entreprise ? Vous souhaitez effectuer votre thèse chez ARIADNEXT ? Vous cherchez un partenaire industriel pour votre projet Marie Curie « Doctoral Network » ? N’hésitez pas à nous contacter !

 

Référence :

[1] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, Yoshua Bengio, Proceedings of the 32nd International Conference on Machine Learning, PMLR 37:2048-2057, 2015

Suivez-nous !
contact