Search for a command to run...
[VERSION FRANÇAISE] Le secteur médico-social français produit massivement des écrits professionnels contenant des données hautement sensibles. Aucun système de pseudonymisation n'est adapté à son vocabulaire, à ses organisations et aux exigences du Code de l'Action Sociale et des Familles (CASF). Cet article présente ConfidensIA, un système hybride combinant un modèle NER CamemBERT optimisé (distillation à 11 couches, pruning magnitude-based, quantization FP16), 338 règles expertes et 25 916 entrées de gazetteers. La contribution principale est une taxonomie fine-grained de 100 catégories d'entités identifiantes, couvrant établissements médico-sociaux, organismes publics, identifiants, adresses, associations et unités de service. Sur un corpus gold standard de 330 phrases (448 entités), ConfidensIA obtient un F1 global de 86,1%, et 95,6% sur les entités critiques (NIR, dates de naissance, adresses complètes). Tous les objectifs de performance par criticité sont atteints ou dépassés : CRIT ≥ 95% (atteint : 95,6%), ELEV ≥ 85% (atteint : 97,7%), MOY ≥ 70% (atteint : 91,1%), FAIB ≥ 60% (atteint : 82,9%). Le mécanisme de pseudonymisation réversible permet un usage RGPD-compliant des grands modèles de langage (LLM) sans exposition de données sensibles : les textes sont pseudonymisés localement, traités par des API externes avec tokens typés, puis dépseudonymisés localement. Cette architecture respecte les principes de privacy by design. Le modèle distillé (student) est publié sous licence MIT sur Hugging Face : https://huggingface.co/jmdanto/titibongbong_camemBERT_NER Le pipeline complet demeure privé pour raisons de développement commercial.