Pour la première fois, la CAF lève le voile sur l’algorithme qui déclenche certains contrôles du RSA. Le code source est publié, les critères sont détaillés et les données sensibles écartées. L’organisme joue la carte de la transparence totale.
Jeudi 15 janvier, la Caisse nationale des allocations familiales ou CNAF a publié l’intégralité du code source de son outil de datamining. Le but est d’expliquer, noir sur blanc, comment sont ciblés certains contrôles d’allocataires du RSA. Variables utilisées, pondérations appliquées, critères écartés, tout est accessible.
La CAF, en exposant le fonctionnement de son algorithme, assume un virage inédit dans la gestion des données publiques. Et tente, au passage, de calmer les critiques sur l’opacité des systèmes automatisés.
Une transparence assumée pour encadrer le datamining
Chaque année, la CAF verse plus de 108 milliards d’euros à 13,8 millions de foyers. Oui, une sacrée bonne somme. À ce niveau, l’erreur coûte cher. D’autant plus que le montant de la fraude détectée a bondi de près de 20 % en 2024, pour atteindre 449 millions d’euros. C’est ce que la CNAF a publié. De quoi expliquer pourquoi la CAF affine ses outils de contrôle et surveille de près chaque euro versé.
Pour ce faire, l’organisme lance un outil baptisé DMDE 2026, pour DataMiningDonnées Entrantes. Son rôle est de repérer les dossiers présentant un risque élevé d’erreur de versement. Mais face aux soupçons, la CAF a décidé de tout ouvrir.
Depuis mars 2025, un comité d’éthique indépendant encadre ces outils. Juristes, experts numériques et représentants d’usagers analysent chaque projet. Ils évaluent les risques et imposent des ajustements. Ces experts bloquent les dérives potentielles.
En plus, une charte stricte complète le dispositif. Elle impose des règles claires. Parmi elles, la transparence totale, la protection renforcée des données personnelles et l’usage d’aide, jamais de sanction automatisée.
Ce que l’algorithme de la CAF analyse, et surtout ce qu’il ignore
Alors, cet algorithme de la CAF suffit-il pour contrôler les erreurs sur le RSA ? À lui seul, non. Et l’organisme le reconnaît parfaitement. De nombreuses données restent volontairement exclues, dont la nationalité, le sexe, l’adresse précise ou le quartier de résidence.
Il est donc impossible qu’un lieu ou une origine influence le score. Même logique pour les données de comportement. Se connecter rarement à son compte, appeler souvent la CAF ou répondre tardivement n’a aucun impact.
Autre choix fort, un contrôle passé ne rend pas un allocataire plus suspect aujourd’hui. Les concepteurs cherchent ainsi à éviter tout effet boule de neige. Cet algorithme utilisé par la CAF se concentre uniquement sur des éléments factuels liés à la situation déclarée.
Il analyse le type d’activité professionnelle, la composition du foyer et les montants perçus. À cela s’ajoutent la présence d’enfants de plus de 19 ans et les changements récents de situation. Ces données vérifiables sont ensuite croisées à l’aide d’une régression logistique. Oui, cette méthode statistique classique et explicable.
Moins de 1%
Depuis la généralisation de la solidarité à la source, l’outil de contrôle a évolué. Les déclarations trimestrielles du RSA arrivent désormais pré-remplies. Pendant la transition, deux moteurs coexistent. L’un analyse les anciennes déclarations manuelles. L’autre se base sur les données automatisées. Cette configuration temporaire doit disparaître en 2027, selon la CNAF.
Certes, en publiant son code, la CAF veut montrer que son algorithme n’agit pas dans l’ombre. Il reste lisible, contrôlé et consultable par tous. C’est évidemment une manière de reprendre la main sur un débat devenu explosif autour du CAF algorithme. Mais aussi de rappeler que, derrière les lignes de Python, la décision finale reste humaine.
Attention toutefois, la CAF insiste sur un point. L’outil ne remplace pas l’humain. Il produit uniquement un score de risque. Ensuite, un contrôleur décide. Selon Thomas Desmoulins, responsable du contrôle à la CNAF, ces dossiers restent marginaux dans le travail quotidien.
Sur 31,5 millions de vérifications menées en 2024, moins de 1 % reposaient sur ce système. L’algorithme ne s’active que si le trop-perçu potentiel dépasse 600 euros sur six mois. Rien d’automatique, donc, mais un tri statistique assumé.
- Partager l'article :
