Skip to content

Data quality : remove absurd rpps

Christophe Goudet requested to merge absurd_rpps_samep_name_profession into main

Certains comptes partagent le même nom, prenom, commune et profession mais ont des RPPS différents. En comparant les nom/prenom avec l'annuaire, on remarque que certains RPPS sont des erreurs évidentes.

Cette MR évalue la pertinence de chaque RPPS en calculant la métrique de jaro winkler sur le nom et le prénom du professionnel. Si au moins un identifiant possède une grande correspondance, on retire tous les identifiants qui ne sont pas le meilleur matching.

450 comptes fusionnés, pour 80 comptes participant aux incohérences.

Edited by Christophe Goudet

Merge request reports