PyGraft : tout savoir sur le nouvel outil Python open source pour la DataViz

Narindra R. 19 septembre 2023 4 minutes de lecture Data Analytics

On vous présente aujourd’hui PyGraft : la solution en code source ouvert centrée sur Python qui crée des représentations graphiques de connaissances complètement personnalisées et agnostiques du domaine.

Utiliser des KG (Knowledge Graph) ou des graphes de connaissances est aujourd’hui l’une des méthodes les en vogue pour représenter les données sous forme de structure graphique. Un KG est constitué de triplets (s, p, o), où « s » (sujet) et « o » (objet) représentent deux nœuds du graphe. Le « p » est un prédicat décrivant le type de lien qui les unit. Les KG s’appuient généralement sur un schéma. Dont une ontologie, qui définit les concepts et les relations essentiels dans un domaine d’étude. Mais aussi sur les contraintes régissant leurs interactions. De nombreuses activités recourent aux KG, avec un petit nombre de KG établis comme des normes acceptées pour évaluer les performances des modèles.

Quand les KG sont indispensables dans les recherches

Le recours exclusif à ces KG traditionnels spécifiques pour évaluer la généralisation des nouveaux modèles soulève certaines préoccupations. Par exemple, il a été prouvé que les ensembles de données traditionnels partagent des caractéristiques statistiques. À savoir l’homophilie dans la catégorisation des nœuds.

Par conséquent, des ensembles de données présentant des statistiques similaires sont utilisés pour évaluer les nouveaux modèles. Ce qui veut dire que leur contribution à l’amélioration des performances s’avère parfois incohérente. Et cela en dehors des ensembles de données de référence courants.

Il a d’ailleurs été souligné que plusieurs ensembles de données existants dédiés à la prédiction de liens souffrent de biais de données. Ils contiennent également de multiples schémas d’inférence que les modèles prédictifs peuvent incorporer. Cela peut cependant conduire à des évaluations excessivement optimistes des performances.

De ce fait, il est impératif de disposer de jeux de données plus diversifiés. Afin de permettre aux chercheurs de tester de nouveaux modèles dans divers contextes de données, dont PyGraft, il est essentiel de mettre à leur disposition un moyen de générer des jeux de données synthétiques. C’est-à-dire un flux de données réalistes, présentant diverses tailles et caractéristiques. Dans certains domaines d’application, l’indisponibilité de KG accessibles au public est une situation encore plus préoccupante que de dépendre d’un petit nombre de KG.

Le défi à relever pour synthétiser les schémas et les KG

Effectuer des recherches dans des domaines tels que l’éducation, les forces de l’ordre ou la médecine est extrêmement complexe. Les préoccupations liées à la confidentialité des données peuvent rendre la collecte pratiquement impossible. Les KG spécifiques à ces domaines sont donc très rares.

Parallèlement, les ingénieurs, les praticiens et les chercheurs ont souvent une compréhension approfondie des particularités de leur problème d’intérêt. Dans une telle situation, la création d’un KG synthétique qui reproduit les caractéristiques d’un KG réel pourrait s’avérer avantageuse.

Bien que l’on ait déja abordé ces deux aspect, les défis évoqués ci-dessus ont suscité de nombreuses tentatives visant à élaborer des générateurs synthétiques de schémas et de KG.

Des KG dépourvus de spécificités de domaine peuvent être générés à l’aide de méthodes stochastiques. Cependant, bien que ces approches soient efficaces pour créer rapidement de vastes graphes, il est essentiel que la création de données prend en compte une structure sous-jacente.

Les KG générés peuvent parfois ne pas reproduire de manière précise les caractéristiques des KG réels dans un domaine d’application donné. En revanche, les générateurs basés sur des schémas ont la capacité de créer des KG qui reflètent les données du monde réel.

Cependant, à ce jour, la plupart des initiatives se sont concentrées sur la création de KG synthétiques à partir de schémas existants. On envisage alors une complexité au niveau de la synthétisation d’un schéma et d’un KG. Mais il n’a pas encore rencontré de succès généralisé.

PyGraft : la solution ultime pour créer des schémas et des KG

Dans leur étude, des chercheurs issus de l’Université de Lorraine et de l’Université Côte d’Azur ont entrepris de résoudre ce problème. Ils ont cependant introduit PyGraft, un outil open source basé sur Python dédié à au dataviz. Et donc à la création de schémas et de KG hautement personnalisés, sans spécificités de domaine.

#PyGraft is an open-source #Python-based #AI tool that generates highly customized, domain-agnostic schemas and knowledge graphs. It can be used to create schemas and knowledge graphs for a variety of domains, including #healthcare, #finance, and #education. pic.twitter.com/4REWXvWknm
— Neuralink26 (@Neuralink26) September 14, 2023

Voici les principales contributions de leur recherche :

PyGraft est le seul générateur spécifiquement conçu pour produire des schémas et des KG dans un tout nouveau processus. On peut également le configurer selon la gamme de critères définis par l’utilisateur ;
Les ressources générées par PyGraft sont neutres en matière de domaine. Ce qui leur permet de s’adapter facilement à une analyse comparative dans n’importe quel contexte d’application ;
On construit les schémas et les KG résultants avec un ensemble étendu d’éléments RDFS (Resource Description Framework Schema). Mais aussi avec des éléments OWL (Web Ontology Language). Cela s’accompagne de l’application d’un raisonneur DL pour garantir leur cohérence logique. Cela permet une description précise des ressources et une conformité rigoureuse aux normes communes du Web sémantique ;
Les chercheurs mettent leur code en accès public, accompagné de documentation et d’exemples pour faciliter son utilisation.