Qualiopi Formation IA Certification Entreprise

Qualiopi V9 en Markdown open source pour vos assistants IA

Le Guide de lecture Qualiopi V.9 (DGEFP, 8 janvier 2024) converti en 32 fichiers Markdown sous Licence Etalab. Open source, prêt pour la RAG et les LLM.

Y
Yoann ABDEL AAL
· · 10 min de lecture
Couverture du Guide de lecture Qualiopi V.9 (Ministère du Travail) se transformant en fichiers Markdown structurés, par Levier IA
Table des matières

TL;DR — Points clés

À retenir de cet article

  1. 32 indicateurs Qualiopi V.9 disponibles en Markdown open source

    Un fichier par indicateur, front-matter YAML enrichi, prêt pour le chunking RAG.

  2. Pipeline 100 % Python local — pymupdf only, aucun LLM dans la boucle

    774 lignes de code, déshyphénation contextuelle, démêlage des colonnes du PDF officiel.

  3. Publié sous Licence Ouverte Etalab 2.0

    Réutilisation commerciale autorisée avec mention de la DGEFP et de la date du 8 janvier 2024.

  4. 46 678 OF certifiés Qualiopi en France peuvent indexer le référentiel

    Source : Liste publique des organismes de formation, data.gouv.fr, février 2026.

  5. Le PDF officiel contient un calque résiduel sur l'indicateur 23

    Une seule retouche assumée, signalée explicitement par un champ editorial_note dans le front-matter.

Le Guide de lecture du Référentiel National Qualité est le document de référence pour la certification Qualiopi. Publié par la DGEFP (Ministère du Travail) dans sa version 9 le 8 janvier 2024, il couvre 32 indicateurs répartis sur 7 critères, et il conditionne désormais l’accès aux financements publics et mutualisés de la formation professionnelle (CPF, OPCO, France Travail, régions). Le PDF officiel de 42 pages reste cependant techniquement inexploitable pour un usage moderne : recherche plein-texte cassée, indexation dans un assistant IA impossible, copier-coller propre vers Notion ou Obsidian hors de portée.

Nous avons donc converti l’intégralité du Guide V.9 en 32 fichiers Markdown structurés, un par indicateur, avec un front-matter YAML enrichi, et publié l’ensemble en open source sous Licence Ouverte Etalab 2.0. Le dépôt est utilisable directement pour alimenter un système de retrieval-augmented generation (RAG), construire un assistant Qualiopi interne, ou simplement disposer du référentiel dans un wiki interne.

Statut réglementaire de Levier IA. Levier IA est en cours d’enregistrement comme organisme de formation professionnelle (déclaration d’activité auprès du préfet de région d’Île-de-France) et engagé dans une démarche de certification Qualiopi. Tant que cette certification n’est pas obtenue, nos formations ne sont pas encore éligibles aux financements OPCO ni CPF, et nous n’utilisons pas la marque Qualiopi. Cette information sera mise à jour dès l’obtention. Le présent article décrit le cadre général applicable à la profession.

Pourquoi un acteur AI-first publie un référentiel public en open source

Ce dépôt est un sous-produit du travail que nous menons sur Levier-Learn™, notre LMS pensé nativement pour la conformité Qualiopi des organismes de formation — documentation automatique des indicateurs 11, 13, 17, 18 et 19, export OPCO en un clic, hébergement souverain chez OVHcloud, et AI Mentor 24/7 intégré (GPT-5 + Mistral 3 en mode zero-data retention). Pour qu’un assistant IA embarqué puisse répondre en langage naturel aux questions des formateurs sur le RNQ — « est-ce que ma feuille d’émargement couvre l’indicateur 17 ? », « que vérifie un auditeur sur l’indicateur 22 en sous-traitance ? » — il fallait d’abord disposer du référentiel sous forme structurée, indicateur par indicateur, indexable par un retriever. Convertir le PDF officiel en Markdown était la première brique de cette chaîne. La publier sous Licence Etalab est notre façon de rendre à la communauté l’outillage qu’on aurait nous-mêmes voulu trouver.

Le dépôt est ici : github.com/Levier-IA/qualiopi-markdown — release stable v9.0.0.


Pourquoi convertir le Guide Qualiopi V.9 en Markdown ?

Un marché de 46 678 organismes concernés

D’après la Liste publique des organismes de formation publiée par le Ministère du Travail sur data.gouv.fr (mise à jour du 11 février 2026), 159 750 OF sont déclarés en France. Parmi eux, 46 678 détiennent au moins une certification Qualiopi, soit 29,2 %. La répartition par périmètre :

  • 45 398 OF certifiés sur les actions de formation
  • 4 526 sur l’apprentissage
  • 4 384 sur les bilans de compétences
  • 2 406 sur la VAE

Un même OF peut cumuler plusieurs périmètres : 7 903 OF (4,9 % du total déclaré) détiennent deux certifications Qualiopi ou plus. Les ~70 % d’OF déclarés mais non certifiés opèrent typiquement sans recours aux fonds publics — clientèle entreprise auto-financée, formations sur-mesure, micro-activité. Pour tous les autres, la conformité à la V.9 est désormais conditionnelle à l’éligibilité aux financements.

L’enjeu CPF : 2,21 Md€ engagés en 2024

D’après le Rapport annuel 2024 de Mon Compte Formation publié par la Caisse des Dépôts en novembre 2025, 1 391 397 dossiers CPF ont été souscrits en 2024 pour 2 214,67 millions d’euros engagés, dont 2 000,61 M€ financés directement par France Compétences. La V.9 du Guide Qualiopi est entrée en application précisément sur ce terrain : tout sous-traitant intervenant sur une action CPF doit être certifié Qualiopi depuis le 1er avril 2024 (sauf micro-CA de moins de 77 700 €), et le donneur d’ordres doit le démontrer en audit. Ces règles sont disséminées sur plusieurs indicateurs (notamment 3, 7, 22, 27) — d’où l’intérêt de pouvoir interroger le référentiel en langage naturel plutôt qu’au scroll dans le PDF.

Le PDF officiel est techniquement inexploitable

Le Guide V.9 officiel pèse 2,40 Mo répartis sur 42 pages A4, dans une mise en page tabulaire à trois colonnes (Niveau attendu / Exemples de preuves / Non-conformité) avec un bandeau « Critère » en haut et un bandeau « Sous-traitance » en bas de chaque fiche d’indicateur. Pour un outillage moderne, cette structure pose quatre problèmes concrets :

  1. Encodage cassé : pdftotext et pdfplumber sortent tous les accents et apostrophes typographiques en U+FFFD (le caractère �) à cause de CMaps non-standard dans les fonts embarquées. Aucune recherche en français ne fonctionne sur le texte extrait.
  2. Colonnes mélangées : toute extraction linéaire intercale le texte d’une colonne au milieu d’une autre. Sur l’indicateur 12, le disclaimer « Cet indicateur s’applique aux formations d’une durée supérieure à 2 jours » se retrouve après les exemples de preuves alors qu’il devrait précéder le niveau attendu.
  3. Énoncés absents des fiches : les phrases d’introduction (« Le prestataire diffuse… », « Le prestataire analyse… ») ne figurent que dans le sommaire pages 4-6, jamais sur la fiche correspondante. Sans intervention, chaque fiche extraite démarre sans contexte.
  4. Calque résiduel sur l’indicateur 23 : le PDF officiel contient un calque graphique invisible à l’œil mais extrait par tout convertisseur, qui reproduit du contenu de l’indicateur 5 au milieu de la fiche 23. Pour un humain, c’est imperceptible. Pour un retriever vectoriel, c’est un poison.

Le pipeline : 100 % Python local, aucun LLM dans la boucle

Pourquoi pas un LLM pour la conversion ?

Nous avons délibérément exclu tout appel LLM dans la chaîne de conversion. Trois raisons : reproductibilité (le pipeline produit exactement les mêmes fichiers à chaque exécution), fidélité juridique (un LLM peut paraphraser sans le signaler — inacceptable sur un texte réglementaire) et transparence (chaque transformation est traçable ligne par ligne dans le code). Le pipeline complet tient en 774 lignes de Python réparties sur deux scripts, avec une seule dépendance : pymupdf.

PDF officiel (42 pages)
  ├── _scripts/build_markdown.py (504 lignes)
  │   ├── pymupdf.get_text("blocks") avec positions x/y
  │   ├── tri manuel par y_top
  │   ├── classification en 4 zones (top / left / right / sous-traitance)
  │   ├── détection dynamique du bandeau "Sous-traitance"
  │   ├── groupage par proximité verticale (gap < 14 px)
  │   └── déshyphénation contextuelle
  └── _scripts/split_indicators.py (270 lignes)
      ├── split du guide complet par "### Indicateur N"
      ├── enrichissement YAML (pondération, sous-traitance, nouveaux entrants)
      └── écriture de 32 fichiers + INDEX.md

Démêler les colonnes sans casser la lecture

pymupdf.get_text("blocks") renvoie chaque bloc texte avec sa bounding box (x0, y0, x1, y1). En triant manuellement par y_top et en classant chaque bloc selon sa coordonnée x dans l’une des 4 zones (haut de page, colonne gauche, colonne droite, bandeau bas), on reconstitue le flux de lecture humain. La position du bandeau « Sous-traitance » est détectée dynamiquement à chaque page via get_text("words") plutôt qu’avec une coordonnée codée en dur — le PDF officiel n’aligne pas toutes les fiches exactement.

Déshyphénation contextuelle

La justification PDF étire les espaces et coupe les mots aux fins de ligne avec un trait d’union. Une déshyphénation naïve (re.sub(r"-\n", "", text)) casse les mots composés français : non-conformité redevient nonconformité, sous-traitance devient soustraitance. La solution : une liste blanche de préfixes (non-, sous-, pré-, co-, auto-, compte-, travail-…) préservés à la jonction, et déshyphénation pour tout le reste. Sur les 32 fiches, ~180 ruptures de ligne ont été restaurées correctement.


La structure : un fichier par indicateur

Pourquoi un fichier par indicateur

Tester plusieurs granularités a tranché : un fichier par indicateur est l’unité optimale pour un retriever vectoriel.

  • Par page : les fiches débordent sur 1 à 3 pages, le découpage casse le sens.
  • Par critère : trop large — 4 à 6 indicateurs par critère, le retriever remonte des chunks de 2 000+ tokens contenant la réponse à une question parmi cinq autres.
  • Par section interne (énoncé / niveau attendu / preuves / non-conformité) : trop fragmenté, on perd le contexte d’application qui dépend de l’énoncé.
  • Par indicateur : chaque fichier tient entre 200 et 800 tokens, l’embedding voit l’énoncé + le niveau attendu + les preuves + les non-conformités d’un coup. C’est ce qui donne du sens à une requête utilisateur du type « comment prouver l’indicateur 22 en sous-traitance ? ».

Le résultat : 32 fichiers indicateurs/NN-slug-kebab.md, avec NN zéro-paddé pour le tri lexicographique, plus un INDEX.md qui les regroupe par critère.

Le front-matter YAML comme contrat avec le RAG

Chaque fiche embarque un front-matter YAML enrichi avec les métadonnées dérivées du PDF :

---
indicateur: 3
critere: 1
critere_titre: "Les conditions d'information du public…"
slug: taux-obtention-certification
ponderation: majeure
nouveaux_entrants: oui
sous_traitance: applicable
source: "Guide de lecture du RNQ — V.9 du 8 janvier 2024, DGEFP"
---

Ces trois métadonnées dérivées (ponderation, nouveaux_entrants, sous_traitance) sont calculées depuis les listes explicitement énumérées dans le préambule du PDF — elles permettent un filtrage propre côté retriever sans dépendre du contenu textuel. Un utilisateur qui demande « quels sont les indicateurs majeurs en sous-traitance ? » obtient une réponse exacte par filtre métadonnée + agrégation, pas par recherche sémantique approximative.

CommonMark, pas de tableaux GFM

Les trois colonnes du PDF sont aplaties en sections séquentielles ## Niveau attendu, ## Exemples de preuves, ## Non-conformité. Pas de tableau Markdown — un tableau GFM est beaucoup moins exploitable par un embedding qu’une suite de paragraphes. Les citations d’articles du Code du travail (l'article L. 6316-3 du code du travail) restent en inline, sans blockquote, pour ne pas créer de sous-chunks orphelins.


Indexer le RNQ dans votre propre assistant Qualiopi

Stratégie de chunking

Un fichier = un chunk. Pas de fragmentation supplémentaire. Avec un chunk_size de 1 024 tokens et sans overlap, chaque fiche tient en un seul chunk (l’indicateur 31 fait ~190 tokens, l’indicateur 23 nettoyé ~590 tokens). Le front-matter YAML est inclus dans le chunk — le LLM s’en sert pour citer la source et expliquer la pondération.

Trois modèles d’embedding recommandés

  • text-embedding-3-small (OpenAI) — économique, excellent rendement en français
  • mistral-embed (Mistral AI) — modèle français natif, idéal pour un déploiement européen
  • bge-m3 (open-weights, multilingue) — pour un déploiement on-premise sans dépendance cloud

Prompt système type pour un assistant Qualiopi

Tu es un assistant Qualiopi pour les organismes de formation français.
Réponds uniquement à partir des extraits du Guide de lecture V.9 fournis
ci-dessous. Cite systématiquement le numéro et le titre de l'indicateur.
Précise s'il existe une obligation spécifique (CFA, CBC, VAE) ou une
règle de sous-traitance applicable. Si l'information n'est pas dans les
extraits, dis-le explicitement sans inventer.

Exemple Q/R end-to-end

Q : Un organisme certifié sous-traite une formation à un autre OF. Le sous-traitant doit-il afficher ses propres taux d’obtention de certification ?

R : Non. Selon l’Indicateur 3 — Taux d’obtention de certification du Guide V.9 (Critère 1), lorsque la prestation échantillonnée est réalisée en sous-traitance, l’indicateur n’est pas applicable au sous-traitant : l’information doit être réalisée par le donneur d’ordres. C’est documenté dans le bandeau « Sous-traitance » de la fiche.


Licence, conformité, éthique

Pourquoi Etalab 2.0

Le Guide V.9 est une information publique au sens de l’article L. 321-2 du Code des relations entre le public et l’administration. La Licence Ouverte / Open Licence 2.0 d’Etalab est la licence par défaut pour la réutilisation de ces informations : elle autorise rediffusion, modification et exploitation commerciale, sous réserve de mentionner la paternité (DGEFP) et la date de la dernière mise à jour (8 janvier 2024). Les scripts Python sont publiés sous MIT — plus permissif, pour faciliter les forks et adaptations à d’autres référentiels.

L’usage du logo Qualiopi reste strictement interdit hors certification

C’est une règle qu’il faut marteler : l’arrêté du 4 juin 2021 réserve l’usage de la marque Qualiopi (logo, mention « processus certifié », apposition à côté du logo « République Française ») aux seuls organismes effectivement certifiés. Toute reproduction, déformation, intégration dans son propre logo, ou usage en gros plan par un organisme non certifié constitue un usage abusif sanctionnable. Le dépôt open source n’inclut pas le logo Qualiopi et nos communications visuelles autour de ce projet font apparaître le logo uniquement comme référence au document source (sur la couverture du PDF reproduit), jamais comme badge de certification de Levier IA.

Une retouche assumée : l’indicateur 23

Le fichier indicateurs/23-veille-legale-reglementaire.md est le seul à avoir subi un nettoyage manuel par rapport au PDF brut. Deux paragraphes parasites — issus du calque résiduel reproduisant du contenu de l’indicateur 5 — ont été retirés. La divergence est documentée dans le front-matter du fichier via un champ editorial_note, pour que tout consommateur du repo (RAG, LMS, wiki) soit informé qu’il n’a pas une copie strictement identique au PDF officiel sur cette fiche précise. C’est ce qu’on attend d’une chaîne de traitement transparente.

La transparence n’est pas (encore) symétrique

L’arrêté du 30 avril 2024 impose aux organismes certificateurs Qualiopi de transmettre annuellement un bilan détaillé à la DGEFP, au COFRAC et à France Compétences — incluant le nombre de prestataires en non-conformité, les indicateurs les plus problématiques, et la moyenne d’écarts constatés. Aucun de ces bilans agrégés n’est rendu public à ce jour. Pour un OF qui prépare son audit, savoir si « 5 % » ou « 40 % » des candidats ont une non-conformité majeure sur l’indicateur 22 changerait pourtant son plan de préparation. L’open source du référentiel est un premier pas — la publication officielle des statistiques d’audit en serait un second.


En résumé : un outil pour 46 678 organismes

Le Guide de lecture Qualiopi V.9, c’est 42 pages PDF, 32 indicateurs, 7 critères, et 2,21 milliards d’euros de financement CPF dont les règles de sous-traitance dépendent. Le rendre interrogeable en langage naturel, indexable dans un RAG, copiable dans un wiki interne ou un assistant Notion — c’est une heure de pipeline Python et un dépôt GitHub. C’est aussi un signal pour notre secteur : la conformité ne doit pas être un PDF de 2,40 Mo qu’on imprime et qu’on commente en réunion. Elle peut, et doit, devenir un texte structuré, citable, et requêtable par les outils de 2026.

Le dépôt est public, sous Etalab 2.0 : github.com/Levier-IA/qualiopi-markdown. Forks, issues et améliorations bienvenus. Si tu trouves le projet utile, tu peux explorer notre approche AI-first de la formation sur levier-ia.fr et notre programme de formation IA. Pour la cartographie complète des sujets que nous couvrons, voir notre carte topique.

Vous voulez construire votre propre assistant Qualiopi maison à partir du dépôt ? Réserver une date pour en discuter — nous accompagnons les OF dans la mise en place de RAG métier conformes.

Chiffres-clés

Données sourcées

46 678

organismes de formation certifiés Qualiopi en France sur 159 750 OF déclarés (29,2 %), selon la Liste publique des OF de data.gouv.fr.

Selon Liste publique des organismes de formation (L. 6351-7-1 du Code du travail) — data.gouv.fr (février 2026)

2,21 Md€

engagés sur le CPF en 2024 via Mon Compte Formation, dont 2,00 Md€ financés par France Compétences.

Selon Caisse des Dépôts — Rapport annuel Mon Compte Formation 2024

10 %

des entreprises françaises utilisent l'IA en 2024, soit +4 points en un an (enquête INSEE sur 9 400 entreprises de 3 salariés et plus).

Selon INSEE Première n° 2061 — Intelligence artificielle dans les entreprises

Questions fréquentes

Vos questions sur ce sujet

Peut-on utiliser le logo Qualiopi sur son site sans être certifié ?

Non. L'arrêté du 4 juin 2021 réserve l'usage de la marque Qualiopi aux seuls organismes effectivement certifiés. Toute reproduction, déformation ou usage par un organisme non certifié constitue un usage abusif. Levier IA, en cours d'enregistrement, n'affiche pas le logo et ne le reproduit pas dans le dépôt open source.

Le contenu du Guide V9 est-il librement diffusable ?

Oui. Le Guide de lecture Qualiopi V.9 est une information publique au sens de l'article L. 321-2 du Code des relations entre le public et l'administration. Il est réutilisable sous Licence Ouverte Etalab 2.0, y compris à des fins commerciales, avec mention de la DGEFP et de la date du 8 janvier 2024.

Combien d'organismes de formation sont certifiés Qualiopi en France ?

Selon la Liste publique des organismes de formation publiée sur data.gouv.fr (mise à jour du 11 février 2026), 46 678 OF détiennent au moins une certification Qualiopi sur 159 750 OF déclarés. La répartition : 45 398 actions de formation, 4 526 apprentissage, 4 384 bilans de compétences, 2 406 VAE. Un OF peut cumuler plusieurs certifications.

Le contenu Markdown est-il fidèle au PDF officiel ?

Oui, à une exception documentée. Le PDF officiel contient un calque résiduel sur l'indicateur 23 qui reproduit du contenu de l'indicateur 5, invisible à la lecture mais extrait par tout convertisseur. Les deux paragraphes parasites ont été retirés et signalés via un champ editorial_note dans le front-matter de la fiche.

Quel modèle d'embedding utiliser pour indexer le RNQ en français ?

Trois options éprouvées : text-embedding-3-small (OpenAI, économique, très bon en français), mistral-embed (français natif), bge-m3 (open-weights, déployable on-premise). Stratégie de chunking recommandée : un fichier indicateur égale un chunk, sans fragmentation supplémentaire, soit 200 à 800 tokens par fiche.

Quand sortira la V10 du Guide de lecture Qualiopi ?

Aucune date officielle n'est annoncée à ce jour. Le Ministère du Travail prépare une évolution dans le cadre du plan interministériel de lutte contre la fraude, parfois appelée « V10 » dans la sphère professionnelle, mais sans publication d'arrêté. La V9 du 8 janvier 2024 reste seule applicable pour tous les audits en cours.

Sources et références

Les données et affirmations de cet article sont sourcées auprès d'autorités publiques et d'études peer-reviewed.

Prêt à initier vos équipes à l'IA ?

Le Passeport IA est un workshop de 7 heures qui rend vos collaborateurs autonomes avec les outils d'IA.