Données synthétiques : l’IA peut-elle sauver les sondages incomplets ?

Temps de lecture
1 min
Auteur·e
Potloc
Date de publication
29 mars 2026

Consultants, investisseurs et dirigeants s'appuient sur les données de sondages. Pourtant, le système souffre d'une perte d'efficacité massive : jusqu'à 34 % des réponses sont abandonnées en cours de route et jetées par les chercheurs. Pour savoir si les données synthétiques peuvent « compléter les incomplets », nous avons comparé 18 836 prédictions d'IA à des réponses humaines réelles. Découvrez nos conclusions.

Introduction

Chez Potloc, notre série Recherche sur la recherche a une mission unique : mettre à nu les fondements d'insights de haute qualité. Nos études ont tout analysé, de l'engagement des répondants à la détection de fraudes de plus en plus sophistiquées.

C’est un moment ironique pour notre industrie : alors que nous luttons contre la fraude générée par l'IA, nous cherchons simultanément à l'utiliser à notre avantage. Pour contribuer à ce domaine en pleine expansion, nous avons décidé d'examiner comment les données synthétiques peuvent résoudre un problème systémique du secteur : les sondages incomplets.

Sondages incomplets : Déchets ou pépites ?

Dans les environnements de recherche à enjeux élevés, le rejet de données fait partie de la discipline. Les réponses frauduleuses, les speeders, les doublons et les réponses générées par des bots sont systématiquement filtrés. Traditionnellement, les "incomplets" sont classés dans cette même catégorie : inutilisables.

Pourtant, les sondages incomplets diffèrent de manière significative.

synthetic-data-graph15
Exemples de contrôles de qualité des données dans l'industrie du sondage.

Historiquement, l'industrie traite les incomplets comme inexploitables. Selon une analyse, les sondages web affichent un taux d'abandon médian de 16 à 34 %.

Ces abandons gaspillent les ressources, imposent des recrutements de répondants coûteux et emprisonnent des insights critiques dans des réponses partielles. Pendant des décennies, cela a été accepté comme un coût inévitable.

Mais les incomplets sont-ils forcément « mauvais » ? Réfléchissez : les fraudeurs et les bots sont très doués pour finir les sondages ; ils forcent le passage pour maximiser leurs gains. À l'inverse, abandonner un sondage à mi-parcours est l'acte le plus humain qui soit (interruption, fatigue, ennui). L'acte d'abandon est peut-être le signal le plus fort qu'un répondant est réel.

Et s'il existait un moyen de récupérer la valeur de ces sondages via une complétion par données synthétiques ? Un système d'IA multi-agents peut-il utiliser le début des réponses d'un humain pour prédire avec précision la suite ?

Qu'est-ce que la donnée synthétique ?

Dans le cadre des études, la donnée synthétique est une donnée générée artificiellement qui imite les schémas statistiques, les relations et les distributions des réponses humaines réelles.

C'est un terme générique qui couvre plusieurs tactiques :

  • Compléter les incomplets : Construire les réponses manquantes d'un sondage partiel.

  • Augmentation d'échantillon : Atteindre la taille de cible (N) quand le vivier humain est épuisé.

  • Jumeaux numériques (Digital Twins) : Créer des personas IA reflétant un profil spécifique.

  • Échantillon 100% synthétique : Générer un dataset complet à partir de modèles historiques.

Nous avons testé la tactique « compléter les incomplets » sur deux types d'études :

  • Études d'Usages et Attitudes (U&A).

  • Études de Thought Leadership (TL).

Notre étude : L'IA peut-elle secourir les sondages abandonnés ?

Nous sommes partis de sondages complétés par de vrais répondants sur neuf projets (U&A et TL), couvrant des sujets allant de la santé à l'IA.

synthetic-data-graph2-1
Les neuf projets d'études réels utilisés dans notre étude sur la complétion synthétique.

Nous avons ensuite simulé des sondages incomplets en tronquant ces questionnaires à différents stades — 30 %, 50 %, 70 % et 90 % de taux de complétion. Ces paliers définissaient le niveau de contexte disponible pour le modèle d'IA, tandis que le reste des réponses lui était masqué.

Le modèle d'IA avait alors pour mission de générer les réponses de la partie masquée pour chaque sondage. Cela nous a permis de faire varier systématiquement la quantité de contexte dont disposait l'IA pour prédire les réponses restantes.

Nous avons ensuite évalué la performance en mesurant la précision de 18 836 prédictions synthétiques par rapport à ce que les répondants humains avaient réellement déclaré. Nous avons testé la précision de notre modèle selon les types d'études (U&A et TL), les différents taux de complétion, et les différents types de questions : binaires, à choix multiples, NPS/sentiment et questions ouvertes.

synthetic-data-graph3-2
Comment nous avons « simulé les abandons » dans notre expérimentation pour comparer les prédictions synthétiques aux réponses humaines réelles.

Comment nous avons construit notre modèle d'IA.

Nous n'avons pas simplement « posé la question à un LLM ». Nous avons conçu une architecture multi-agents :

  • Notre système multicouche a déployé des agents spécialisés selon le format des questions (les questions binaires, à choix multiples, NPS, ouvertes).

  • Nous avons utilisé un pipeline LangGraph pour router intelligemment les questions en fonction de leur complexité, envoyant par exemple les questions binaires simples à GPT-4o-mini et les jugements subjectifs complexes à Claude 4.5 Sonnet.

  • Chaque prédiction était alimentée par un « seed humain » comprenant le profil démographique du répondant (âge, revenu, localisation) et l'ensemble de ses réponses avant l'abandon, ainsi que des taux de base fournissant un contexte sur la probabilité statistique de réponses spécifiques au sein de la population globale.
  • La mesure de la précision variait selon le type de question : une correspondance exacte pour les questions binaires et à choix unique (stricte, sans crédit partiel), et un score de similitude sémantique à cinq composantes pour les questions ouvertes (similitude d'encodage, chevauchement de mots-clés, longueur). Cette précision méthodologique est essentielle pour comprendre pourquoi le chiffre de 5 % sur les questions ouvertes n'est pas comparable aux résultats des questions binaires.

Nos résultats : comment le modèle synthétique a-t-il performé ?

Bien que nous ayons obtenu des résultats encourageants sur la précision de la complétion synthétique, nous avons également découvert un phénomène qui nous a interpellés.

Performance globale.

Dans l'ensemble, le système a atteint une précision de correspondance exacte de 55,78 %, soit environ le double de la référence aléatoire pour ce mix de questions. Mais comme vous le verrez plus loin, ce chiffre global ne raconte qu'une partie de l'histoire.

Le mystère : quand le surplus de contexte nuit à l'IA.

Dans le cadre des études U&A, le modèle d'IA a réagi comme prévu. Plus il disposait d'informations issues des réponses précédentes (c'est-à-dire un taux de complétion élevé), mieux il prédisait les réponses restantes du sondage.

Cela correspondait à notre intuition : la recherche U&A tend à s'ancrer dans le rappel et l'évaluation — ce que les consommateurs ont acheté, à quelle fréquence ils l'ont utilisé et quel a été leur niveau de satisfaction. Ces domaines s'alignent étroitement avec les forces de reconnaissance de schémas propres aux grands modèles de langage.

synthetic-data-graph4-1
Pour les études U&A, des taux de complétion plus élevés ont amélioré la précision de la complétion synthétique.
Cependant, dans les études de Thought Leadership (TL), un schéma surprenant est apparu. Plus le modèle en savait sur les réponses passées, plus les prédictions devenaient systématiquement mauvaises, chutant de 18 points de pourcentage du début à la fin.
synthetic-data-graph5-1
Pour les études TL, des taux de complétion plus élevés ont en réalité diminué la précision de la complétion synthétique.
Pourquoi le fait de donner plus de contexte à un modèle le rend-il nettement moins précis pour la recherche en Thought Leadership ? Nous avons appelé cela le paradoxe de la complétion synthétique et avons entrepris de l'étudier.

Analyse : qu'est-ce qui explique le paradoxe de la complétion synthétique ?

Pour comprendre pourquoi un contexte accru entraînait une baisse de précision dans les sondages TL, nous avons exploré quelques hypothèses liées à l'architecture même des questionnaires.

1. Était-ce le contenu du sondage ?

Tout d'abord, notre analyse a révélé que la précision était impactée par l'orientation temporelle du contenu.

  • Les sondages U&A sont largement rétrospectifs. Ils sont ancrés dans le passé et le présent (ex. : « Qu'avez-vous acheté ? »). L'IA excelle à identifier ces schémas comportementaux historiques.

  • À l'inverse, les sondages TL sont progressivement prospectifs. Ils demandent un point de vue sur un futur non écrit (ex. : « Quelles tendances façonneront votre industrie ? »). Ces questions exigent une prospective stratégique qui n'est pas toujours fondée sur des données existantes.

Les différences de contenu expliquent pourquoi la précision s'est dégradée avec l'augmentation de la complétion pour les sondages TL. Si les premières questions de TL se concentrent sur la démographie de base et la notoriété, elles deviennent plus stratégiques et tournées vers l'avenir au fil du questionnaire. Vraisemblablement, la précision se dégrade à mesure que le sondage passe du « ce qui est » au « ce qui sera ».

Pour confirmer notre intuition, nous avons approfondi les différences anatomiques entre nos deux types de recherche : le format des questions elles-mêmes, ainsi que leur position dans le sondage.

2. Était-ce le format des questions ?

Nous avons commencé par analyser l'impact du format du sondage sur la précision, en examinant quatre types de questions de recherche.

  • Les questions binaires, telles que « Connaissez-vous le Web3 ? » ou « Suivez-vous les tendances émergentes ? »

  • Les questions à choix multiples, comme « Quelle fonctionnalité utilisez-vous ? » ou « Quelle tendance va dominer ? »

  • Pour les questions de NPS ou de sentiment, telles que « Dans quelle mesure êtes-vous optimiste quant à la réglementation de l'IA ? »

  • Les questions ouvertes, comme « Quelles sont vos recommandations pour améliorer ce service ? » ou « Quelle tendance aidera à développer votre secteur ? »

synthetic-data-graph6
Les questions binaires, telles que « Connaissez-vous le Web3 ? » ou « Suivez-vous les tendances émergentes ? », ont obtenu des résultats satisfaisants. La précision moyenne est d'environ 73 % dans les sondages TL — un score honorable, bien qu'inférieur aux 83 % observés dans la recherche de consommation.
synthetic-data-graph7
Les questions à choix multiples, comme « Quelle tendance va dominer ? », sont plus complexes. La précision moyenne est tombée à 47 % dans les sondages TL.
synthetic-data-graph8
Pour les questions de NPS ou de sentiment, telles que « Dans quelle mesure êtes-vous optimiste quant à la réglementation de l'IA ? », la précision moyenne n'était que de 1 % dans les sondages TL. Deux CEOs au profil similaire peuvent avoir des opinions radicalement divergentes en fonction de leur stratégie GTM, de l'actualité ou de la pression de leur conseil d'administration.
synthetic-data-graph9
Les questions ouvertes ont également été difficiles à traiter. La précision moyenne n'était que de 5 % pour les sondages TL. Là où les réponses réelles étaient nuancées et spécifiques, l'IA produisait des déclarations génériques plausibles mais manquant de profondeur. Par exemple, elle pouvait prédire « automatisation accrue » au lieu de « intégration verticale de l'IA dans les plateformes de visibilité de la supply chain ».

Le schéma était constant : l'IA gère de manière fiable ce qui peut être déduit de comportements établis, mais échoue là où la question exige un véritable jugement humain — qu'il soit stratégique, spéculatif ou lié au sentiment.

Ainsi, nous avons constaté que le contenu du sondage et le format des questions jouaient un rôle significatif. Mais un autre facteur affectait la précision et expliquait mieux encore le paradoxe de la complétion synthétique.

3. Était-ce la distribution des questions ?

Bien que le contenu et le format jouent un rôle, notre enquête a révélé que la véritable différence de précision découle de la structure du sondage.

Les questions de sondage exigent des niveaux variables de charge cognitive. Elles ne se distinguent pas seulement par leur contenu ou leur format — elles requièrent également un niveau d'effort mental distinct de la part du répondant. Nous avons identifié quatre catégories de questions basées sur cette charge cognitive.

synthetic-data-graph16
Les différentes questions de sondage présentent des charges cognitives variées. Nous les avons divisées en quatre niveaux : les questions de niveau L1 reposent davantage sur des schémas récurrents (patterns) et sont plus susceptibles d'être prédites avec précision par l'IA, tandis que les questions de niveau L4 ne sont pas ancrées dans des données historiques et sont plus difficiles à anticiper pour l'IA.

Les exigences cognitives progressent différemment selon les sondages. Ces niveaux de questions, du rappel de niveau L1 aux questions spéculatives de niveau L4, sont répartis différemment entre les sondages U&A et TL.

Ce que nous avons découvert, c'est que les sondages de Thought Leadership présentent une progression cognitive beaucoup plus abrupte que les sondages U&A, qui sont généralement plus linéaires.

  • Les sondages U&A restent généralement dans les niveaux L1 à L3 tout au long du questionnaire. Les questions finales portent sur la satisfaction, les préférences et les opinions basées sur des comportements et expériences passés ou actuels.
  • Les sondages de Thought Leadership, quant à eux, basculent majoritairement vers des questions de niveau L4 après la première moitié. La seconde partie exige davantage de prospective et de jugement stratégique.
synthetic-data-graph14
Progression de la demande cognitive selon les sondages : les sondages U&A ont une courbe plus plane et restent principalement dans les questions de niveaux L1 à L3, tandis que les sondages TL basculent vers des questions de niveau L4 dès la moitié du questionnaire.

Ces courbes cognitives dictent la difficulté pour l'IA de prédire les réponses avec précision. Pour les sondages U&A (avec une courbe cognitive plus plate), un contexte accru sur le comportement passé aide réellement à prédire les questions ultérieures sur les préférences et les sentiments.

À l'inverse, pour les sondages TL (avec une courbe cognitive plus raide), le contexte passé ne peut pas prédire de manière fiable des réponses qui exigent une spéculation sur l'avenir ou qui n'ont pas de réponse objective unique. En d'autres termes, les sondages TL tendent à devenir plus difficiles, plus tôt, avec des questions que l'IA peine à anticiper.

synthetic-data-graph13-2
Le paradoxe de la complétion synthétique expliqué : avec des taux de complétion élevés dans les sondages U&A, l'IA doit prédire majoritairement des questions évaluatives de niveau L3 ; un contexte accru aide à prédire plus précisément. Avec des taux de complétion élevés dans les sondages TL, l'IA doit prédire principalement des questions spéculatives de niveau L4 ; le contexte des réponses L1-L3 n'aide pas à prédire le jugement stratégique ni les réponses tournées vers l'avenir.

C'est pourquoi nous observons ce paradoxe de complétion dans les sondages TL, où un contexte plus riche était associé à une précision moyenne plus faible des prédictions synthétiques.

  • Dans les sondages TL, la précision moyenne est plus élevée à 50 % de complétion qu'à 90 % — une relation inverse — parce que des taux de complétion élevés forcent l'IA à ne prédire que des questions de niveau L4. Ces questions de fin de sondage portent toutes sur un jugement stratégique ou prospectif, et le contexte des réponses L1 à L3 n'aide pas le modèle à les prédire de manière fiable. Ainsi, la précision diminue à mesure que le taux de complétion augmente.

  • Dans les sondages U&A, la seconde moitié maintient une difficulté de niveau L2–L3, de sorte qu'un contexte accru issu des questions précédentes aide réellement à prédire ces réponses. C'est pourquoi la précision moyenne augmente entre 50 % et 90 % de taux de complétion.

Conclusions : que faut-il se demander avant l'application ?

Alors, que devriez-vous faire ? Il ne s'agit que d'une étude préliminaire basée sur une preuve de concept pour un modèle de complétion synthétique. Quelques contraintes spécifiques à notre étude méritent d'être nommées.

  • Premièrement, notre validation a utilisé un échantillon réduit par projet (environ 10 répondants par taux de complétion), ce qui est suffisant pour identifier des tendances directionnelles mais pas pour revendiquer une précision statistique. Les résultats sont cohérents sur neuf projets indépendants, ce qui nous donne confiance dans la direction, mais une validation à plus grande échelle est la prochaine étape évidente.

  • Deuxièmement, notre simulation supposait que les répondants abandonnaient de manière séquentielle à partir de la fin du sondage. En pratique, l'abandon peut être déclenché par un type de question spécifique, un moment de friction ou un sujet sensible — des schémas que notre stratégie de masquage ne reproduit pas totalement.

  • Troisièmement, les neuf projets de cette étude ont été menés en anglais. La question de savoir si ces résultats se confirment dans des sondages multilingues ou des contextes de recherche non occidentaux reste ouverte, et elle est cruciale pour une industrie de la recherche mondiale.

Naturellement, nous avons besoin de plus de données avant d'être certains de ces enseignements. Ce domaine de recherche évolue rapidement, et la réponse n'est pas un simple oui ou non concernant les données synthétiques.

Vous devez simplement vous poser les bonnes questions.

Passé ou futur

Les questions à compléter portent-elles sur des comportements et sentiments passés, ou sur ce qu'ils pensent qu'il se passera à l'avenir ?

  • Dans notre étude, l'IA n'a pas pu reproduire de manière adéquate l'expertise tacite du domaine ou le jugement prospectif ; les enjeux dictent donc l'application. Les questions basées sur le passé ou le présent (L1-L2) sont plus simples à prédire actuellement, tandis que les questions concernant les prédictions futures ou le jugement stratégique (L4) ne sont pas aussi fiables pour l'instant.

Distribution des questions

Combien — et quels types de questions reste-t-il dans votre sondage ?

  • Comme nous l'avons vu, pour l'U&A, la précision de la complétion synthétique est stable à tous les stades. Pour le TL, elle se dégrade pour les sondages complétés à plus de 50-60 % où il ne reste principalement que des questions L4 à prédire.

  • La valeur de la recherche en conseil et en investissement réside souvent dans son aspect précurseur ou l'insight atypique (outlier). Nous avons observé que l'utilisation de l'IA pour compléter des questions ouvertes risque de ramener votre point de vue vers une « moyenne probabiliste ».

Tolérance au risque

Les données synthétiques éclaireront-elles des signaux directionnels ou une stratégie à hauts enjeux ?

  • Utiliser la complétion synthétique pour des sondages TL, ou pour répondre à d'autres questions stratégiques cruciales, est autant une question technique que réputationnelle. Même si les données synthétiques peuvent techniquement compléter un sondage, une question plus vaste demeure : comment cela affecte-t-il la crédibilité de votre travail ? Pour de nombreux publics, la tolérance à l'IA peut être plus élevée si elle est perçue comme un investissement pour rendre la recherche plus robuste — plutôt que comme une mesure de réduction des coûts.

L'IA dans les études de marché progresse rapidement. L'expérimentation doit elle aussi s'accélérer.

La topographie des études de marché propulsées par l'IA évolue chaque semaine, et il existe déjà des applications significatives dans la conception de sondages, les entretiens assistés par IA, les contrôles de qualité des données et l'analyse que nous avons mis en œuvre pour améliorer l'efficacité et les résultats de la recherche.

Dans cette étude préliminaire sur la « complétion des incomplets », nous n'avons exploré qu'une petite partie de ce qui est possible avec les données synthétiques. Nous avons besoin de plus de données avant de formuler des affirmations définitives, et la poursuite de la recherche est le seul moyen de voir exactement où réside la puissance de l'IA — et la valeur ajoutée humaine.

Dans cet esprit d'expérimentation, lors de votre prochain sondage avec Potloc, nous serons ravis de vous aider à comparer les réponses humaines réelles de votre échantillon avec les prédictions synthétiques de notre modèle d'IA multi-agents. Contactez l'un de nos experts si cela peut présenter un intérêt pour votre cabinet.