Alexandre de Vigan (Nfinite) : "La data synthétique, c’est l’oxygène de l’IA."

Start-up créée en 2017 et en pleine croissance depuis 2021, Nfinite est l’un des leaders de la création d’images à partir de data synthétiques. Un marché immense qui ambitionne de permettre aux GAFAM, créateurs d’applications et acteurs du retail de créer des visuels sur-mesure. Entretien avec son fondateur et président, Alexandre de Vigan, sur les grands enjeux de la data synthétique.

Vous aspirez à dépasser les limites et les risques associés aux données classiques, qui voient émerger tout un panel de questions liées entre autres à la qualité de ces images, à leur spécificité, ou encore aux droits d’auteurs. Comment, concrètement, les données synthétiques pourraient permettre de contrer ces problématiques émergentes ?

Avant toute chose, il importe d’avoir à l’esprit que l’IA est composée de 3 piliers : les GPU (Nvidia et les clouds providers), qui correspondent à son infrastructure ; les modèles de fondation (LLM Large Language Model, LVM Large Visual Models etc.), incarnés par Open AI, Meta, Stable Diffusion ou encore le Français Mistral, qui en sont le moteur ; et la data, comparable à son fuel, son carburant. Si les 24 derniers mois ont vu une forte intensification de la concurrence d’abord sur les modèles puis sur les GPU, c’est désormais la data qui accapare les esprits dans la course à l’IA.

Et pour cause : la performance de l’IA dépend avant tout de la data sur laquelle elle est entraînée (que ce soit pour les modèles de fondation, les applications d’IA ou même leur implémentation en entreprise). Autrement dit, la capacité de l’IA à répondre avec précision et acuité à la question – le fameux prompt – de l’utilisateur sera égale à la qualité de la data sur laquelle cette IA a été entraînée. Problème, la data historiquement disponible présente un certain nombre de limites pour ceux cherchant à entraîner leurs modèles avec plus de précision.

Afin d’être performantes, les datas ingérées doivent répondre à plusieurs critères : elles doivent être disponibles en grande quantité, puisque l’IA est consommatrice de volumes énormes de données ; elles doivent être de qualité ; libres de droits et, enfin, spécifiques (l’IA étant le miroir des données sur lesquelles elle est entraînée, des données génériques donneront lieu à une IA générique, des données spécifiques donneront lieu à une IA spécifique au cas traité). Répondre à toutes ces spécificités avec les données traditionnellement disponibles relève de plus en plus de l’impossible pour les éditeurs de modèles. C’est dans ce contexte que l’on assiste à l’émergence des données “synthétiques”, générées par ordinateur, qui, elles, par leurs caractéristiques, peuvent résoudre l’ensemble de ces défis.

En août 2022 dans Usine Digitale, un expert de la data synthétique affirmait qu’il ne s’agissait pas « encore d’un gros marché, mais d’une vraie grosse promesse ». Presque deux ans après, cette promesse est-elle en passe d’être tenue ?

L’IA représente une révolution d’une rare intensité et d’une rare rapidité. Tout évolue à une vitesse phénoménale. La data synthétique – qui selon nous est le fuel de l’IA – n’échappe pas à cette évolution vertigineuse. Si en aout 2022, le marché de la data synthétique était encore relativement confidentiel, une récente étude prévoit qu’il pourrait atteindre les 300 milliards de dollars d’ici 2030.

Imaginez, nous sommes en train de parler du fuel, de l’oxygène de l’intelligence artificielle dont on estime qu’elle va révolutionner l’intégralité des secteurs et des métiers (médical, biologie, sécurité, défense, chaine logistique, RH, marketing, industrie, manufacturing, transport etc.). Nous touchons donc du doigt l’un des plus gros marchés des années à venir oui, incontestablement.

Quelle est la place des groupes français et européens sur le marché de la data synthétique, notamment face aux acteurs américains et asiatiques ?

C’est un marché émergent. Si les acteurs américains et asiatiques sont déjà présents, les groupes européens ont une place de choix à prendre dans le secteur. Aujourd’hui, la maturité, ou plutôt l’immaturité du marché fait que seuls les Big Techs (Google, Open AI, Meta ou certaines App d’IA déjà énormes) ont vraiment conscience de l’importance à venir de la data synthétique. Et encore, même chez ces géants, cette prise de conscience est parfois très récente ! Pour l’anecdote, jusqu’à tout récemment, chez META, personne n’était chargé de la data d’entraînement de l’IA. Chaque data scientist était responsable de ses propres datasets d’entraînement… Les sociétés européennes ont un ADN fort en 3D, ce qui dans le monde de l’IA visuelle peut être le meilleur terreau pour créer les champions de la data synthétique de demain.

Qui dit données synthétiques, dit usages qui en sont faits. Vous vous adressez aujourd’hui principalement aux retailers. Mais voyez-vous d’autres segments de marché ou d’autres secteurs dans lesquels la data synthétique peut constituer, sinon un game changer, au moins apporter une réelle valeur ajoutée ?

Dès lors que l’IA a un impact structurel dans tous les secteurs de l’économie, et alors que les données traditionnellement disponibles ne sont plus à même de répondre aux enjeux d’entraînement, d’inférence et d’adaptation aux besoins spécifiques des différents segments, la data synthétique sera nécessaire dans tous les secteurs où l’IA à vocation à se développer.

Si notre technologie a été historiquement utilisée pour créer des expériences visuelles (3D, Images, vidéos etc.) pour le monde du retail, aujourd’hui, Nfinite a repositionné sa plateforme 3D/Machine Learning de création d’images synthétiques vers l’entraînement, l’inférence et l’affinage de modèles et d’application d’IA visuelle dans tous les segments (chaine logistique, défense, sécurité, marketing, créativité, 3D, jeux vidéo).

Vous agissez sur un marché ultra concurrentiel, dont vous avez l’ambition de devenir l’un des leaders, où se mêlent des solutions gratuites et de grands acteurs de la tech’. Quel est votre avantage comparatif par rapport aux autres acteurs du marché ?

Nfinite bénéficie d’un concours de circonstances relativement unique. L’avènement de l’intelligence artificielle générative donne une nouvelle raison d’être à la technologie 3D/Machine Learning que nous avons construite et améliorée au cours des 7 dernières années.

Depuis 7 ans, Nfinite a développé une plateforme permettant de créer des expériences visuelles (3D, Images, Vidéos) servant certaines des plus grandes entreprises du monde. Les contraintes de développement et les contraintes clients (scalabilité, coût, qualité, spécificité), ont permis d’aboutir à une plateforme répondant aux paramètres nécessaires à l’entraînement de l’IA visuelles via des données illimitées, photoréalistes, contrôlées, libres de droits et décrites, c’est-à-dire en mesure d’être parfaitement taguées.

La combinaison de la 3D et de l’IA nous permet de créer des jeux de données synthétiques qualifiés et de qualité pour l’ensemble des enjeux à venir.

En août 2022 dans Usine Digitale, un expert de la data synthétique affirmait qu’il ne s’agissait pas « encore d’un gros marché, mais d’une vraie grosse promesse ». Presque deux ans après, cette promesse est-elle en passe d’être tenue ?

Quelle est la place des groupes français et européens sur le marché de la data synthétique, notamment face aux acteurs américains et asiatiques ?

Vous agissez sur un marché ultra concurrentiel, dont vous avez l’ambition de devenir l’un des leaders, où se mêlent des solutions gratuites et de grands acteurs de la tech’. Quel est votre avantage comparatif par rapport aux autres acteurs du marché ?

Sur le même sujet

La COP27 ou le climat au défi du clivage Nord/Sud

La politique climatique américaine : sécuriser, réindustrialiser, décarboner

Le « Pacte de Glasgow » : un exemple de coopération post-hégémonique ?