NomadicML : l’IA qui structure les données vidéo pour les robots

Temps de lecture : 2 min

Ce qu’il faut retenir

  • Archives : 95% des données des flottes autonomes restent inexploitées dans des vidéos brutes.
  • Plateforme : NomadicML structure et rend consultable ces heures de vidéo grâce à des modèles de vision.
  • Financement : Une levée de 8,4M$ à 50M$ de valorisation pour accélérer le développement.

Le casse-tête des données vidéo pour l’IA physique

Je constate depuis des années un paradoxe dans le développement des machines autonomes. Pour entraîner les véhicules sans chauffeur ou les robots manipulateurs, les entreprises accumulent des millions d’heures de vidéos. Dans les faits, cette masse de données finit trop souvent dans des archives, inexploitée. L’analyse manuelle ne suit pas, même en accéléré.

C’est précisément ce problème que la startup NomadicML s’attaque à résoudre. Fondée par Mustafa Bal et Varun Krishnan, elle vise à donner du sens à ce qui représente jusqu’à 95% des données d’une flotte. En clair, transformer des téraoctets de vidéo brute en un jeu de données structuré et interrogeable.

Traquer les cas limites, la clé de l’apprentissage

Le véritable enjeu, dans ma veille des tendances émergentes, réside dans la détection des cas d’angle. Ce sont ces événements rares – un policier ordonnant de brûler un feu rouge, un passage sous un pont spécifique – qui mettent à l’épreuve les modèles d’IA inexpérimentés. Ces séquences sont les plus précieuses pour l’entraînement, mais aussi les plus difficiles à isoler.

La plateforme de NomadicML utilise une collection de modèles vision-langage pour comprendre les actions en contexte. Ce n’est pas un simple outil d’annotation automatique. Varun Krishnan le décrit comme un système de raisonnement agentique : on lui décrit un besoin, et il trouve comment le satisfaire. Ce décryptage sans jargon permet un monitoring plus fin des flottes et alimente directement les pipelines d’apprentissage par renforcement.

Une levée de fonds et une validation du marché

L’annonce, ce mardi, d’un tour de table amorçage de 8,4 millions de dollars à une valorisation post-money de 50 millions, en dit long sur l’impact business perçu. La ronde, menée par TQ Ventures avec la participation de Pear VC et de Jeff Dean, suit de près la victoire de la startup au concours de pitch du Nvidia GTC le mois dernier.

Dans les faits, cette infrastructure devient critique. Des acteurs établis comme Scale ou Kognic développent des outils similaires, et Nvidia a publié la famille de modèles open source Alpamayo. Mais selon Schuster Tanger, partenaire chez TQ Ventures, la spécialisation de NomadicML est son atout. « La seconde où un constructeur de véhicule autonome tente de construire Nomadic en interne, il se détourne de ce qui le fait gagner : le robot lui-même », explique-t-il.

Des clients conquis et une feuille de route ambitieuse

L’adoption par des noms comme Zoox, Mitsubishi Electric ou Zendar valide l’approche. Antonio Puglielli, VP Engineering chez Zendar, souligne que l’outil a permis à sa société de scaler son travail bien plus vite qu’en externalisant, grâce à une expertise métier distinctive.

Ce qu’il faut comprendre, c’est que l’équipe, une douzaine d’ingénieurs tous publiés scientifiquement, ne s’arrête pas là. Je les vois développer des outils spécialisés, comme un module comprenant la physique des changements de voie depuis une vidéo, ou localisant avec précision les pinces d’un robot. Le prochain défi ? Appliquer cette logique aux données non-visuelles, comme les lectures lidar, et intégrer les données multi-capteurs.

« Manipuler des téraoctets de vidéo, les faire passer dans des centaines de modèles de plus de 100 milliards de paramètres, et en extraire des insights précis, est réellement et follement difficile », concède Mustafa Bal. Une complexité que NomadicML s’emploie à maîtriser, pour accélérer l’avènement des machines qui apprennent par l’observation.