Deux semaines après le lancement de Gemini 3.1 Pro, son modèle le plus puissant, Google prend le chemin inverse en présentant, mardi 3 mars 2026, Gemini 3.1 Flash-Lite. Ce nouveau modèle ne vise pas la performance maximale, mais le traitement de tâches à très haut volume pour un coût minimal. Il est disponible dès maintenant en preview pour les développeurs et développeuses via l’API Gemini dans Google AI Studio et Vertex AI.
Avec Flash-Lite, Google cible un créneau bien précis, à savoir les tâches répétitives et massives que les entreprises doivent traiter au quotidien. Traduction à grande échelle, modération de contenu, extraction de données, tri d’images ou encore routage de requêtes vers des modèles plus puissants sont autant de cas d’usage où la rapidité et le coût par requête comptent davantage que la profondeur de raisonnement.
Dans cette vidéo, Flash-Lite analyse et trie des images :
Dans son billet de blog, Google présente le modèle comme « conçu pour les charges de travail développeur à haut volume et à grande échelle ». Le positionnement tarifaire va dans ce sens : Flash-Lite se place en dessous de GPT-5 mini et de Claude 4.5 Haiku en coût de sortie, tout en affichant une vitesse de génération nettement supérieure à ses concurrents directs selon les benchmarks affichés par Google. La firme de Mountain View n’a d’ailleurs publié aucun benchmark dédié aux agents, ce qui semble confirmer que ce modèle n’est pas conçu pour orchestrer des tâches complexes ou gérer des flottes d’agents IA.
Gemini 3.1 Flash-Lite intègre des niveaux de réflexion configurables directement depuis AI Studio ou Vertex AI. D’après la documentation de l’API, les développeurs et développeuses peuvent doser le niveau de raisonnement du modèle selon la tâche, en choisissant par exemple un réglage élevé pour les cas nécessitant un raisonnement étape par étape ou un réglage bas pour les traitements simples à haut débit.
Cette fonctionnalité est essentielle pour la gestion des charges de travail à haute fréquence. 3.1 Flash-Lite peut traiter des tâches à grande échelle, comme la traduction de volumes importants et la modération de contenu, où le coût est un facteur primordial. Il peut également gérer des charges de travail plus complexes nécessitant un raisonnement plus approfondi.
L’intérêt est avant tout économique : moins le modèle raisonne, moins il génère de tokens, et moins la facture grimpe. Pour des usages industriels où les volumes se comptent en millions de requêtes, ce levier est loin d’être anecdotique.
À noter : Flash-Lite ne devrait pas être disponible dans l’application grand public Gemini. L’outil est destiné aux développeurs, développeuses et aux entreprises.
Integer iaculis ultrices velit nec tempor. Pellentesque aliquet est massa, sit amet tempor mi auctor nec. Mauris a nibh sed libero fermentum aliquet. Quisque sit amet faucibus magna. Do purus mi, commodo id commodo vel, im perdiet ut mauris. Ut ultricies arcu risus, males uada efficitur orci euismod in. Proin ele est risus, ac sodales nulla mollis vel. .
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat.
In nec libero luctus, aliquet turpis at, vehicula nisi. Cras eget mauris in nisl tempus lobortis.
Neque porro quisquam est, qui is dolor emr ipsum quia dolor sit amet the consec tetur is adipisci velit, sed Neque porro.