Appelez nous 07 75 75 14 37
Cloudflare permet de crawler un site entier avec une seule requête API

Cloudflare continue de multiplier les initiatives autour de l’IA. Après avoir lancé Markdown for Agents pour convertir automatiquement le HTML en Markdown à destination des agents IA, l’entreprise américaine propose désormais aux développeurs et développeuses de crawler des sites web entiers grâce à une simple requête API.

Un seul appel API pour explorer un site entier

Le nouvel endpoint /crawl vient enrichir Browser Rendering, le service de Cloudflare qui permet d’exécuter un navigateur à distance par l’intermédiaire d’une API. En principe, le développeur ou la développeuse envoie une URL de départ et le service se charge du reste. Il parcourt le site en suivant les liens et les sitemaps, charge chaque page dans un navigateur (JavaScript compris), puis restitue le contenu dans le format souhaité, HTML, Markdown, JSON structuré (généré avec l’IA de Cloudflare).

L’exploration tourne en arrière-plan. L’API renvoie un identifiant de crawl, que l’on interroge ensuite pour récupérer les résultats au fil du traitement. Plusieurs options permettent d’affiner le périmètre :

  • Profondeur de crawl et nombre maximal de pages,
  • Filtres par motifs d’URL pour inclure ou exclure certains chemins,
  • Crawl incrémental pour ignorer les pages qui n’ont pas changé depuis la dernière exploration,
  • Mode statique, qui récupère le HTML brut sans exécuter JavaScript (plus rapide pour les sites statiques),
  • Respect des directives robots.txt, y compris le délai entre les requêtes.

L’endpoint est disponible en bêta ouverte, sur les offres Workers Free et Paid.

Alimenter les pipelines d’IA, entre ouverture et contrôle

Cloudflare positionne cet outil sur des cas d’usage liés à l’intelligence artificielle, comme l’entraînement de modèles, la construction de pipelines RAG (retrieval-augmented generation) ou la surveillance de contenu à l’échelle d’un site. Ce nouvel endpoint a pour objectif de simplifier un processus qui nécessitait jusqu’ici de configurer des outils tiers, de gérer des instances de navigateur et de traiter manuellement la pagination.

Cette annonce s’inscrit dans une stratégie double de Cloudflare autour du crawl et de l’IA. D’un côté, l’entreprise a développé ces derniers mois une série d’outils pour protéger les éditeurs de contenu, comme AI Labyrinth, qui piège les crawlers IA dans un labyrinthe de pages générées, le modèle Pay per Crawl lancé en partenariat avec Stack Overflow, ou encore le blocage par défaut des crawlers IA sur les nouveaux domaines. De l’autre, Cloudflare propose désormais aux développeurs et développeuses les moyens de crawler le web à grande échelle grâce à Browser Rendering.

Cette position d’intermédiaire central entre les contenus web et les systèmes d’IA reflète l’ambition de Cloudflare, qui propulse environ 20 % du web mondial, de devenir l’arbitre des échanges entre éditeurs et acteurs de l’IA.

  • Aliquet est massa, sit amet tempor
  • Sit amet tempor mi auctor nec.
  • Pellentesque aliquet est tempor
  • Aliquet est massa, sit amet tempor
  • Aliquet est massa, sit amet tempor
  • Sit amet tempor mi auctor nec.

Creative Approach To Every Project

Integer iaculis ultrices velit nec tempor. Pellentesque aliquet est massa, sit amet tempor mi auctor nec. Mauris a nibh sed libero fermentum aliquet. Quisque sit amet faucibus magna. Do purus mi, commodo id commodo vel, im perdiet ut mauris. Ut ultricies arcu risus, males uada efficitur orci euismod in. Proin ele est risus, ac sodales nulla mollis vel. .

Share Article:
jamile milson

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat.

03 Comments

Esther Howard Jan 4, 2024
reply

Neque porro quisquam est, qui is dolor emr ipsum quia dolor sit amet the consec tetur is adipisci velit, sed Neque porro.

Jenny Wilson Jan 4, 2024
reply

Neque porro quisquam est, qui is dolor emr ipsum quia dolor sit amet the consec tetur is adipisci velit, sed Neque porro.

Albert Flores Jan 4, 2024
reply

Neque porro quisquam est, qui is dolor emr ipsum quia dolor sit amet the consec tetur is adipisci velit, sed Neque porro.

leave A comment

In nec libero luctus, aliquet turpis at, vehicula nisi. Cras eget mauris in nisl tempus lobortis.

Select Service Type
  • option 1
  • option 2
  • option 3