LE LABO IA
Outils IA 12 min de lecture Tutoriel

Comment scraper des données web avec Firecrawl

Scraper des données web avec Firecrawl

Firecrawl est une API de web scraping qui convertit n'importe quelle page web en markdown propre, exploit&able directement par les agents IA et les LLM. Pour commencer à scraper, crée un compte gratuit sur firecrawl.dev (500 crédits offerts), récupère ta clé API, et lance ton premier appel via cURL, le SDK Python/Node.js, ou directement depuis Claude Code avec le plugin natif. L'outil gère automatiquement le JavaScript, les protections anti-bot et le lazy loading. Tu obtiens du contenu structuré sans maintenir de sélecteurs CSS ni de scripts fragiles. Ce guide couvre l'installation, les quatre endpoints (scrape, crawl, map, extract), des exemples concrets de scraping, et l'intégration avec Claude Code pour automatiser l'ensemble.

Communauté gratuite

Rejoins +4 000 membres qui apprennent l'automatisation IA

Ressources, entraide et challenges hebdomadaires. 100% gratuit.

Rejoindre gratuitement →

Pourquoi utiliser Firecrawl plutôt qu'un scraper traditionnel ?

Le web scraping est une compétence fondamentale pour quiconque travaille avec des données ou de l'IA. Mais les outils traditionnels (Beautiful Soup, Puppeteer, Selenium) posent trois problèmes récurrents : la maintenance des sélecteurs CSS qui cassent dès qu'un site change son design, la gestion du JavaScript dynamique, et le contournement des protections anti-bot.

Firecrawl résout ces trois problèmes en une seule API. Tu envoies une URL, tu reçois du markdown propre. L'outil est open source (AGPL-3.0), cumule plus de 101 000 étoiles GitHub, et est utilisé par plus de 350 000 développeurs dont Zapier, Shopify et Replit. Ce n'est pas un projet expérimental.

Le markdown est le format natif des LLM. Si tu travailles avec Claude Code, GPT, ou n'importe quel agent IA, c'est exactement le format dont tu as besoin. Pas de nettoyage HTML, pas de conversion, pas d'étape intermédiaire.

Comment installer et configurer Firecrawl ?

Créer un compte et obtenir sa clé API

Première étape : rends-toi sur firecrawl.dev et crée un compte. Le plan gratuit te donne 500 crédits à vie, sans carte bancaire. C'est suffisant pour tester l'outil et valider tes cas d'usage.

Une fois connecté, va dans ton dashboard et copie ta clé API. Tu en auras besoin pour tous les appels suivants. Garde-la en sécurité : ne la commite jamais dans un repo public.

Installation du SDK Python

Si tu préfères coder en Python, installe le SDK officiel :

pip install firecrawl-py

Ensuite, initialise le client :

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="ta-cle-api-ici")

# Scraper une page
result = app.scrape_url("https://example.com")
print(result["markdown"])

C'est tout. En trois lignes, tu récupères le contenu d'une page en markdown propre.

Installation du SDK Node.js

Pour les projets JavaScript ou TypeScript :

npm install @mendable/firecrawl-js

Utilisation :

import FirecrawlApp from '@mendable/firecrawl-js';

const app = new FirecrawlApp({ apiKey: 'ta-cle-api-ici' });

const result = await app.scrapeUrl('https://example.com');
console.log(result.markdown);

Utilisation directe via cURL

Tu peux aussi appeler l'API directement sans SDK :

curl -X POST https://api.firecrawl.dev/v1/scrape \
  -H "Authorization: Bearer ta-cle-api-ici" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

La réponse contient le markdown, le HTML, les métadonnées de la page et d'autres informations structurées.

Tutoriels vidéo

Apprends le Vibe Coding et l'automatisation IA en vidéo

Démos live, tutoriels pas à pas et cas d'usage concrets. +29K abonnés.

Voir les tutoriels →

Quels sont les quatre endpoints de Firecrawl ?

Firecrawl propose quatre endpoints principaux. Chacun répond à un besoin différent. Comprendre quand utiliser lequel est la clé pour scraper efficacement.

Scrape : récupérer une seule page

L'endpoint /v1/scrape est le plus simple. Tu donnes une URL, tu reçois le contenu en markdown, HTML, ou les deux. Firecrawl gère le rendering JavaScript, le lazy loading et les protections anti-bot. Tu peux aussi demander un screenshot de la page.

Cas d'usage typiques : récupérer le contenu d'un article, extraire les données d'une page produit, analyser une landing page concurrente.

# Scraper avec options
result = app.scrape_url("https://example.com/produit", {
    "formats": ["markdown", "html"],
    "onlyMainContent": True
})

L'option onlyMainContent filtre les headers, footers et sidebars pour ne garder que le contenu principal. C'est généralement ce que tu veux quand tu alimentes un LLM.

Crawl : explorer un site entier

L'endpoint /v1/crawl part d'une URL racine et explore récursivement toutes les pages du site. Chaque page est scrapée et retournée en markdown. C'est l'outil idéal pour de l'analyse concurrentielle complète ou de la création de dataset.

# Crawler un site entier (limité à 50 pages)
crawl_result = app.crawl_url("https://example.com", {
    "limit": 50,
    "scrapeOptions": {
        "formats": ["markdown"]
    }
})

Le paramètre limit contrôle le nombre maximum de pages crawlées. Commence toujours avec une limite basse pour éviter de consommer tous tes crédits d'un coup.

Map : cartographier les URLs d'un site

L'endpoint /v1/map découvre toutes les URLs d'un site sans récupérer le contenu. C'est rapide et économe en crédits. Utilise-le en premier pour analyser la structure d'un site avant de lancer un crawl ciblé.

# Cartographier un site
map_result = app.map_url("https://example.com")
print(f"{len(map_result['links'])} URLs découvertes")

Pour ceux qui font du SEO, le map est une mine d'or. Tu visualises le maillage interne, tu identifies les pages orphelines, tu comprends la structure du cocon sémantique d'un concurrent.

Extract : extraction structurée via IA

L'endpoint /v1/extract utilise un LLM pour extraire des données spécifiques selon un schéma que tu définis. Au lieu de récupérer tout le markdown d'une page, tu définis exactement ce que tu veux : prix, noms de produits, avis clients, spécifications techniques.

from pydantic import BaseModel

class Produit(BaseModel):
    nom: str
    prix: str
    description: str
    note: float

result = app.scrape_url("https://example.com/produit", {
    "formats": ["extract"],
    "extract": {
        "schema": Produit.model_json_schema()
    }
})

Attention : l'extraction IA consomme des tokens supplémentaires et est facturée séparément des crédits de scraping standard. Vérifie les plans Extract sur la page pricing de Firecrawl avant de l'utiliser à grande échelle.

Comment intégrer Firecrawl avec Claude Code ?

L'intégration avec Claude Code est le moyen le plus rapide et le plus naturel d'utiliser Firecrawl. Si tu fais du vibe coding, c'est l'approche recommandée. Le guide Firecrawl + Claude Code détaille l'installation complète du plugin, mais voici l'essentiel.

Installer le plugin Firecrawl dans Claude Code

L'installation prend littéralement 10 secondes :

  1. Ouvre Claude Code dans ton projet
  2. Tape /plugin et appuie sur Entrée
  3. Recherche "Firecrawl" (attention à ne pas sélectionner Firebase)
  4. Sélectionne et installe. Choisis "4U" pour l'installer sur tous tes projets
  5. Lance reload plugin pour activer

C'est un plugin officiel Cloud, marqué "from Cloud". Pas un MCP communautaire non vérifié.

Scraper en langage naturel

Une fois le plugin installé, tu scrapes avec des prompts en langage naturel :

Claude Code gère les appels API pour toi. Tu n'écris pas de code de scraping, tu décris ce que tu veux et l'agent le fait. C'est la combinaison qui rend le scraping accessible à ceux qui ne veulent pas coder.

Quels sont les cas d'usage concrets du scraping avec Firecrawl ?

Le scraping n'a d'intérêt que s'il crée de la valeur. Voici les cas d'usage les plus rentables, testés en production.

Veille concurrentielle e-commerce

Tu crawles le site d'un concurrent et tu récupères sa gamme de produits complète : noms, prix, descriptions, catégories. Ensuite, tu injectes ces données dans Claude Code pour analyser les écarts de prix, identifier les produits manquants dans ton catalogue, ou repérer les opportunités de positionnement.

En combinant le crawl avec l'extraction IA structurée, tu peux créer un dataset propre avec exactement les champs dont tu as besoin, directement importable dans ta base de données ou ton tableur.

Alimentation d'agents IA et RAG

Le markdown produit par Firecrawl est le format idéal pour alimenter des pipelines RAG (Retrieval-Augmented Generation). Tu scrapes de la documentation technique, des bases de connaissances, des wikis, et tu injectes le résultat comme contexte dans tes agents. Pour approfondir cette intégration, consulte le guide sur les serveurs MCP de Claude Code.

Cas concret : tu veux créer un chatbot qui répond aux questions sur un produit SaaS. Tu scrapes la documentation complète du produit avec Firecrawl, tu structures le markdown en chunks, et tu l'utilises comme knowledge base pour ton agent.

Analyse SEO et structure de sites

Combine Map et Crawl pour analyser la structure d'un concurrent. Tu visualises son arborescence, son maillage interne, ses pages les mieux optimisées. Ensuite, tu construis une architecture supérieure pour ton propre site.

Pour les développeurs qui construisent des sites avec des outils d'automatisation IA, cette combinaison permet de livrer des audits SEO complètement automatisés à tes clients.

Création de datasets pour le machine learning

Tu peux construire des datasets d'entraînement en scrapant des sources publiques. Articles de presse, fiches produits, documentation technique : tout contenu public accessible devient une source de données structurées. L'extraction IA de Firecrawl te permet de définir un schéma précis pour obtenir des données homogènes, directement utilisables pour le fine-tuning ou l'évaluation de modèles.

Quelles sont les bonnes pratiques pour scraper proprement ?

Le scraping n'est pas juste une question technique. Il y a des règles à respecter pour rester dans les clous légalement et techniquement.

Respecter le robots.txt et les CGU

Vérifie toujours le fichier robots.txt du site cible avant de scraper. Ce fichier indique quelles pages les robots peuvent ou ne peuvent pas accéder. Firecrawl respecte ces directives par défaut. Vérifie aussi les conditions générales d'utilisation du site : certains interdisent explicitement le scraping.

Gérer ses crédits intelligemment

Quelques règles pour optimiser ta consommation de crédits :

Ne pas scraper de données personnelles

Le RGPD s'applique. Ne scrape jamais de données personnelles (emails, numéros de téléphone, noms associés à des profils) sans base légale. Le scraping de données factuelles publiques (prix, descriptions produits, documentation technique) est généralement légal. En cas de doute, consulte un juriste.

Quelles alternatives à Firecrawl pour le scraping web ?

Firecrawl n'est pas le seul outil du marché. Voici les alternatives principales et quand les considérer.

Pour la majorité des cas d'usage liés à l'IA et à l'automatisation, Firecrawl offre le meilleur rapport simplicité/performance. Surtout si tu travailles déjà avec Claude Code et ses plugins.

Maîtrise le web scraping et l'automatisation avec un accompagnement expert

Rejoins LE LABO IA : formation premium Vibe Coding + Automatisation IA avec coaching personnalisé.

Découvrir l'accompagnement →

Questions fréquentes

Firecrawl est-il gratuit ?

Firecrawl propose un plan gratuit avec 500 crédits à vie (1 crédit = 1 page scrapée), sans carte bancaire. C'est suffisant pour tester l'outil et valider tes cas d'usage. Le premier plan payant démarre à 16 dollars par mois pour 3 000 crédits, soit environ 0,005 dollar par page.

Faut-il savoir coder pour utiliser Firecrawl ?

Pas forcément. Si tu utilises Claude Code, le plugin Firecrawl te permet de scraper des sites en langage naturel, sans écrire de code. Tu donnes un prompt du type "scrape cette URL et retourne le contenu en markdown" et Claude Code gère les appels API. Si tu veux plus de contrôle, les SDK Python et Node.js sont disponibles, mais ce n'est pas obligatoire pour démarrer.

Quelle est la différence entre scrape, crawl et map ?

Scrape récupère le contenu d'une seule page. Crawl part d'une URL racine et explore récursivement toutes les pages du site. Map cartographie toutes les URLs d'un site sans récupérer le contenu, ce qui est utile pour analyser la structure avant de lancer un crawl ciblé. En pratique, tu combines souvent les trois : map pour repérer, crawl pour récupérer en masse, scrape pour des pages spécifiques.

Firecrawl peut-il scraper des sites protégés par des anti-bots ?

Oui, Firecrawl gère automatiquement les protections anti-bot courantes : JavaScript rendering, lazy loading, captchas basiques et systèmes de détection standard. L'équipe maintient en permanence les techniques nécessaires. C'est l'un des avantages par rapport à un script Beautiful Soup ou Selenium fait maison : tu délègues la complexité technique.

Peut-on intégrer Firecrawl avec n8n ?

Oui. Firecrawl expose une API REST standard que tu peux appeler depuis n8n via un noeud HTTP Request. Tu passes l'URL cible et ta clé API, et tu récupères le markdown dans ton workflow. C'est particulièrement utile pour créer des pipelines de veille automatisée qui scrapent, traitent et stockent des données de manière récurrente.

Firecrawl respecte-t-il le RGPD ?

Firecrawl est un outil technique de scraping. Le respect du RGPD dépend de l'usage que tu en fais. Ne scrape pas de données personnelles (emails, numéros de téléphone, profils nominatifs) sans base légale. Pour du scraping de prix publics, de descriptions produits ou de documentation technique, tu es dans les clous. Vérifie toujours les conditions d'utilisation du site cible.

Meydeey - Architecte IA
Meydeey — Architecte IA & Automatisation

+110 entrepreneurs formés au Vibe Coding et à l'automatisation IA. Fondateur du Labo IA, +29K abonnés YouTube.