API DeepSeek V4 | Intégration, modèles Pro et Flash, tarifs

Vue d'ensemble

DeepSeek V4 expose une API compatible OpenAI avec deux modèles

L'API DeepSeek V4 suit le format OpenAI Chat Completions. Deux modèles sont disponibles : deepseek-v4-pro (1,6T paramètres, 49B activés) et deepseek-v4-flash (284B paramètres, 13B activés). Les deux supportent un contexte d'un million de tokens et les modes de raisonnement Non-think, Think High et Think Max.

deepseek-v4-pro

deepseek-v4-pro pour les tâches complexes et le raisonnement avancé

Le modèle Pro est la variante la plus puissante. Il est positionné pour le raisonnement profond, le code, les mathématiques et les workflows agentiques. Tarif OpenRouter : 1,74 $ / 1M tokens en entrée, 3,48 $ / 1M tokens en sortie.

Utilisez Pro quand la précision et la profondeur d'analyse comptent plus que la vitesse.

Obtenir une clé API Documentation officielle

deepseek-v4-flash

deepseek-v4-flash pour les réponses rapides et les usages quotidiens

Le modèle Flash conserve le contexte d'un million de tokens avec une taille plus compacte. Tarif OpenRouter : 0,14 $ / 1M tokens en entrée, 0,28 $ / 1M tokens en sortie. Idéal pour les appels fréquents et les pipelines à faible latence.

Utilisez Flash pour les résumés, la rédaction courante et les pipelines à fort volume.

Obtenir une clé API Voir les tarifs

Intégration

Compatible OpenAI

L'API suit le format OpenAI Chat Completions. Changez l'URL de base et la clé pour migrer depuis un client OpenAI existant.

Endpoint : https://api.deepseek.com/v1/chat/completions. Paramètres standard : messages, model, temperature, max_tokens, stream.

Disponible

Documentation officielle

Long contexte

Contexte 1M tokens

Les deux modèles supportent 1M tokens de contexte, ce qui permet d'envoyer de très longs documents en une seule requête.

Pour Think Max, la model card recommande au moins 384K tokens de budget de réflexion dans max_tokens.

Disponible

Voir la model card

Paramètres

Modes de raisonnement

Contrôlez la profondeur de raisonnement via le paramètre thinking_mode : non-think, think-high ou think-max.

Non-think privilégie la vitesse. Think High améliore la précision. Think Max pousse le raisonnement au maximum.

Disponible

Tester dans le chat

Intégration

Streaming SSE

L'API supporte le streaming Server-Sent Events avec stream: true pour les réponses en temps réel.

Compatible avec les clients OpenAI Python et Node.js en changeant simplement base_url et api_key.

Disponible

Documentation officielle

Capacités

Function calling

Les modèles V4 supportent le function calling et les tool calls au format OpenAI pour les workflows agentiques.

Utile pour les agents qui doivent appeler des APIs externes, exécuter du code ou orchestrer des étapes.

Disponible

Tester dans le chat

Ressources

Code source et modèles

Les poids du modèle et le code source sont disponibles sur Hugging Face sous licence MIT.

Dépôt communautaire : Rooc/DeepSeek-V4-Pro sur Hugging Face et GitHub pour les scripts d'intégration.

Open source

Hugging Face

Pourquoi utiliser l'API DeepSeek V4

Une API économique avec un contexte long et des modes de raisonnement ajustables

DeepSeek V4 combine un contexte d'un million de tokens, une compatibilité OpenAI directe et des tarifs compétitifs. Flash est l'une des options les moins chères du marché pour les pipelines à fort volume.

Tarifs compétitifs

Flash à 0,14 $ / 1M tokens en entrée est parmi les moins chers pour un modèle avec contexte 1M. Pro à 1,74 $ / 1M tokens reste compétitif pour les tâches complexes.

Migration facile depuis OpenAI

Changez base_url vers https://api.deepseek.com/v1 et remplacez votre clé API. Le reste du code reste identique pour les appels Chat Completions.

Raisonnement ajustable

Non-think, Think High et Think Max permettent d'arbitrer entre latence et qualité selon la complexité de la tâche.

Long contexte pour les documents

1M tokens permet d'envoyer des contrats entiers, de grandes bases de code ou de longues notes de recherche en une seule requête API.

Intégration rapide

Démarrer avec l'API DeepSeek V4 en 3 étapes

L'API est compatible OpenAI, ce qui rend la migration ou l'intégration directe très rapide.

Étape 1 : Obtenir une clé API

Créez un compte sur platform.deepseek.com.
Générez une clé API dans les paramètres du compte.
Rechargez votre solde pour activer les appels API.

Étape 2 : Configurer le client

Utilisez le SDK OpenAI Python ou Node.js.
Changez base_url vers https://api.deepseek.com/v1.
Remplacez api_key par votre clé DeepSeek.

Étape 3 : Choisir le modèle

deepseek-v4-pro pour les tâches complexes et le raisonnement.
deepseek-v4-flash pour les pipelines rapides et économiques.

Obtenir une clé API

Benchmarks

DeepSeek V4 Pro sur les benchmarks de raisonnement et de code

La model card officielle présente les résultats sur MMLU-Pro, HumanEval, GSM8K, LongBench-V2, SWE Verified et MCPAtlas. Pro est positionné pour les tâches où la précision et la profondeur de raisonnement comptent.

MMLU-Pro et HumanEval pour la connaissance générale et le code.
LongBench-V2 pour les tâches sur documents longs.
SWE Verified et MCPAtlas pour les workflows agentiques.

Voir la model card

Benchmarks DeepSeek V4 Pro — raisonnement et code

Comparaison des modèles

Pro vs Flash — choisir selon la complexité de la tâche

Pro (1,6T paramètres, 49B activés) est optimisé pour le raisonnement profond. Flash (284B paramètres, 13B activés) est plus compact et environ 12 fois moins cher en entrée. Les deux supportent 1M tokens de contexte.

Pro à 1,74 $ / 1M tokens en entrée pour les tâches complexes.
Flash à 0,14 $ / 1M tokens en entrée pour les pipelines à fort volume.
Même contexte 1M tokens et mêmes modes de raisonnement pour les deux.

Obtenir une clé API

Long contexte

1M tokens de contexte pour les documents longs et les grandes bases de code

Le test NIAH (Needle In A Haystack) mesure la capacité du modèle à retrouver une information précise dans un très long contexte. DeepSeek V4 maintient de bonnes performances sur toute la fenêtre de 1M tokens.

Envoyez des contrats entiers, des manuels ou de longues notes de recherche.
Analysez de grandes bases de code en une seule requête API.
Pour Think Max, prévoyez au moins 384K tokens dans max_tokens.

Documentation officielle

Test NIAH DeepSeek V4 — long contexte 1M tokens

Ressources officielles

Documentation, model cards et dépôts pour DeepSeek V4

Toutes les ressources nécessaires pour intégrer et évaluer DeepSeek V4 dans vos projets.

Documentation API officielle

La documentation complète de l'API DeepSeek couvre l'authentification, les endpoints, les paramètres, le streaming, le function calling et les exemples de code en Python et Node.js.

Model card DeepSeek-V4-Pro sur Hugging Face

La model card officielle détaille l'architecture (attention hybride, hyper-connexions sous contrainte de variété, optimiseur Muon), les benchmarks (MMLU-Pro, HumanEval, LongBench-V2, SWE Verified, MCPAtlas) et les paramètres de sampling recommandés.

Dépôt GitHub DeepSeek-V4-Pro

Le dépôt GitHub contient les scripts d'intégration, les exemples de code, les notes d'encodage et les cas de test pour DeepSeek V4 Pro.

FAQ

Questions fréquentes sur l'API DeepSeek V4

Réponses aux questions les plus courantes sur l'intégration et l'utilisation de l'API.

Comment obtenir une clé API DeepSeek V4 ?

Créez un compte sur platform.deepseek.com, puis générez une clé API dans les paramètres. Rechargez votre solde pour activer les appels. La clé s'utilise comme une clé OpenAI standard.

Quelle est la différence de tarif entre Pro et Flash ?

Flash est environ 12 fois moins cher que Pro en entrée (0,14 $ vs 1,74 $ / 1M tokens). Pour les pipelines à fort volume ou les tâches simples, Flash est le choix économique. Pro est justifié pour les tâches complexes où la qualité prime.

L'API est-elle compatible avec le SDK OpenAI ?

Oui. Changez base_url vers https://api.deepseek.com/v1 et remplacez api_key. Le reste du code (messages, temperature, max_tokens, stream, tools) reste identique.

Comment utiliser les modes de raisonnement via l'API ?

Passez le paramètre thinking_mode avec la valeur non-think, think-high ou think-max. Pour Think Max, prévoyez au moins 384K tokens dans max_tokens selon la model card officielle.

Où trouver les poids du modèle pour un déploiement local ?

Les poids sont disponibles sur Hugging Face (Rooc/DeepSeek-V4-Pro) sous licence MIT. La model card inclut les instructions d'encodage et les paramètres de sampling recommandés (temperature 1.0, top_p 1.0).

Quels benchmarks DeepSeek V4 Pro couvre-t-il ?

La model card officielle inclut MMLU-Pro, HumanEval, GSM8K, LongBench-V2, LiveCodeBench, SWE Verified et MCPAtlas. Ces évaluations couvrent la connaissance générale, le code, les maths, le long contexte et les tâches agentiques.

Commencer

Obtenez votre clé API DeepSeek V4 et intégrez Pro ou Flash

Créez un compte sur platform.deepseek.com pour accéder à l'API. Consultez la documentation officielle pour les exemples de code et les paramètres détaillés.

Obtenir une clé API Documentation officielle