L’intelligence artificielle (IA), et plus particulièrement l’IA générative, est en train de transformer notre rapport à l’information, à l’automatisation, et à la création. Derrière les interfaces naturelles comme ChatGPT ou Copilot, se cache une mécanique complexe reposant sur des modèles statistiques massifs. Pour mieux comprendre ces outils et en tirer profit dans des environnements professionnels ou créatifs, il est essentiel de se familiariser avec certains concepts clés. Voici un tour d’horizon des notions fondamentales à connaître.
1. Corpus documentaire (Document Corpus)
Le corpus désigne l’ensemble des documents utilisés pour entraîner un modèle d’intelligence artificielle. Il peut s’agir de livres, d’articles scientifiques, de pages web, de journaux, de code source, etc. La qualité, la diversité, la représentativité et la mise à jour du corpus influencent directement les performances du modèle.
Par exemple, les modèles de type GPT (Generative Pre-trained Transformer) sont entraînés sur des corpus massifs multi-domaines couvrant plusieurs langues, styles, registres et disciplines. Cela leur confère une capacité à répondre à une grande variété de requêtes, mais aussi une sensibilité aux biais présents dans les sources.
Le corpus peut comprendre :
- Des livres (notamment du domaine public)
- Des articles scientifiques (ex. : arXiv, PubMed)
- Des sites web (comme Wikipedia, Stack Overflow, forums techniques, blogs)
- Du code source (ex. : GitHub)
- Des documents institutionnels (législation, documentation technique)
- Des transcriptions de dialogues ou de documents professionnels
- Et potentiellement des données issues de jeux de rôles, d’exemples de chat ou de scripts conversationnels
Les corpus sont généralement constitués à partir de données publiques, accessibles légalement ou sous licence. Les corpus commerciaux, eux, peuvent être enrichis avec des données spécifiques à une entreprise (dans le cadre d’un fine-tuning ou d’un modèle privé).
Les limites temporelles des modèles GPT
Voici un aperçu des limites temporelles des principaux modèles de la série GPT :
Modèle | Données de corpus les plus récentes |
GPT-3 | Octobre 2019 |
GPT-3.5 | Septembre 2021 |
GPT-4 (original) | Septembre 2021 |
GPT-4-turbo (ChatGPT, mode par défaut depuis nov. 2023) | Avril 2023 |
Ces dates indiquent la fin de la période de collecte des données d’entraînement, et non la mise à jour en temps réel du modèle. Cela signifie qu’un modèle GPT-4-turbo n’a aucune connaissance directe de faits postérieurs à avril 2023… à moins d’y accéder via une recherche web intégrée (dans les produits qui le permettent, comme ChatGPT Plus avec navigation activée ou Bing Chat).
Le but du modèle LLM est de comprendre et de générer du langage naturel. Absolument pas de « savoir ».
Sa connaissance est une conséquence de son apprentissage mais il ne doit absoluement pas être considéré comme capable de répondre à des questions. Mais simplement comme apte à compléter une phrase grace à une prédiction statistique contextualisée de chaque blocs de mots (Token).Pourquoi le corpus est-il si important ?
- Qualité des réponses : un corpus bien construit permet d’avoir des réponses plus pertinentes, riches, fiables.
- Biais et lacunes : si certaines communautés, langues ou disciplines sont sous-représentées, le modèle en portera les traces.
- Pertinence temporelle : plus le corpus est à jour, plus les réponses sont actuelles (ex. : lois, technologies, pratiques).
- Langue et style : un corpus francophone riche améliorera considérablement les réponses en français, à condition qu’il soit bien utilisé lors de l’entraînement.
À retenir : le corpus constitue la base de connaissance implicite du modèle. Ce que le modèle « sait » vient du corpus. Ce qu’il ignore ou comprend mal reflète les lacunes du corpus.
2. Inférence (Inference)
L’inférence est le processus par lequel un modèle, une fois entraîné, génère une réponse ou une prédiction à partir d’une entrée. C’est ce qui se passe lorsque vous posez une question à ChatGPT : le modèle n’est pas en train d’apprendre, mais d’inférer une réponse à partir des poids acquis pendant l’entraînement.
Comment ça fonctionne concrètement ?
Lors de l’inférence :
- L’utilisateur fournit une entrée (un prompt).
- Le modèle transforme cette entrée en vecteurs numériques.
- Il parcourt les poids appris pendant l’entraînement pour calculer la prochaine unité linguistique la plus probable (souvent un token).
- Ce processus se répète token par token jusqu’à ce que le modèle produise une réponse complète.
Par exemple, si je tape :
“Le ciel est bleu parce que”
Le modèle va estimer que les tokens suivants les plus probables sont “la lumière”, “du soleil”, “se diffuse”, etc., et générer une phrase plausible du type :
“…la lumière du soleil se diffuse dans l’atmosphère.”
Inférence ≠ apprentissage
Une confusion fréquente est de croire que l’IA apprend à chaque question. Ce n’est pas le cas.
Le modèle ne « s’améliore » pas pendant l’inférence.
Il utilise ce qu’il a appris au moment de son entraînement, et le restitue en temps réel. Ce qui peut donner cette illusion est ce qu’on appelle la mémoire résiduelle ou la mémoire de l’usager.
La mémoire résiduelle ou conversationnelle est une fonctionnalité offerte par l’application qui permet de conserver des éléments de contexte dans la conversation. On peut grossièrement parler de l’historique de la conversation.
La mémoire de l’usager est une fonctionnalité offerte par l’application et qui conserve en mémoire certaines informations qui sont réintégrées ensuite dans la conversation comme éléments de contexte.
Important : l’inférence est stateless (sans mémoire) par défaut. Chaque interaction est traitée indépendamment, sauf dans les interfaces qui simulent une continuité par le biais de la mémoire conversationnelle.
3. Mémoire résiduelle (Residual Memory)
La mémoire résiduelle (ou mémoire conversationnelle) est une fonctionnalité qui permet de maintenir un état entre différentes interactions avec un agent conversationnel. Elle n’est pas inhérente au modèle, mais est gérée par l’application qui l’entoure. Dans le cas de ChatGPT, cette mémoire peut retenir certaines informations entre les sessions, avec un consentement explicite.
Cas d’usage : dans un cadre professionnel, la mémoire résiduelle permet de personnaliser les interactions en tenant compte du contexte de l’utilisateur (projets en cours, préférences, historique des actions, etc.).
4. Température (Temperature)
Le paramètre temperature contrôle le niveau de créativité (ou d’aléa) dans les réponses générées. Il influence la distribution de probabilité des mots choisis par le modèle.
- Température basse (ex. : 0.2) : réponses plus déterministes, factuelles, cohérentes.
- Température élevée (ex. : 0.8 à 1.0) : plus de créativité, mais plus de risque de réponses incohérentes ou incorrectes.
Astuce : pour une tâche nécessitant rigueur et exactitude (résumé, extraction de faits), privilégier une température basse. Pour la génération créative (scénario, brainstorming), une température élevée est plus adaptée.
5. Top-k et Top-p (nucleus sampling)
Ces deux paramètres contrôlent la manière dont le modèle sélectionne les mots lors de l’inférence :
- Top-k : le modèle choisit le mot suivant parmi les k mots les plus probables.
- Top-p (ou nucleus sampling) : le modèle choisit dans un sous-ensemble de mots dont la probabilité cumulée atteint p (ex. : 0.9 = 90 % de probabilité cumulée).
Intérêt : ces paramètres permettent de limiter les risques de réponses absurdes tout en conservant une part de variabilité.
6. Embedding (Vecteurs d’empreinte sémantique)
Les embeddings sont des représentations vectorielles de mots, phrases ou documents. Chaque mot ou concept est encodé dans un espace mathématique multidimensionnel, permettant au modèle de « comprendre » les similarités sémantiques.
Application : les embeddings sont essentiels pour les moteurs de recherche sémantique, la classification de documents, ou la détection de similarités contextuelles.
7. Fine-tuning vs Prompt engineering
- Fine-tuning : consiste à réentraîner un modèle sur un jeu de données spécifique pour qu’il apprenne un nouveau comportement.
- Prompt engineering : art de formuler une requête de manière optimale pour obtenir la meilleure réponse d’un modèle pré-entraîné.
Tendance actuelle : à défaut de pouvoir toujours faire du fine-tuning (coûteux), les équipes préfèrent développer des prompts précis, voire dynamiques, pour orienter efficacement le comportement du modèle.
8. Token (Jeton)
Les tokens sont des unités de texte (souvent plus petites que des mots) utilisées pour traiter l’information. Un modèle comme GPT-4 peut avoir une capacité de 128k tokens (équivalent à environ 300 pages de texte). La gestion des tokens est cruciale pour comprendre les limitations de mémoire contextuelle.
À noter : trop de tokens dans une seule requête peuvent faire perdre du contexte en fin de séquence, ou générer des erreurs de coupure de texte.
9. Poids (Weights) et Paramètres du modèle
Un modèle comme GPT-4 possède des milliards de poids, ajustés durant la phase d’apprentissage supervisé et non supervisé. Ces poids représentent la « mémoire implicite » du modèle, capturant des relations entre les concepts appris.
Exemple : GPT-3 possède 175 milliards de paramètres. GPT-4, quant à lui, utilise une architecture multi-modale avec encore plus de paramètres, mais leur nombre exact reste confidentiel.
10. Hallucination
L’hallucination désigne une réponse fausse, mais formulée de manière plausible par un modèle. C’est l’un des défis majeurs de l’IA générative, en particulier lorsque l’on cherche à l’utiliser dans des contextes critiques ou professionnels.
Bonne pratique : toujours valider les résultats générés par l’IA, en croisant les informations avec des sources fiables.
Conclusion
Comprendre les concepts fondamentaux de l’IA permet non seulement de mieux interagir avec les modèles comme GPT, mais aussi d’en anticiper les limites et les biais. Ces modèles ne sont pas magiques : ils manipulent des probabilités, des vecteurs, et des corpus. Leur puissance réside dans leur capacité à modéliser le langage et le savoir à grande échelle, mais ils restent dépendants de la qualité des données et des réglages humains.
Pour aller plus loin, vous pouvez explorer :