C’est quoi GPT?
Les annonces se multiplient depuis décembre et se focalisent sur les fonctionnalités des réponses en langage naturel de l’application #ChatGPT. Mais comment cela fonctionne? L’application ChatGPT est un service de chat bâti sur l’algorithme GPT pour Generative Pre-trained Transformer. La première livraison de GPT remonte à juin 2018. Donc pas hier 🙂
La version 1 s’appuyait sur 117 millions de paramètres et en comparaison, la version 3 sur laquelle ChatGPT s’appuyait en décembre dernier s’appuyait sur 175 milliards de paramètres… et la nouvelle version GPT-4 s’appuie sur 100 trillions de paramètres.
Un algorithme d’apprentissage automatisé a besoin de données. Les données sont séparées en 3 parties bien distinctes:
- Les données d’entrainement qui doivent être disponibles pour permettre à l’algorithme d’apprendre selon les modèles mathématiques utilisés. On a pour pratique courante d’utiliser 80 à 85% des données disponibles pour entrainer notre modèle.
- Les données de test qui, elles aussi doivent être disponibles pour permettre l’évaluation du modèle qui a été entrainé et obtenir une note sur l’efficacité du modèle. On utilise les 20 à 15% des données restantes pour réaliser l’évaluation du modèle. Bien sûr, il ne faut surtout pas réutiliser les mêmes données que celles utilisées pour l’entrainement.
- Les données de production, qui ne sont pas disponibles de la compagnie qui fournit le service mais sur lesquelles on applique le modèle et obtenir le résultat produit par l’algorithme.
Dans le cas de GPT, les données utilisées pour l’entrainement et les tests sont les milliards de milliers de livres électroniques disponibles mais également les pages internet parcourues par les moteurs de recherche et quelques encyclopédies. Les données de production sont les questions que vous pouvez poser au modèle.
Est-ce que mes données d’entreprise sont en danger?
Les données privées des entreprises, ne font pas parti des données utilisées pour l’entrainement des modèles. Que ce soit #OpenAI, éditeur de GPT ou Microsoft pour les différents modèles qu’ils entraînent, aucun d’eux n’utilisent les données des autres entreprises.
En fait c’est l’utilisateur qui risque là encore, d’exposer ses données si il n’y prend pas garde. D’où l’importance d’éduquer les utilisateurs sur la base d’informations claires quant à l’usage des données de l’entreprise.
J’aurais l’occasion de revenir sur la gouvernance des données d’entreprise et des possibilités techniques disponibles dans les plateformes de Microsoft.
Est-ce que les travailleurs et les entreprises sont en danger?
Comme dans chaque révolution, certains métiers ou certains modèles économiques sont à risque. Mais si le modèle GPT continuera à intégrer de nouvelles fonctionnalités et parait pouvoir répondre à toutes les questions sans plus avoir besoin de consultants, comme dans toutes équations mathématiques, la qualité de la réponse dépend essentiellement de la qualité de la question.
Et c’est bien ce que l’enseignement des mathématiques à l’école est supposé nous apprendre: Poser convenablement les questions sinon les réponses ne seront pas précises.
Et bien dans le cas de GPT, c’est exactement la même chose. Si le modèle semble avoir réponse à tout, c’est bien la forme de la question et donc la qualité des données que vous soumettez aux modèles qui en détermine l’efficacité et la valeur.
Oui, certaines tâches vont continuer à se moderniser et cette modernisation à démarrer depuis très longtemps et continuera quoiqu’il arrive. Et grâce à GTP, la révolution industrielle démarrée au 18ième siècle prend une sérieuse accélération mais, pour l’instant, l’homme conserve une longueur d’avance dans sa capacité à poser les problèmes convenablement et surtout à pouvoir en adapter le contenu rapidement au gré des évènements.
Ou en est Microsoft côté Intelligence Artificielle?
L’engagement de Microsoft dans l’apprentissage automatisé et dans l’IA a démarré il y a très longtemps. Grace au socle technologique de Microsoft Azure, Microsoft a multiplié sa capacité à transformer et à intégrer les modèles dans ses services. Grace à Microsoft Graph, Microsoft a également permis de facilité pour ses clients d’accéder et contrôler à leurs données et ce, de manière sécurisée.
Hier, Microsoft a rendu public l’annonce de Microsoft 365 CoPilot (https://blogs.microsoft.com/blog/2023/03/16/introducing-micr…) qui va être un tournant dans la façon dont les utilisateurs peuvent poser leurs questions aux algorithmes dans leur contexte de travail. Mais je reviendrais dans un prochain article sur Microsoft 365 CoPilot 😉
Quelques références:
https://openai.com/product/gpt-4
https://www.microsoft.com/en-us/worklab/ai-a-whole-new-way-of-working
Introducing Microsoft 365 Copilot – your copilot for work – The Official Microsoft Blog