Copilot pour Microsoft 365 remplace-t-il le moteur de recherche ?
Il y a un amalgame fréquent sur ce qu’est et ce qu’on a pris l’habitude d’appeler l’Intelligence Artificielle Générative. Le LLM (Grand Modèle de Langage, en bon Français) n’est pas un moteur de recherche. Ces algorithmes sont entrainés pour comprendre et parler/écrire en langage naturel. Le fameux modèle GPT a été entrainé sur un ensemble de documents appelé « Corpus documentaire » qui détermine la spécialisation du modèle. Répondre à des questions n’est absolument pas le métier premier de ces modèles mais plutôt une conséquence de la consultation des milliards de documents qu’il a consulter pour son entrainement.
Mais pourtant… Chat GPT réponds bien à mes questions ?!
Oui… et NOui…
Imaginez… Vous fournissez à lire à votre enfant l’ensemble des livres qui sont à votre disposition dans votre bibliothèque (votre corpus documentaire) car vous en détenez les droits de consultation (La notion de droit ici est essentielle pour bien comprendre les limites de l’entrainement des modèles LLM comme GPT).
Attention… l’ENSEMBLE des livres… Romans, Journaux, BD, Fictions, Biographies, Manuels scolaires, etc… Mais sans lui préciser la nature exacte des documents dont il n’a alors aucune conscience. Est-ce que ce sont des œuvres de fiction? Des documents relatant des faits vérifiés ou supposés? Des documents relatant des faits historiques? Des documents relatant des faits scientifiques hypothétiques ou vérifiés? Etc… Effectivement, la conséquence sera que votre enfant apprendra à comprendre le langage et sera en mesure de le l’écrire selon les différents styles auquel son cerveau sera exposé, puisque c’est ainsi que le cerveau emmagasine et essaye de reproduire des situations déjà conservées en mémoire par corrélation. Mais il ne sera pas en mesure de discerner le vrai et faux parmi les informations qui s’y cachent. Pour pouvoir se poser ces questions, encore faut-il qu’il soit conscient du concept du vrai et du faux et plus encore, encore faut-il qu’il soit conscient tout simplement de ce qu’il fait… C’est encore aujourd’hui quelque chose dont la machine est totalement incapable. Pire encore, la machine ne sait absolument pas que corrélation, ne vaut pas causalité.
La Limitation des Modèles de Langage
Dans son ouvrage traduit en Français « Pourquoi je ne suis pas mon cerveaux », Markus Gabriel (dont je recommande la lecture pour comprendre que nous ne pouvons pas « Réduire » le « MOI » à la seule biochimie du cerveau sur le plan neurologique. Ce qu’on appelle « le Neurocentrisme ») démontre de manière claire que les LLM tels que GPT, bien que capables de générer du texte naturel et de répondre à des questions dans une certaine mesure, ne possèdent pas la capacité de discernement et de conscience propre. Leur fonctionnement est basé sur des modèles statistiques et des calculs de probabilité, et non sur une compréhension réelle du contenu qu’ils génèrent. D’où l’existence de ce qu’on appelle souvent des « Hallucinations ». GPT ou tout autre modèle LLM n’est pas en mesure de discerner si une information est réelle. Il ne ment pas, d’ailleurs il est incapable de comprendre le concept du mensonge (Probablement pas assez humain pour cela). Il répond à partir de ce qu’on lui a laisser lire. Ceci n’est pas sans nous laisser frissonner à l’idée d’un apprentissage uniquement basé sur les contenus disponibles par exemple sur des plateformes sociales. Nos systèmes éducatifs définissent et appliquent des programmes pédagogiques. Ces programmes ne se limitent pas seulement à définir l’ordre dans lesquels les concepts doivent être enseignés et validés dans le développement de l’esprit des apprenants mais ils permettent aussi d’effectuer une sélection des ouvrages permettant d’enseigner ces concepts. Une autorité, supposée bienveillante, est donc responsable des informations que nous intégrons humainement dans l’apprentissage de ces concepts. Ce qui fait cruellement défaut à l’entrainement des modèles LLM… Pour l’instant 😉
Deux Mondes, Deux Objectifs
La différence fondamentale entre un LLM comme GPT et un moteur de recherche comme Google réside dans leur approche et leur objectif.
Les moteurs de recherche, comme Google par exemple, sont conçus pour extraire des informations pertinentes à partir d’un ensemble de données préexistant, telles que des sites web, des articles de presse, des bases de données, etc. Ils indexent ces informations et les classent en fonction de leur pertinence par rapport à une requête spécifique de l’utilisateur.
En revanche, les LLM sont conçus pour générer du texte naturel en fonction de l’entrée qui leur est fournie, en utilisant les schémas de langage et les informations contenues dans leur ensemble de données d’entraînement sans en comprendre le sens exact sans même avoir conscience du concept de l’exactitude ou non des informations.
Copilot dans Microsoft 365 : Complémentarité et Dépendance Contextuelle
Dans le contexte de Copilot pour Microsoft 365, il est important de comprendre que cet outil n’a pas pour vocation de remplacer un moteur de recherche. Au contraire, il complète les fonctionnalités existantes en fournissant des suggestions de texte et en facilitant la création de contenu dans les applications bureautiques. Copilot s’appuie sur les capacités de génération de texte de GPT pour proposer des réponses et des solutions pertinentes aux utilisateurs, mais il continu à devoir s’appuyer sur le moteur de recherche de Microsoft 365 pour lui permettre de fournir du contenu contextualisé et surtout vérifié sur la base des informations déjà présentent dans votre environnement Microsoft 365. Tout repose donc toujours sur la performance de l’indexation des contenus présents dans l’environnement Microsoft 365 et ce, en tenant compte du contexte de sécurité défini sur ces différents contenus.
Copilot n’est pas responsable de la réponse, il a la charge de comprendre la commande, le fameux « prompt » et en charge de formuler la réponse dans un language le plus naturel possible. Les éléments lui permettant de répondre sont eux extraits des documents, informations et autres bases de données qui auront été analysés par le moteur d’indexation sémantique de Microsoft 365.
Ce moteur d’indexation sémantique fonctionne en parallèle du moteur d’indexation traditionnel de Microsoft 365 qui lui est une évolution du moteur de recherche de SharePoint Server.
Pour consulter les documents et informations lors de l’indexation, ces moteurs utilisent la couche d’accès Microsoft Graph.
Conclusion
En résumé, bien que les LLM comme GPT soient capables de répondre à des questions et de générer du texte de manière impressionnante, ils ne peuvent pas remplacer les moteurs de recherche en termes de recherche d’informations spécifiques et de discernement entre le vrai et le faux. Ils sont plutôt des outils complémentaires qui peuvent aider à accélérer les processus de création de contenu et à fournir des suggestions contextuelles dans diverses applications.
Ils sont en revanche totalement complémentaires et leur usage conjoint permet comme dans le cas de Copilot pur Microsoft 365 d’interagir avec l’humain de manière naturelle en permettant d’appuyer cette intéraction sur des contenus vérifiés et utilisés un contexte.