Le Monde de l'Intelligence Artificielle Générale
Si un jour, nous pouvons simplement dire à une IA de créer une application comme TikTok ou YouTube avec une seule commande, et qu’elle nous fournisse un projet complet contenant des millions de lignes de code, ce serait vraiment incroyable.
Lorsque ChatGPT a été lancé fin novembre 2022, il pouvait accomplir des tâches telles que corriger un extrait de code et répondre à une large gamme de questions. Il excellait dans l’explication de concepts comme les réseaux de neurones et fournissait des exemples de “Hello, World!” dans divers langages de programmation. C’était comme avoir un moteur de recherche très puissant capable de donner des réponses directes.
Ensuite, il disposait d’une fonctionnalité de recherche. Je pouvais demander à ChatGPT de récupérer une liste de liens à partir d’un site web et de créer un document à leur sujet.
Ensuite, des versions comme ChatGPT 3.5, 4, 4o, o1-mini et o1 ont été publiées.
Désormais, il peut gérer des demandes comme l’ajout d’un mode sombre à un site web. Il peut fournir le code nécessaire et les instructions pour mettre à jour le HTML, le CSS ou les scripts, et même suggérer d’ajouter un bouton de bascule pour le mode sombre. La mise en œuvre du mode sombre implique des modifications du CSS, et si le site utilise Markdown, cela doit également être mis à jour.
C’est comme si l’IA pouvait implémenter des fonctionnalités entières, et pas seulement des fragments de code.
En combinant ces fonctionnalités, nous pouvons créer une application. Ainsi, un jour, si nous demandons à un outil d’IA de construire un terminal, un navigateur, une liste de tâches, une application de gestion de tâches, un calendrier, un outil de collaboration de code ou une application de réunion, il pourrait fournir l’intégralité du code du projet.
Nous pouvons ensuite rendre la tâche plus complexe. Par exemple, nous pourrions demander à l’IA d’intégrer tout le code existant de YouTube et d’utiliser les API d’OpenAI, Claude ou Deepseek pour ajouter des fonctionnalités d’IA à YouTube. Cela pourrait inclure l’ajout d’un assistant intelligent, le remplacement des traductions actuelles par des traductions alimentées par l’IA, l’amélioration des capacités de recherche grâce à l’IA, et même la curation de vidéos courtes dédiées, comme demander à YouTube de fournir 100 vidéos courtes amusantes sur la vie japonaise.
Alors, voici une application. Mais qu’en est-il des tâches plus avancées, comme créer un système d’exploitation ? Nous pourrions demander à l’IA de concevoir un nouveau système d’exploitation entièrement open-source avec un design moderne, des applications de base, un terminal, une ligne de commande et un planificateur, similaire à Oberon, en utilisant des structures de données pour interagir entre les processus au lieu de chaînes de caractères.
Et ensuite ? Nous pourrions demander à l’IA de concevoir le dernier Mac et de mettre à jour son système d’exploitation.
Et ensuite, quelle est la prochaine étape ? Nous pourrions demander à l’IA de concevoir et de mettre à jour une maison entière, en personnalisant tous les produits électriques en fonction de nos activités, des dernières connaissances et de nos besoins pour créer un environnement de vie meilleur.
Et ensuite, quelle est la prochaine étape ? Nous pourrions demander à l’IA de concevoir une ville entière, adaptée aux comportements de ses citoyens et aux connaissances les plus récentes, afin d’améliorer leur qualité de vie.
Et enfin, quelle est la prochaine étape ? Nous pourrions demander à l’IA d’améliorer la Terre, en utilisant toutes les connaissances et informations disponibles pour améliorer la vie de chacun.
Je peine à trouver un titre pour cet essai. Appelons-le “Le Monde de l’Intelligence Générale Artificielle”.
Selon Deepseek, “L’intelligence artificielle générale (AGI) désigne un type d’intelligence artificielle qui possède la capacité de comprendre, d’apprendre et d’appliquer des connaissances à travers une large gamme de tâches à un niveau comparable à l’intelligence humaine.” Contrairement à l’IA spécialisée, conçue pour des tâches spécifiques comme la reconnaissance faciale, la traduction linguistique ou jouer aux échecs, l’AGI peut accomplir toute tâche intellectuelle qu’un humain est capable de réaliser.
Lorsque l’on envisage l’avenir de l’IA, il y a deux points fondamentaux à comprendre : les algorithmes et la puissance de calcul. Les algorithmes d’IA sont principalement impliqués dans le calcul, la rétropropagation, les transformers, GPT et l’attention latente multi-têtes.
Dans le monde numérique, il existera des correspondances de X à Y, où X peut être n’importe quoi, du texte, des images, des vidéos, de l’audio, du code, à n’importe quelle donnée en octets. Y peut également être l’un de ces éléments.
Les ordinateurs ne comprennent pas intrinsèquement l’AGI (Intelligence Générale Artificielle) ; ce n’est qu’une définition créée par les humains et cela n’a pas beaucoup d’importance pour les machines.
L’application de l’IA dans le monde physique inclura des domaines comme la conduite autonome et la robotique. Si le monde numérique peut mapper X à Y, le monde physique suivra. Par exemple, un robot peut transformer des ingrédients en plats, assembler des Legos, décorer une maison, carreler des sols, installer des climatiseurs et monter des meubles IKEA.
Il existe déjà des robots industriels en activité. Parmi les entreprises japonaises notables figurent FANUC, Kawasaki Heavy Industries et Yaskawa Electric Corporation.
Alors, pourquoi n’y a-t-il pas plus de robots dans les foyers ? Les robots grand public doivent être polyvalents et capables d’effectuer plusieurs tâches. Par exemple, un robot de cuisine pourrait se contenter de remuer et de faire frire les ingrédients, obligeant les utilisateurs à préparer les ingrédients et à nettoyer par la suite.
À l’avenir, les robots seront présents dans les foyers, les magasins, les écoles, les bureaux, les cinémas et les attractions touristiques—en somme, partout où des travailleurs humains sont actuellement employés.
Il y aura un modèle mondial dans le cloud, un modèle très volumineux, potentiellement d’environ 100 pétaoctets. Pour référence, 1 pétaoctet équivaut à 1 024 téraoctets, et 1 téraoctet équivaut à 1 024 gigaoctets. Une version du modèle Llama 3 70B a une taille de fichier de 21,1 Go.
Les robots dans le monde devront consulter ce modèle mondial dans le cloud pour prendre des actions. Un délai réseau de 100 millisecondes, voire même 1 seconde, est acceptable tant que le robot peut accomplir ses tâches de manière efficace.