En décembre 2023, Google a annoncé le lancement de son nouveau grand modèle de langue appelé Gemini. Gemini constitue la nouvelle fondation technologique d’intelligence artificielle (IA) des produits de Google. Il est également le concurrent direct de GPT-4 d’OpenAI.
Mais pourquoi Google considère-t-il Gemini comme un jalon d’importance, et qu’est-ce que cela signifie pour les utilisateurs des services de la compagnie ? Et de façon plus générale, qu’est-ce que cela signifie dans le contexte des développements effrénés de l’IA que l’on observe actuellement ?
L’IA à tout vent
Google mise sur Gemini pour transformer la plupart de ses produits en améliorant les fonctionnalités actuelles et en créant de nouvelles, pour des services tels que ses moteurs de recherche, Gmail, YouTube et sa suite bureautique. Cela permettrait également d’améliorer son service de publicité en ligne — sa principale source de revenus — ainsi que le système d’exploitation des téléphones Android, avec des versions épurées de Gemini fonctionnant sur des dispositifs de capacité limitée.
Pour les utilisateurs, Gemini est synonyme de nouvelles fonctionnalités et d’améliorations à celles actuelles qui rendront les services de Google encore plus incontournables, renforçant ainsi une position déjà dominante dans des domaines tels que les moteurs de recherche. Le potentiel et les opportunités pour Google sont considérables, étant donné que la majeure partie de leurs logiciels sont de l’infonuagique, pouvant facilement être mis à jour.
Mais l’énorme et inattendu succès de ChatGPT a attiré beaucoup d’attention et a donné une crédibilité à OpenAI, auparavant assez peu connue hors des cercles de spécialistes. Gemini permettra à Google de redevenir un acteur majeur de l’IA aux yeux du public. Google est une puissance dans le domaine de l’IA, avec de grandes et réputées équipes de recherche à l’origine de nombreuses avancées majeures de la dernière décennie.
Ces nouvelles technologies font l’objet de discussions publiques, tant sur les avantages qu’elles procurent que sur les bouleversements qu’elles entraînent dans des domaines tels que l’éducation, la conception et les soins de santé.
Une IA plus forte
Le cœur technologique de Gemini repose sur les réseaux autoattentifs. Conçue à l’origine par une équipe de recherche de Google, cette technologie est utilisée pour d’autres grands modèles de langue tels que GPT-4.
Un élément distinctif de Gemini est sa capacité à traiter des données de différentes modalités : texte, audio, image et vidéo. Cela permet au modèle d’IA d’exécuter des tâches portant sur plusieurs modalités, comme répondre à des questions concernant le contenu d’une image ou effectuer une recherche par mots-clés sur le contenu discuté dans des balados.
Mais plus encore, le fait que les modèles puissent traiter des modalités distinctes permet de former des modèles d’IA globalement plus performants comparativement à des modèles distincts entraînés séparément pour chaque modalité. En effet, ces modèles multimodaux sont considérés comme plus forts puisqu’ils sont exposés à différentes perspectives des mêmes concepts.
Par exemple, le concept d’oiseaux peut être mieux compris en apprenant à partir d’un mélange de descriptions textuelles, de vocalises, d’images et de vidéos d’oiseaux. Cette idée de réseaux autoattentifs multimodaux a été explorée dans des recherches antérieures d’équipes de Google, Gemini étant la première mise en œuvre commerciale complète de l’approche.
Un tel modèle est considéré comme un pas de plus vers des modèles d’IA générale plus puissants.
Les risques des IA générales
Compte tenu de la vitesse à laquelle l’IA progresse, le fait que l’on s’attende à ce que des IA dotées de capacités surhumaines soient conçues dans un avenir proche suscite des discussions au sein de la communauté des chercheurs et, plus largement, de la société.
D’un côté, certains anticipent le risque d’événements catastrophiques si une IA générale puissante tombe entre les mains de groupes mal intentionnés, et demandent un ralentissement des développements.
D’autres affirment que nous sommes encore très loin d’une IA générale déployable, que les approches actuelles permettent une modélisation insuffisante de l’intelligence, imitant les données sur lesquelles elles sont entraînées, et qu’elles ne disposent pas d’un modèle du monde performant — une compréhension détaillée de la réalité — nécessaire pour parvenir à une intelligence comparable à celle d’un humain.
D’autre part, on pourrait faire valoir que centrer la conversation sur le risque existentiel détourne l’attention d’impacts plus immédiats provoqués par les récentes avancées de l’IA, notamment la reproduction des préjugés, la production de contenus incorrects et trompeurs — ce qui a incité Google à suspendre son générateur d’images Gemini, l’intensification des impacts environnementaux et le renforcement de la domination des GAFAM.
La voie à suivre se situe quelque part entre toutes ces préoccupations. Nous sommes encore loin de l’avènement d’une IA générale exploitable — d’autres percées sont nécessaires, notamment par l’introduction de capacités de modélisation et de raisonnement symboliques plus puissantes.
Dans l’intervalle, nous ne devons pas perdre de vue les incidences éthiques et sociétales importantes de l’IA moderne. Ces considérations sont majeures et doivent être abordées par des personnes aux compétences diverses, issues des milieux technologiques et des sciences sociales.
Néanmoins, bien qu’il ne s’agisse pas d’une menace à court terme, l’obtention d’une IA dotée de capacités surhumaines est un sujet de préoccupations. Il est important que nous soyons collectivement prêts à gérer de manière responsable l’émergence d’IA générales, lorsque cette étape importante sera franchie.