Malgré la demande croissante en matière de sécurité et de responsabilité de l’IA, les tests et les références actuels pourraient s’avérer insuffisants, selon un nouveau rapport.
Les modèles d’IA générative, c’est-à-dire les modèles capables d’analyser et de générer du texte, des images, de la musique, des vidéos, etc., font l’objet d’une attention accrue en raison de leur tendance à commettre des erreurs et de leur comportement généralement imprévisible. Aujourd’hui, des organisations, des agences du secteur public aux grandes entreprises technologiques, proposent de nouveaux critères de référence pour tester la sécurité de ces modèles.
Vers la fin de l’année dernière, la startup Scale AI a formé une laboratoire consacré à l’évaluation de la conformité des modèles aux consignes de sécurité. Ce mois-ci, Institut national de la statistique (INST) et le Institut britannique de sécurité de l’IA publié des outils conçus pour évaluer le risque du modèle.
Mais ces tests et méthodes de sondage de modèles peuvent s’avérer inadéquats.
L’Ada Lovelace Institute (ALI), une organisation de recherche en IA à but non lucratif basée au Royaume-Uni, a mené une étude Les co-auteurs ont interrogé des experts issus de laboratoires universitaires, de la société civile et de ceux qui produisent des modèles de fournisseurs, et ont également audité des recherches récentes sur les évaluations de sécurité de l’IA. Les co-auteurs ont constaté que si les évaluations actuelles peuvent être utiles, elles ne sont pas exhaustives, peuvent être facilement truquées et ne donnent pas nécessairement une indication de la manière dont les modèles se comporteront dans des scénarios réels.
« Qu’il s’agisse d’un smartphone, d’un médicament sur ordonnance ou d’une voiture, nous nous attendons à ce que les produits que nous utilisons soient sûrs et fiables. Dans ces secteurs, les produits sont rigoureusement testés pour garantir leur sécurité avant d’être déployés », a déclaré à TechCrunch Elliot Jones, chercheur principal à l’ALI et co-auteur du rapport. « Notre recherche visait à examiner les limites des approches actuelles d’évaluation de la sécurité de l’IA, à évaluer la manière dont les évaluations sont actuellement utilisées et à explorer leur utilisation comme outil pour les décideurs politiques et les régulateurs. »
Repères et red teaming
Les coauteurs de l’étude ont d’abord examiné la littérature universitaire pour établir un aperçu des risques et des préjudices que posent les modèles actuels, ainsi que l’état des évaluations des modèles d’IA existants. Ils ont ensuite interrogé 16 experts, dont quatre employés d’entreprises technologiques non identifiées développant des systèmes d’IA générative.
L’étude a révélé un profond désaccord au sein du secteur de l’IA sur le meilleur ensemble de méthodes et la meilleure taxonomie pour évaluer les modèles.
Certaines évaluations ont uniquement testé la conformité des modèles aux critères de référence en laboratoire, sans évaluer l’impact potentiel des modèles sur les utilisateurs réels. D’autres se sont appuyées sur des tests développés à des fins de recherche, sans évaluer les modèles de production. Pourtant, les fournisseurs ont insisté pour les utiliser en production.
Nous avons écrit sur les problèmes avec les benchmarks de l’IA auparavant, et l’étude met en évidence tous ces problèmes et bien d’autres.
Les experts cités dans l’étude ont souligné qu’il est difficile d’extrapoler les performances d’un modèle à partir des résultats d’un benchmark et qu’il n’est pas certain que les benchmarks puissent même montrer qu’un modèle possède une capacité spécifique. Par exemple, même si un modèle peut réussir un examen du barreau d’un État, cela ne signifie pas qu’il sera capable de résoudre des problèmes juridiques plus ouverts.
Les experts ont également souligné le problème de la contamination des données, où les résultats des tests de référence peuvent surestimer les performances d’un modèle si celui-ci a été formé sur les mêmes données que celles sur lesquelles il est testé. Les tests de référence sont souvent choisis par les organisations non pas parce qu’ils constituent les meilleurs outils d’évaluation, mais pour des raisons de commodité et de facilité d’utilisation, ont déclaré les experts.
« Les tests de référence risquent d’être manipulés par les développeurs qui peuvent entraîner des modèles sur le même ensemble de données que celui qui sera utilisé pour évaluer le modèle, ce qui revient à voir le sujet d’examen avant l’examen, ou en choisissant stratégiquement les évaluations à utiliser », a déclaré à TechCrunch Mahi Hardalupas, chercheur à l’ALI et co-auteur de l’étude. « La version d’un modèle qui est évaluée est également importante. De petits changements peuvent entraîner des changements de comportement imprévisibles et peuvent annuler les fonctions de sécurité intégrées. »
L’étude de l’ALI a également mis en évidence des problèmes liés au « red-teaming », une pratique consistant à confier à des individus ou à des groupes la tâche d’« attaquer » un modèle pour identifier ses vulnérabilités et ses défauts. Un certain nombre d’entreprises utilisent le red-teaming pour évaluer leurs modèles, notamment les startups d’IA OpenAI et Anthropic, mais il existe peu de normes reconnues en la matière, ce qui rend difficile l’évaluation de l’efficacité d’un effort donné.
Les experts ont expliqué aux co-auteurs de l’étude qu’il peut être difficile de trouver des personnes possédant les compétences et l’expertise nécessaires pour constituer une équipe rouge, et que la nature manuelle de cette activité la rend coûteuse et laborieuse, ce qui constitue un obstacle pour les petites organisations dépourvues des ressources nécessaires.
Solutions possibles
La pression pour publier les modèles plus rapidement et la réticence à effectuer des tests qui pourraient soulever des problèmes avant une publication sont les principales raisons pour lesquelles les évaluations de l’IA ne se sont pas améliorées.
« Une personne avec qui nous avons parlé, qui travaille pour une entreprise qui développe des modèles de base, a estimé que la pression au sein des entreprises pour publier rapidement des modèles était plus forte, ce qui rendait plus difficile de faire marche arrière et de prendre au sérieux les évaluations », a déclaré Jones. « Les grands laboratoires d’IA publient des modèles à une vitesse qui dépasse leur capacité ou celle de la société à garantir leur sécurité et leur fiabilité. »
L’une des personnes interrogées dans le cadre de l’étude ALI a qualifié de « problème insoluble » l’évaluation des modèles en termes de sécurité. Quel espoir l’industrie – et ceux qui la réglementent – peut-elle alors trouver des solutions ?
Mahi Hardalupas, chercheur à l’ALI, estime qu’il existe une voie à suivre, mais qu’elle nécessitera un engagement plus important de la part des organismes du secteur public.
« Les régulateurs et les décideurs politiques doivent exprimer clairement ce qu’ils attendent des évaluations », a-t-il déclaré. « Dans le même temps, la communauté des évaluateurs doit faire preuve de transparence quant aux limites et au potentiel actuels des évaluations. »
Hardalupas suggère que les gouvernements imposent une plus grande participation du public dans le développement des évaluations et mettent en œuvre des mesures pour soutenir un « écosystème » de tests tiers, y compris des programmes visant à garantir un accès régulier à tous les modèles et ensembles de données requis.
Jones pense qu’il peut être nécessaire de développer des évaluations « spécifiques au contexte » qui vont au-delà du simple test de la façon dont un modèle répond à une invite, et qui examinent plutôt les types d’utilisateurs qu’un modèle pourrait impacter (par exemple, les personnes d’un milieu, d’un sexe ou d’une ethnie particuliers) et les manières dont attaques sur les modèles pourrait mettre en échec les mesures de sécurité.
« Cela nécessitera d’investir dans la science sous-jacente des évaluations pour développer des évaluations plus robustes et reproductibles, basées sur une compréhension du fonctionnement d’un modèle d’IA », a-t-elle ajouté.
Mais il n’y aura jamais de garantie qu’un modèle soit sûr.
« Comme d’autres l’ont souligné, la « sécurité » n’est pas une propriété des modèles », a déclaré Hardalupas. « Déterminer si un modèle est « sûr » nécessite de comprendre les contextes dans lesquels il est utilisé, à qui il est vendu ou rendu accessible, et si les mesures de protection en place sont adéquates et solides pour réduire ces risques. Les évaluations d’un modèle de base peuvent servir à des fins exploratoires pour identifier les risques potentiels, mais elles ne peuvent pas garantir qu’un modèle est sûr, et encore moins « parfaitement sûr ». Bon nombre de nos interlocuteurs ont convenu que les évaluations ne peuvent pas prouver qu’un modèle est sûr et peuvent seulement indiquer qu’un modèle n’est pas sûr. »