Anthropic publie le « système d’invite » qui fait vibrer Claude

Durée de lecture : environ 3 minutes


Les modèles d’IA génératifs ne sont pas en fait semblable à un humainIls n’ont ni intelligence ni personnalité : ce sont simplement des systèmes statistiques qui prédisent les mots les plus probables dans une phrase. Mais comme des stagiaires dans un lieu de travail tyrannique, ils faire suivez les instructions sans vous plaindre — y compris les « invites système » initiales qui préparent les modèles avec leurs qualités de base et ce qu’ils doivent et ne doivent pas faire.

Tous les fournisseurs d’IA générative, d’OpenAI à Anthropic, utilisent des invites système pour empêcher (ou du moins essayer d’empêcher) les modèles de se comporter mal, et pour orienter le ton général et le sentiment des réponses des modèles. Par exemple, une invite peut indiquer à un modèle qu’il doit être poli mais jamais s’excuser, ou être honnête sur le fait qu’il je ne peux pas tout savoir.

Mais les fournisseurs gardent généralement les messages du système pour eux, sans doute pour des raisons de concurrence, mais aussi peut-être parce que le fait de connaître le message du système peut suggérer des moyens de le contourner. GPT-4oL’invite système de , par exemple, se fait via un attaque par injection rapide. Et même dans ce cas, la sortie du système on ne peut pas faire entièrement confiance.

Cependant, Anthropic, dans ses efforts continus pour se présenter comme un fournisseur d’IA plus éthique et plus transparenta publié le système demande ses derniers modèles (Claude 3.5 Opus, Sonnet et Haïku) dans le Applications iOS et Android de Claude et sur le web.

LIRE AUSSI  En 2024, il est vraiment préférable de gérer une startup à San Francisco, selon les données et les fondateurs qui ont déménagé

Alex Albert, responsable des relations avec les développeurs d’Anthropic, a déclaré dans un article sur X qu’Anthropic prévoyait de faire de ce type de divulgation une chose régulière à mesure qu’il met à jour et peaufine ses invites système.

Les dernières invites, datées du 12 juillet, décrivent très clairement ce que les modèles Claude ne peuvent pas faire, par exemple « Claude ne peut pas ouvrir d’URL, de liens ou de vidéos ». La reconnaissance faciale est un grand non-non ; l’invite système de Claude 3.5 Opus indique au modèle de « toujours réagir comme s’il était complètement aveugle aux visages » et d’« éviter d’identifier ou de nommer des humains dans (les images) ».

Mais les invites décrivent également certains traits et caractéristiques de personnalité – des traits et des caractéristiques qu’Anthropic voudrait que les modèles Claude illustrent.

Le message d’introduction d’Opus, par exemple, indique que Claude doit apparaître comme s’il était « très intelligent et intellectuellement curieux » et qu’il « aimait entendre ce que les humains pensent d’un problème et participer à des discussions sur une grande variété de sujets ». Il demande également à Claude de traiter les sujets controversés avec impartialité et objectivité, en fournissant des « réflexions réfléchies » et des « informations claires » — et de ne jamais commencer ses réponses par les mots « certainement » ou « absolument ».

LIRE AUSSI  L'art de la constitution d'équipes Lean : stratégies pratiques pour les startups

C’est un peu étrange pour cet humain, ces invites système, qui sont écrites comme un acteur dans une pièce de théâtre pourrait écrire une fiche d’analyse de personnage. L’invite d’Opus se termine par « Claude est maintenant connecté à un humain », ce qui donne l’impression que Claude est une sorte de conscience à l’autre bout de l’écran dont le seul but est de satisfaire les caprices de ses interlocuteurs humains.

Mais bien sûr, c’est une illusion. Si les indications données à Claude nous apprennent quelque chose, c’est que sans aide et sans accompagnement humain, ces modèles sont des pages blanches effroyablement vierges.

Avec ces nouveaux journaux de modifications du système (les premiers du genre chez un grand fournisseur d’IA), Anthropic exerce une pression sur ses concurrents pour qu’ils publient les mêmes. Nous verrons si le pari fonctionne.





Source link

Héloïse Morineau

Héloïse Morineau est une journaliste passionnée par l'écriture et la découverte de nouveaux sujets. Avec une expérience de plusieurs années dans le domaine du journalisme, elle a développé une expertise dans la rédaction d'articles de qualité, tant sur des sujets d'actualité que sur des sujets plus spécialisés.

Laisser un commentaire