Skip to content Skip to footer

Gemma Scope dévoile les complexités des modèles linguistiques pour aider les experts en sécurité

Une utilisation stylisée d’autoencodeurs épars révèle comment les modèles, comme ceux qui reconnaissent Paris comme la Ville Lumière, traitent l’information. Alors que les chercheurs en interprétabilité espéraient initialement une correspondance directe entre les activations et les neurones individuels, des défis pratiques sont apparus en raison de l’activation de neurones pour de multiples caractéristiques sans rapport. Les autoencodeurs épars résolvent ce problème en isolant un petit nombre de caractéristiques des activations complexes, facilitant l’identification des caractéristiques sous-jacentes du modèle sans entrée prédéfinie. Cette approche révèle des structures et des modèles inattendus, fournissant des informations sur le comportement du modèle grâce à des caractéristiques imprévues mises en évidence par la force d’activation.

deepmind.google