??新智元报道??
编辑:LRS
【新智元导读】代码直接编译成Transformer模型,做实验从未如此轻松!
「可解释性」一直是深度学习难以绕过的难题,用户无法理解模型的运行机制,也就无法放心地把模型应用到实际场景中。
最近来自苏黎世联邦理工学院和DeepMind的研究人员提出了一种全新的模型构造工具Tracr,直接由人来根据「已知的机制」针对不同任务编写代码,然后由Tracr编译成模型的权重,让模型的解释变得更轻松!
论文链接:https://arxiv.org/pdf/2301.05062.pdf
代码链接:https://github.com/deepmind/tracr
Tracr的输入为采用领域特定语言RASP编写的代码,输出为标准的、仅包含解码器的、类似GPT的Transformer结构的权重。
在实验部分,研究人员使用Tracr创建了一系列ground truth Transformers,实现了包括计算token频率、排序和Dyck-n括号检查等程序。
如何解释模型?
可解释性是理解机器学习模型的重要手段,但由于模型的实际运行方式仍然不清晰,所以目前的研究成果大多难以评估。
其中一个工作机理可解释性(Mechanistic interpretability)尝试对神经网络进行逆向工程(reverse engineering)来对模型实现的算法给出一个机理上的解释,并在一系列任务中取得进展,包括用于图像分类的卷积神经网络,Transformer语言模型等。
但该方法仍然存在相关工具少、对模型机制解释不深、仍然需要研究人员进行创造性的解释等问题。
评估机理解释的标准方法结合了许多临时实验的证据,然而,由于这样做的成本很高,许多方法只能在玩具模型中进行评估,或在真实模型中的少数不重要的circuits上进行评估。
Tracr的解决方案则是,通过将人类可读的代码「编译」成神经网络的权重,直接解决缺乏基础机理解释的问题。
也就是说,Tracr实际上起到的就是类似编译器的作用。
Tracr中主要涉及三个组件:
1. RASP代码
RASP即Restricted Access Sequence Processing Language,是2021年提出的一个用于表达Transformer计算的语言,可以作为计算模型用来描述Transformers,并配有相应的解释器运行RASP代码。