比LoRA更高效！上交大&哈佛推出新微调框架，瞄准特定任务方向

作者：爱集微 09-18 14:10

来源：量子位 #人工智能#

2392

比LoRA更高效的模型微调方法来了——

以常识推理为例，在参数量减少8~16倍的情况下，两种方法能达到相同效果。

新方法名叫LoRA-Dash，由来自上海交通大学和哈佛大学的研究人员提出，主要针对特定任务微调模型往往需要大量计算资源这一痛点。

研究完成的主要工作是：

对高效微调过程中的TSD（Task-specific Directions，特定任务方向）进行了严格定义，并详细分析了其性质。

为了进一步释放TSD在下游任务中的潜力，提出新的高效微调方法LoRA-Dash。

来看具体内容。

从头搭建特定任务方向的框架

随着大型语言模型的发展，针对特定任务微调模型往往需要大量计算资源。

为了解决这一问题，参数高效微调（PEFT）策略应运而生，像LoRA等方法被广泛应用。

在LoRA中，作者们通过一系列实验发现，LoRA本质上是捕捉一些预训练中已学习到的但并不重要的方向，这些方向对应的特征在之后的下游任务中被LoRA放大。

LoRA把这些方向定义为“特定任务方向”（Task-specific Directions， TSD）。

然而，在LoRA原论文关于TSD的叙述中却出现了一些矛盾和冲突。

比如作者认为TSD是∆

责编：爱集微

来源：量子位 #人工智能#

THE END

爱集微

微信：

邮箱：laoyaoba@gmail.com

9.7w文章总数

12012.5w总浏览量