LLama3技术报告笔记(垂直能力)
3.4.1 代码能力
典型应用:Copilot; Codex;
多任务:代码生成;写文档;debug;code review;
多语种:Python, Java, JavaScript, C/C++,... , HTML/CSS, SQL, bash/shell
1. Code专家模型
从预训练模型分支出来,加入1T token的混合数据(code占比85%),做continue-pretraining;
使用CodeLlama的配方;最后数千个steps改用long-context微调(16K窗口);最后,使用code占比高的数据,做SFT+DPO对齐训练;
用途:为主模型,做rejection-sampling;
2. 数据生成
痛点:follow指令;代码语法错误;生成错误的代码;fix bug;
自动生成了270万个样本,用来作SFT;
2.1 带feedback的代码生成
研究表明,用自己模型生成的代码,再训练自己模型,效果不变好反变差;因此,这里引入feedback,让模型从自己的错误中学到东西,回到正轨;