当前位置：首页 > news >正文

LLama3技术报告笔记（垂直能力）

news 2026/1/17 8:26:49

3.4.1 代码能力

典型应用：Copilot; Codex;

多任务：代码生成；写文档；debug；code review；

多语种：Python, Java, JavaScript, C/C++，... , HTML/CSS, SQL, bash/shell

1. Code专家模型

从预训练模型分支出来，加入1T token的混合数据（code占比85%)，做continue-pretraining;

使用CodeLlama的配方；最后数千个steps改用long-context微调（16K窗口)；最后，使用code占比高的数据，做SFT+DPO对齐训练；

用途：为主模型，做rejection-sampling;

2. 数据生成

痛点：follow指令；代码语法错误；生成错误的代码；fix bug；

自动生成了270万个样本，用来作SFT；

2.1 带feedback的代码生成

研究表明，用自己模型生成的代码，再训练自己模型，效果不变好反变差；因此，这里引入feedback，让模型从自己的错误中学到东西，回到正轨；