宣告一天，Code Llama代码能耐一劳永逸，微调版HumanEval患上分超GPT-坚诚小公主网

宣告一天，Code Llama代码能耐一劳永逸，微调版HumanEval患上分超GPT

2024-11-19 18:47:23 来源：

明天的宣告我：在代码天生方面开源 LLM 将在多少个月内击败 GPT-4 。如今的代码调版我：实际上是明天。

明天，劳永Meta 开源专攻代码天生的逸微根基模子 Code Llama，可收用度于钻研以及商用目的上分。

Code Llama 系列模子有三个参数版本，宣告参数目分说为 7B、代码调版13B 以及 34B。劳永而且反对于多种编程语言，逸微搜罗 Python 、上分C++ 、宣告Java、代码调版PHP、劳永Typescript (Javascript)、逸微C# 以及 Bash 。上分

Meta 提供的 Code Llama 版本搜罗：

Code Llama，根基代码模子；
Code Llama-Python ，Python 微调版；
Code Llama-Instruct，做作语言指令微调版。

就其下场来说，Code Llama 的差距版本在 HumanEval 以及 MBPP 数据集上的一次天生经由率（pass@1）都逾越 GPT-3.5。

此外，Code Llama 的「Unnatural」34B 版本在 HumanEval 数据集上的 pass@1 挨近了 GPT-4（62.2% vs 67.0%）。不外 Meta 不宣告这个版本，但经由一小部份高品质编码数据的磨炼实现为了清晰的下场改善。

图源：https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

一天刚过，就有钻研者向 GPT-4 建议了挑战。他们来自 Phind（一个机关，旨在计划一款为开拓职员而生的AI 搜查引擎），该钻研用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4。

Phind 散漫独创人 Michael Royzen 展现：「这只是一个早期试验，旨在重现（并逾越）Meta 论文中的「Unnatural Code Llama」服从。未来，咱们将具备差距 CodeLlama 模子的专家组合，我以为这些模子在事实天下的使命流程中将具备相助力。」

两个模子均已经开源：

钻研者在 Huggingface 上宣告了这两个模子，巨匠可从前往魔难。

Phind-CodeLlama-34B-v1：https://huggingface.co/Phind/Phind-CodeLlama-34B-v1
Phind-CodeLlama-34B-Python-v1 ：https://huggingface.co/Phind/Phind-CodeLlama-34B-Python-v1

接下来咱们看看这项钻研是若何实现的。

微调 Code Llama-34B 击败 GPT-4

咱们先看成果。这项钻研用 Phind 外部数据集对于 Code Llama-34B 以及 Code Llama-34B-Python 妨碍了微调，分说患上到两个模子 Phind-CodeLlama-34B-v1 以及 Phind-CodeLlama-34B-Python-v1。

新患上到的两个模子在 HumanEval 上分说实现为了 67.6% 以及 69.5% pass@1。

作为比力，CodeLlama-34B pass@1 为 48.8%；CodeLlama-34B-Python pass@1 为 53.7%。

而 GPT-4 在 HumanEval 上 pass@1 为 67%（OpenAI 在往年 3 月份宣告的「GPT-4 Technical Report」中宣告的数据）。

图源：https://ai.meta.com/blog/code-llama-large-language-model-coding/

图源：https://cdn.openai.com/papers/gpt-4.pdf

谈到微调，做作少不了数据集，该钻研在搜罗约 8 万个高品质编程下场以及处置妄想的专有数据集上对于 Code Llama-34B 以及 Code Llama-34B-Python 妨碍了微调。

该数据集不接管代码补全示例，而是接管指令 - 谜底对于，这与 HumanEval 数据妄想差距。之后该钻研对于 Phind 模子妨碍了两个 epoch 的磨炼，总共有约 16 万个示例。钻研者展现，磨炼中不运用 LoRA 技术，而是接管了当地微调。

此外，该钻研还接管了 DeepSpeed ZeRO 3 以及 Flash Attention 2 技术，他们在 32 个 A100-80GB GPU 上、耗时三个小时，磨炼完这些模子，序列长度为 4096 个 token。

此外，该钻研还将 OpenAI 的去传染（decontamination）措施运用于数据集，使模子服从愈加实用。

家喻户晓，纵然黑白常强盛的 GPT-4，也碰头临数据传染的顺境，深入一点的讲便是磨炼好的模子可能已经接受评估数据的磨炼。

这个下场对于 LLM 颇为随手，举例来说，在评估一个模子功能的历程中，为了妨碍迷信可信的评估，钻研者必需魔难用于评估的下场是否在模子的磨炼数据中。假如是的话，模子就能记住这些下场，在评估模子时，显明会在这些特定下场上展现更好。

这就像一总体在魔难以前就已经知道了魔难下场。

为了处置这个下场，OpenAI 在果真的 GPT-4 技术文档《 GPT-4 Technical Report 》中吐露了无关 GPT-4 是若何评估数据传染的。他们果真了量化以及评估这种数据传染的策略。

详细而言，OpenAI 运用子串立室来丈量评估数据集以及预磨炼数据之间的交织传染。评估以及磨炼数据都是经由删除了所有空格以及标志，只保存字符（搜罗数字）来处置的。

对于每一个评估示例，OpenAI 随机抉择三个 50 个字符的子字符串（假如少于 50 个字符，则运用全部示例）。假如三个采样的评估子字符串中的任何一个是处置后的磨炼样例的子字符串，则确订亲配。

这将发生一个受传染示例的列表，OpenAI 扔掉这些侧重新运行以取患上未受传染的分数。但这种过滤措施有一些规模性，子串立室可能导致假阴性（假如评估以及磨炼数据之间有重大差距）以及假阴性。因此，OpenAI 只运用评估示例中的部份信息，只运用下场、高下文或者等效数据，而漠视谜底、回应或者等效数据。在某些情景下，多项抉择选项也被清扫在外。这些清扫可能导致假阴性削减。

对于这部份外容，感兴趣的读者可能参考论文清晰更多。

论文地址：https://cdn.openai.com/papers/gpt-4.pdf

不外，Phind 在对于标 GPT-4 时运用的 HumanEval 分数存在一些争议。有人说，GPT-4 的最新测评分数已经抵达了 85%。但 Phind 回覆说，患上出这个分数的相关钻研并无妨碍传染方面的钻研，无奈判断 GPT-4 在接受新一轮测试时是否看到过 HumanEval 的测试数据。再思考到最近一些无关「GPT-4 变笨」的钻研，以是用原始技术陈说中的数据加倍安妥。