Gate 廣場「創作者認證激勵計劃」開啓:入駐廣場,瓜分每月 $10,000 創作獎勵!
無論你是廣場內容達人,還是來自其他平台的優質創作者,只要積極創作,就有機會贏取豪華代幣獎池、Gate 精美週邊、流量曝光等超 $10,000+ 豐厚獎勵!
參與資格:
滿足以下任一條件即可報名👇
1️⃣ 其他平台已認證創作者
2️⃣ 單一平台粉絲 ≥ 1000(不可多平台疊加)
3️⃣ Gate 廣場內符合粉絲與互動條件的認證創作者
立即填寫表單報名 👉 https://www.gate.com/questionnaire/7159
✍️ 豐厚創作獎勵等你拿:
🎁 獎勵一:新入駐創作者專屬 $5,000 獎池
成功入駐即可獲認證徽章。
首月發首帖(≥ 50 字或圖文帖)即可得 $50 倉位體驗券(限前100名)。
🎁 獎勵二:專屬創作者月度獎池 $1,500 USDT
每月發 ≥ 30 篇原創優質內容,根據發帖量、活躍天數、互動量、內容質量綜合評分瓜分獎勵。
🎁 獎勵三:連續活躍創作福利
連續 3 個月活躍(每月 ≥ 30 篇內容)可獲 Gate 精美週邊禮包!
🎁 獎勵四:專屬推廣名額
認證創作者每月可優先獲得 1 次官方項目合作推廣機會。
🎁 獎勵五:Gate 廣場四千萬級流量曝光
【推薦關注】資源位、“優質認證創作者榜”展示、每週精選內容推薦及額外精選帖激勵,多重曝光助你輕
發布一天,Code Llama代碼能力突飛猛進,微調版Human_得分超GPT-4
昨天,Meta 開源專攻代碼生成的基礎模型Code Llama,可免費用於研究以及商用目的。
Code Llama 系列模型有三個參數版本,參數量分別為7B、13B 和34B。並且支持多種編程語言,包括Python、C++、Java、PHP、Type (Java)、C# 和Bash。
Meta 提供的Code Llama 版本包括:
就其效果來說,Code Llama 的不同版本在Human 和MBPP 數據集上的一次生成通過率(pass@1)都超越GPT-3.5。
此外,Code Llama 的「Unnatural」34B 版本在Human 數據集上的pass@1 接近了GPT-4(62.2% vs 67.0%)。不過Meta 沒有發布這個版本,但通過一小部分高質量編碼數據的訓練實現了明顯的效果改進。
圖源:
Phind 聯合創始人Michael Royzen 表示:「這只是一個早期實驗,旨在重現(並超越)Meta 論文中的「Unnatural Code Llama」結果。將來,我們將擁有不同CodeLlama 模型的專家組合,我認為這些模型在現實世界的工作流程中將具有競爭力。 」
接下來我們看看這項研究是如何實現的。
微調Code Llama-34B 擊敗GPT-4
我們先看結果。這項研究用Phind 內部數據集對Code Llama-34B 和Code Llama-34B-Python 進行了微調,分別得到兩個模型Phind-CodeLlama-34B-v1 以及Phind-CodeLlama-34B-Python-v1。
新得到的兩個模型在Human 上分別實現了67.6% 和69.5% pass@1。
作為比較,CodeLlama-34B pass@1 為48.8%;CodeLlama-34B-Python pass@1 為53.7%。
而GPT-4 在Human 上pass@1 為67%(OpenAI 在今年3 月份發布的「GPT-4 Technical Report」中公佈的數據)。
圖源:
該數據集沒有採用代碼補全示例,而是採用指令- 答案對,這與Human 數據結構不同。之後該研究對Phind 模型進行了兩個epoch 的訓練,總共有約16 萬個示例。研究者表示,訓練中沒有使用LoRA 技術,而是採用了本地微調。
此外,該研究還採用了DeepSpeed ZeRO 3 和Flash Attention 2 技術,他們在32 個A100-80GB GPU 上、耗時三個小時,訓練完這些模型,序列長度為4096 個token。
此外,該研究還將OpenAI 的去污染(decontamination)方法應用於數據集,使模型結果更加有效。
眾所周知,即便是非常強大的GPT-4,也會面臨數據污染的困境,通俗一點的講就是訓練好的模型可能已經接受評估數據的訓練。
這個問題對LLM 非常棘手,舉例來說,在評估一個模型性能的過程中,為了進行科學可信的評估,研究者必須檢查用於評估的問題是否在模型的訓練數據中。如果是的話,模型就可以記住這些問題,在評估模型時,顯然會在這些特定問題上表現更好。
這就像一個人在考試之前就已經知道了考試問題。
為了解決這個問題,OpenAI 在公開的GPT-4 技術文檔《 GPT-4 Technical Report 》中披露了有關GPT-4 是如何評估數據污染的。他們公開了
量化和評估這種數據污染的策略。
具體而言,OpenAI 使用子串匹配來測量評估數據集和預訓練數據之間的交叉污染。評估和訓練數據都是通過刪除所有空格和符號,只保留字符(包括數字)來處理的。
對於每個評估示例,OpenAI 隨機選擇三個50 個字符的子字符串(如果少於50 個字符,則使用整個示例)。如果三個採樣的評估子字符串中的任何一個是處理後的訓練樣例的子字符串,則確定匹配。
這將產生一個受污染示例的列表,OpenAI 丟棄這些並重新運行以獲得未受污染的分數。但這種過濾方法有一些局限性,子串匹配可能導致假陰性(如果評估和訓練數據之間有微小差異)以及假陽性。因而,OpenAI 只使用評估示例中的部分信息,只利用問題、上下文或等效數據,而忽略答案、回應或等效數據。在某些情況下,多項選擇選項也被排除在外。這些排除可能導致假陽性增加。
關於這部分內容,感興趣的讀者可以參考論文了解更多。
論文地址:
不過,Phind 在對標GPT-4 時使用的Human 分數存在一些爭議。有人說,GPT-4 的最新測評分數已經達到了85%。但Phind 回复說,得出這個分數的相關研究並沒有進行污染方面的研究,無法確定GPT-4 在接受新一輪測試時是否看到過Human 的測試數據。再考慮到最近一些有關「GPT-4 變笨」的研究,所以用原始技術報告中的數據更為穩妥。
參考鏈接: