ChatGPT 参数规模之谜被揭开:或仅为 7B模型?

2024-03-18 2 次阅读 会员专享
ChatGPT 参数规模之谜被揭开:或仅为 7B模型?

近日,南加州大学的研究团队爆出一项重磅消息:他们通过一种攻击方法,成功破解了 OpenAI 最新版 ChatGPT 模型(gpt-3.5-turbo)的参数规模,结果发现其参数规模可能只有 70 亿,而非此前传闻的数百亿甚至上千亿。 攻破 OpenAI 的“秘密” 南加大团队利用了一种名为“Softmax 瓶颈”的攻击方法,该方法能够从 ChatGPT 的 API 调用中获取足够多的输出样本,进而推断出模型的特征向量维度。根据已知信息,4096 或 4608 的嵌入向量维度对应约 70 亿的参数规模。 几乎所有已知的开源大模型如Llama和Mistral,嵌入向量维度4096的时候都是约7B参数规模。 其它比例的话就会造成网络过宽或过窄,已被证明对模型性能不利。 因此南加大团队指出,可以推测gpt-3.5-turbo的参数规模也在7B左右,除非是MoE架构可能不同。 其实在数月前,曾有微软CODEFUSION论文意外泄露当时GPT-3.5模型参数为20B,在后续论文版本中又删除了这一信息。   真相究竟如何? 这一发现与之前流传的 200 亿甚至 175...

🔒

登录后继续阅读

登录账号即可免费阅读本文

立即登录 还没账户? 注册