DeepSeek-V3 的Q4_k_m 量化版本下载!
2025-01-05
2 次阅读
会员专享
DeepSeek-V3 是由国人工智能公司DeepSeek开发的最新开源大型语言模型(LLM),于2024年12月发布。该模型采用了混合专家(Mixture-of-Experts,MoE)架构,拥有总计6710亿参数,每个token激活其中的370亿参数。在性能方面,DeepSeek-V3在多项基准测试中表现出色,超越了Llama 3.1和Qwen 2.5等模型,并与GPT-4o和Claude 3.5 Sonnet等先进的闭源模型相媲美。以下是DeepSeek-V3与一些同类模型(如Llama 3.1、GPT-4、Claude 3.5 Sonnet、Qwen 2.5等)的参数对比表:模型名称总参数量激活参数量架构推理速度训练成本发布时间DeepSeek-V36710亿370亿混合专家(MoE)60 tokens/s$5.58M2024年12月Llama 3.13200亿3200亿Transformer25 tokens/s未公开2024年11月GPT-4o1万亿1万亿Transformer15 tokens/s超过$100M2024年6月Claude 3.58500亿8500亿Tran...
🔒
登录后继续阅读
登录账号即可免费阅读本文
立即登录
还没账户? 注册
show = false, 3000)"
x-show="show" x-cloak x-transition
class="fixed top-20 right-4 z-50">