作者:Ryan Daws
已经扩展了其开源户外AI模型的家族,这些模型足够广泛地使用。这个新的模型家族旨在在计算环境中提供强大的性能,从小边缘设备到苛刻的高电流生产系统。
该版本包括开发人员平台上可用的一套全面的预训练和指导调节的模型拥抱脸。这些模型有几种尺寸,特别是参数量表为0.5b,1.8b,4b和7b,为开发人员和企业提供了很大的灵活性。
Tencent表示,这些模型是使用类似于其功能更强大的Hunyuan-A13B模型的培训策略开发的,从而使其可以继承其性能特征。这种方法使用户可以为其需求选择最佳模型,无论是用于资源受限的边缘计算的较小变体还是用于高通量生产工作负载的较大模型,同时确保了强大的功能。
Hunyuan系列中最著名的功能之一是其对超长256K上下文窗口的本机支持。这使模型可以在长篇文本任务上处理和保持稳定的性能,复杂文档分析的重要能力,扩展对话和深入的内容生成。这些模型支持了腾讯所谓的混合推理,它允许用户可以根据其特定要求在用户选择的快速和缓慢的思维模式。
该公司还非常重视代理能力。这些模型已针对基于代理的任务进行了优化,并在诸如BFCL-V3,-BENCH和C3 BENC的既定基准方面证明了领先的结果,这表明对复杂的多步问题解决方案具有很高的熟练程度。例如,在C3板凳上,Hunyuan-7b-Instruct模型的得分为68.5,而Hunyuan-4B-Instruct模型得分为64.3。
该系列的表现专注于有效推断。Tencent的Hunyuan模型利用了分组的查询注意(GQA),该技术以提高处理速度和降低计算开销而闻名。高级定量支持进一步提高了这种效率,这是霍尔尤恩体系结构的关键要素,旨在降低部署障碍。
Tencent开发了自己的压缩工具集Angleslim,以创建一个更具用户友好和有效的模型压缩解决方案。使用此工具,该公司为Hunyuan系列提供了两种主要定量类型。
第一个是FP8静态定量,它采用了8位浮点格式。该方法使用少量的校准数据来预先确定定量量表,而无需完整的重新训练,将模型权重和激活值转换为FP8格式以提高推理效率。
第二种方法是INT4定量,该定量通过GPTQ和AWQ算法实现W4A16的定量:这GPTQ
开发人员可以自己使用Angleslim工具,也可以直接下载预量化模型。
性能基准确认了跨多个任务的Tencent Hunyuan模型的强大功能。例如,预先训练的Hunyuan-7b模型在MMLU基准上获得79.82,GSM8K上的88.25和74.85在数学基准上获得了74.85,表明了良好的推理和数学技能。
指导调整的变体在专业领域显示出令人印象深刻的结果。在数学中,Aime 2024基准的Hunyuan-7b-Instruct模型在AIME 2024基准上得分为81.1,而4B版本得分为78.3。在科学中,7b模型在奥林匹替顿山脉上达到76.5,在编码中,它在livecodebench上得分为42。
ð我们将使用四种紧凑型型号(0.5b,1.8b,4b,7b)扩展腾讯Hunyuan开源LLM生态系统!这些型号专为消费级GPU,智能家用设备,手机和PC等低功耗方案而设计,这些型号支持具有成本效益的微调!pic.twitter.com/cknskvqpem
hunyuan(@tencenthunyuan)2025年8月4日
定量基准显示出最小的性能退化。在Drop-Benchmark上,Hunyuan-7b-Instruct模型的基础B16格式为85.9,带有FP8的86.0和INT4 GPTQ的85.7,表明效率提高并不是准确的成本。
对于部署,Tencent建议使用诸如Tensorrt-Llm,VLLM或Sglang之类的既定框架为Hunyuan型号提供服务,并创建与OpenAI兼容的API端点,以确保它们可以平稳地集成到现有的开发工作流程中。性能,效率和部署灵活性的这种结合使Hunyuan系列是开源AI中持续强大的竞争者。
参见:Deep Cogito V2:开源AI,授予其推理技能
想从行业领导者那里了解有关AI和大数据的更多信息吗?查看AI和大数据博览会在阿姆斯特丹,加利福尼亚和伦敦举行。综合事件与其他领先活动共同分居,包括智能自动化会议,,,,块,,,,数字转换周, 和网络安全和云博览会。
探索由Techforge提供支持的其他即将举行的企业技术活动和网络研讨会这里。