中国在本土基础设施上训练 1000 亿参数的人工智能模型 - The Register

2024-10-02 02:05:00 英文原文

中国在本土基础设施上训练 1000 亿参数的人工智能模型

研究机构似乎发现华为可能会使用 Arm 内核来做到这一点 - 尽管受到制裁

中国电信的人工智能研究院声称,它仅使用国产计算能力训练了一个 1000 亿参数的模型,这一壮举表明,中央王国实体并未因遏制西方技术向该国出口的制裁而受到巨大干扰。

该模型名为 TeleChat2-115B,根据 9 月 20 日发布的 GitHub 更新,“完全使用国内计算能力进行训练并且开源。”

“开源 TeleChat2-115B 模型是使用 10 万亿个高质量中文和英文语料库进行训练,”该项目的 GitHub 页面指出。

该页面还暗示了中国电信可能如何训练该模型,并提到了与“Ascend Atlas 800T A2 训练服务器”是华为产品,支持鲲鹏 920 7265 或鲲鹏 920 5250 处理器,分别运行 64 核 3.0GHz 和 48 核 2.6GHz。

华为制造这些处理器采用Arm 8.2架构,并按7nm工艺生产。

  • 云计算,中国对抗世界
  • 阿里巴巴倚天710评为最快Arm服务器云中的CPU(目前)
  • 受制裁的俄罗斯公司制造的服务器将采用中国CPU
  • 华为将其云Linux交给中国唯一的开源基金会

在 1000 亿个参数上,TeleChat2 落后于最近的 Llama 模型(显然超过了 4000 亿个参数)或 Open AI 的 o1(据猜测已经接受了 2000 亿个参数的训练)。虽然参数计数本身并不能决定模型的能力或效用,但较低的参数计数表明训练 TeleChat2 所需的计算能力可能比其他项目所需的计算能力要少。

这可能就是为什么我们可以尽管 Ascend 训练服务器有一个非常普通的 GPU,可以驱动 1920 1080、60Hz 和 1600 万种颜色的显示器,但没有找到提及 GPU。

因此,它看起来像是用于训练该模型的基础设施与中国境外可用的钻机类型并不相同,这表明技术出口制裁并没有阻止中国实现其人工智能雄心。

或者它可以通过其他方式实现,例如中国电信规模巨大。该运营商的收入超过 700 亿美元,来自其提供的超过 5 亿有线和无线订阅服务。它也是OpenStack最大的用户和推动者之一。即使无法获得最新、最好的人工智能硬件,中国电信也可以聚集足够的力量。

关于《中国在本土基础设施上训练 1000 亿参数的人工智能模型 - The Register》
暂无评论

摘要

中国在国产基础设施上训练了 1000 亿参数的人工智能模型 研究机构似乎发现华为可能会使用 Arm 核心来做到这一点 - 尽管受到制裁 中国电信的人工智能研究院声称它仅使用国产计算能力训练了 1000 亿参数的模型这一壮举表明,中国实体并没有受到遏制西方技术向该国出口的制裁的巨大干扰。该页面还暗示了中国电信可能如何训练该模型,并提到与“Ascend Atlas 800T A2 训练服务器”的兼容性,华为产品被列为支持鲲鹏 920 7265 或鲲鹏 920 5250 处理器,分别运行 643.0GHz 核心和 2.6GHz 48 核心。或者说它可以通过其他方式实现,比如中国电信的巨大规模。它也是OpenStack最大的用户和推动者之一。即使无法获得最新、最好的人工智能硬件,中国电信也可以聚集足够的力量。