中国电信的人工智能研究院声称,它仅使用国产计算能力训练了一个 1000 亿参数的模型,这一壮举表明,中央王国实体并未因遏制西方技术向该国出口的制裁而受到巨大干扰。
该模型名为 TeleChat2-115B,根据 9 月 20 日发布的 GitHub 更新,“完全使用国内计算能力进行训练并且开源。”
“开源 TeleChat2-115B 模型是使用 10 万亿个高质量中文和英文语料库进行训练,”该项目的 GitHub 页面指出。
该页面还暗示了中国电信可能如何训练该模型,并提到了与“Ascend Atlas 800T A2 训练服务器”是华为产品,支持鲲鹏 920 7265 或鲲鹏 920 5250 处理器,分别运行 64 核 3.0GHz 和 48 核 2.6GHz。
华为制造这些处理器采用Arm 8.2架构,并按7nm工艺生产。
在 1000 亿个参数上,TeleChat2 落后于最近的 Llama 模型(显然超过了 4000 亿个参数)或 Open AI 的 o1(据猜测已经接受了 2000 亿个参数的训练)。虽然参数计数本身并不能决定模型的能力或效用,但较低的参数计数表明训练 TeleChat2 所需的计算能力可能比其他项目所需的计算能力要少。
这可能就是为什么我们可以尽管 Ascend 训练服务器有一个非常普通的 GPU,可以驱动 1920 1080、60Hz 和 1600 万种颜色的显示器,但没有找到提及 GPU。
因此,它看起来像是用于训练该模型的基础设施与中国境外可用的钻机类型并不相同,这表明技术出口制裁并没有阻止中国实现其人工智能雄心。
或者它可以通过其他方式实现,例如中国电信规模巨大。该运营商的收入超过 700 亿美元,来自其提供的超过 5 亿有线和无线订阅服务。它也是OpenStack最大的用户和推动者之一。即使无法获得最新、最好的人工智能硬件,中国电信也可以聚集足够的力量。