英语轻松读发新版了,欢迎下载、更新

在印度的争夺中,以寻求人工智能独立

2025-07-04 08:15:07 英文原文

作者:By Shadma Shaikharchive page

在印度的班加罗尔,阿迪西亚·科拉维(Adithya Kolavi)看到DeepSeek今年早些时候在世界上释放了其破坏性的语言模型,这让他感到兴奋和验证。在基准方面,这项中国技术与西方最好的竞争相媲美,但它的资本在较少的时间内的建造却少得多。” 

我想:这就是我们少的破坏方式,'这是印度AI AI创业公司Cognitivelab的20岁创始人Kolavi说。如果DeepSeek可以做到,为什么不呢? 

但是对于Soket AI实验室的创始人,印度最早开发基金会模式的努力之一的建筑师的创始人Abhishek Upperwal,这一时刻感到越来越苦乐。” 

Upperwal的模特称为Pragna-1B,在他看着全球同行筹集数百万美元的同时,他一直在努力维持少量的赠款。多语言模型具有相对较小的12.5亿个参数,旨在减少语言税,这是额外的成本,因为印度与美国甚至中国不同的语言都有多种支持。他的团队已经训练了它,但是有限的资源意味着它不可能。他说,结果,该项目成为概念证明,而不是产品。 

他说,如果我们两年前获得了资助,那么我们很有可能会建立DeepSeek刚刚发布的东西。”

科拉维的热情和上瓦尔的沮丧反映了印度AI建筑商之间的情感。尽管它是全球技术枢纽的地位,但该国在本土AI方面远远落后于美国和中国。这一差距很大程度上是因为印度在研发,机构和发明中长期投资不足。同时,由于大多数人口都没有一种母语,因此培训语言模型比其他地方要复杂得多。” 

印度历史上被称为软件行业的全球后台,拥有一个以服务优先的心态发展的技术生态系统。Infosys和TC等巨人建造了他们的成功有效的软件交付,但发明既没有优先考虑也没有奖励。同时,印度的研发支出仅为2024年的GDP(254亿美元)的0.65%,远远落后于中国2.68%(4762亿美元),而美国的3.5%(9623亿美元)。从算法到芯片的发明和商业化深度技术的肌肉从未建立。

世界一流的研究的孤立口袋确实存在于DRDO(国防研究与发展组织)和ISRO(印度太空研究组织)等政府机构中,但是他们的突破很少溢出到平民或商业用途中。印度缺乏将冒险研究与商业途径联系起来的桥梁,即DARPA在美国的方式。同时,印度的大部分人才都在国外迁移,这些生态系统借鉴了更好地理解和至关重要的深层技术的生态系统。

因此,当开源基础模型DeepSeek-R1突然超过了许多全球同伴时,这引起了神经的影响。中国一家初创公司的推出促使印度决策者面对了该国在AI基础设施中的距离,以及它需要迫切需要做出回应。

印度回应

2025年1月,即DeepSeek-R1的发布后10天,电子和信息技术部(MEITY)为印度自己的基础模型征求了建议,这些建议是大型AI模型,可以适应各种任务。它的公共招标邀请私营部门云和数据中心公司保留GPU计算政府领导的AI研究能力。” 

提供商包括Jio,Yotta,E2E Networks,Tata,AWS合作伙伴和CDAC。通过这种安排,Meity突然以补贴的利率可以使用近19,000 GPU,并从私人基础设施进行了重新使用,并专门分配给了基础AI项目。这引发了想要建立自己的模型的公司的一系列建议。 

在两个星期之内,它手头有67个建议。这个数字在3月中旬之前增加了两倍。 

4月,政府宣布了计划在2025年底之前开发六个大规模模型,再加上18个针对农业,教育和气候行动等领域的AI应用程序。最值得注意的是轻拍Sarvam AI建立针对印度语言和需求优化的700亿参数模型。 

对于一个长期以来受到有限的研究基础设施限制的国家,事情以创纪录的速度移动,这标志着野心,才华和政治意愿的罕见融合。

印度可以在AI中进行Mangalyaan,” IIIT-DELHI的Gautam Shroff说国家的成本效益,成功,火星轨道特派团。 

AI&Beyond的联合创始人Jaspreet Bindra是一个致力于教授AI素养的组织,他抓住了紧迫性:“ DeepSeek可能是印度发生的最好的事情。它给了我们一个背面的踢,以停止说话并开始做某事。

语言问题

该国的语言多样性是为印度建立基础AI模型的最根本挑战之一。印度拥有22种官方语言,数百种方言和数百万的人,他们提出了一个问题,即现有的LLM很少有能力处理。

尽管有大量的高质量网络数据提供英语,但印度语言共同占在线内容的1%。缺乏像Bhojpuri和Kannada这样的语言数字化,标签和清洁数据,因此很难训练LLM,以了解印第安人的实际讲话或搜索方式。

将文本分解为模型可以处理的全球引物器在许多印度脚本,误解角色或完全跳过一些方面的表现也很差。结果,即使印度语言包含在多语言模型中,它们也经常被理解和不准确。

与Openai和DeepSeek不同,使用结构化的英语数据实现了规模,印度团队通常是从零散且低质量的数据集开始,其中包含数十种印度语言。这使得培训基础模型的早期步骤更加复杂。

尽管如此,一小部分但坚定的印度建筑商开始塑造该国的AI未来。

例如,Sarvam AI创建了OpenHathi-Hi-V0.1,这是一种开源印地语模型显示印度AI领域越来越多地解决该国广泛的语言多样性的能力。该模型建立在Meta的Llama 2 Architecture上,接受了400亿个印地语和相关印度语言内容的培训,使其成为迄今为止最大的开源印地语型号之一。

来自上瓦尔的多语言模型Pragna-1b有更多的证据表明印度可以解决出于自己的语言复杂性。它以3000亿个代币的培训仅以25万美元的价格进行了培训,它引入了一种名为“平衡令牌化”的技术,以应对印度AI中的独特挑战,使一个12.5亿参数模型的行为就像是更大的挑战。

问题在于,印度语言使用复杂的脚本和凝集性语法,其中单词是通过使用前缀和后缀将许多较小含义单位串在一起而形成的。与英语不同,它可以用空格分开单词并遵循相对简单的结构,印度语,泰米尔语和卡纳达语等印度语言通常缺乏清晰的单词边界,并将大量信息包装成单个单词。标准的标记者在此类投入方面挣扎。他们最终将印度单词分解成太多的令牌,这会使输入膨​​胀,并且使模型更难有效理解含义或准确地响应。

然而,借助新技术,一十亿个参数模型等同于像拉玛2这样的70亿个参数。”这种表现在印地语和古吉拉特语中尤为明显,由于多语言培训数据有限,全球模型通常表现不佳。提醒您,借助智能工程,小型团队仍然可以突破界限。

Upperwal最终将他的核心技术重新使用,以构建22种印度语言的语音API,这是一种更适合通常不受英语优先AI体验的农村用户的更直接的解决方案。

``如果通往AGI的途径是一个一百步的过程,训练语言模型只是第一步。” 

另一端是具有更大胆目标的初创公司。例如,krutrim-2是120亿参数多语言语言模型针对英语和22种印度语言进行了优化。 

Krutrim-2试图解决印度的语言多样性,低质量数据和成本限制的特定问题。该团队从一开始就建立了一个自定义的指示令牌,优化的培训基础架构,并为多模式和语音优先案例设计了设计模型,在这个文本接口可能是一个问题的国家中,至关重要。

克鲁特里姆(Krutrim)的赌注是,它的方法不仅可以使印度AI主权能够为整个全球南方的AI提供模型。

除了公共资金和计算基础设施外,印度还需要人才的机构支持,研究深度以及产生全球竞争性科学的长途资本。

尽管风险投资仍然犹豫要押注研究,但新实验正在出现。帕拉斯·乔普拉(Paras Chopra),一位以前建造的企业家Software-As-A-Service Company Wingify现在是个人资助LossFunk,旨在吸引对开源科学有品位的独立研究人员。 

Chopra说:“我们在学术界或行业中没有榜样。”因此,我们创建了一个顶级研究人员可以互相学习并具有启动式股权上升空间的空间。

政府支持的主权AI的赌注

印度AI野心最清晰的标记是政府选择Sarvam AI开发了一个专注于印度语言和语音流利的模型。

这个想法是,它不仅可以帮助印度公司在全球AI军备竞赛中竞争,而且也使更广泛的人口受益。•宾德拉说,如果它成为印度堆栈的一部分,您可以通过对话界面进行数亿个教育。” 

萨尔瓦姆(Sarvam)获得了4,096个NVIDIA H100 GPU的访问权限,用于培训六个月内的700亿印度语言模型。(该公司以前发布了一种20亿参数模型,该模型培训了10种印度语言,称为Sarvam-1。)

萨尔瓦姆(Sarvam)的项目和其他项目是一项名为印度特派团(Indiaai Mission)的更大战略的一部分,这是一项耗资12.5亿美元的国家倡议,于2024年3月启动,旨在建立印度的核心AI基础设施,并使高级工具更广泛地访问。在Meity的带领下,该任务专注于支持AI初创公司,尤其是那些以印度语言开发基础模型的人,并将AI应用于医疗保健,教育和农业等关键部门。

在其计算计划下,政府正在部署超过18,000 GPU,包括近13,000个高端H100芯片,向当前包括Sarvam,Upperwal的Soket Soket Labs,包括Sarvam,包括Sarvam的一组精选的印度初创企业,gnani ai, 和甘艾。一个 

该任务还包括计划启动国家多语言数据集存储库,在较小城市建立AI实验室,并资助Deepech R&D。更广泛的目标是为印度开发商提供建立全球竞争性AI所需的基础设施,并确保结果基于印度和全球南方的语言和文化现实。

据印度首席执行官,拥有梅特(Meity)的官员阿比舍克·辛格(Abhishek Singh)表示,印度对深技术的广泛推动预计将在未来五年内筹集约120亿美元的研发投资。” 

这包括大约1.62亿美元通过印度任务,约有3200万美元用于直接启动资金。国家量子任务将贡献另外7.3亿美元,以支持印度在量子研究中的野心。除此之外,2025 - 26年的国家预算文件宣布了一项耗资12亿美元的深技术资金基金,旨在催化私营部门的早期创新。

其余的将近99亿美元,预计将来自私人和国际资源,包括公司研发,风险投资公司,高净值个人,慈善家以及Microsoft等全球技术领导者。” 

Indiaai现在已经收到了来自卫生,治理和农业等领域的初创公司的500多家申请。” 

辛格说:``我们已经宣布了对萨尔瓦姆的支持,而另外10至12家初创公司将仅用于基础模型。”选择标准包括访问培训数据,人才深度,部门拟合和可扩展性。

打开还是关闭?

但是,印度计划并非没有争议。尽管其公共技术根源,但Sarvam还是作为封闭模型而不是开源的模型。这引发了关于私营企业与公共利益之间适当平衡的辩论。 

AI政策专家Amlan Mohanty说,真正的主权应植根于开放和透明度。他指出了DeepSeek-R1,尽管它的参数大小可免费使用。 

它的发布使世界各地的开发人员可以在低成本的GPU上微调它,从而创造了更快的变体并将其功能扩展到非英语应用程序。

埃默里大学信息系统和运营管理助理教授汉查恩·曹说,用有效的推理发布开放重量模型可以使AI民主化。这使得它可由不拥有大量基础设施的开发人员使用。

但是,印度奈对公共资助的模型是否应该是开源的中立立场。” 

辛格说:“我们不想决定商业模式。”印度一直支持开放标准和开源,但这取决于团队。目标是强大的印度模特,无论路线如何

还有其他挑战。5月下旬,萨尔瓦姆(Sarvam)宣布了萨尔瓦姆(Sarvam),这是一种240亿参数的多语言LLM,用于10种印度语言,并建立在Mistralâsmall的顶部,这是法国公司Mismtral AI的有效模型。萨尔瓦姆(Sarvam)的联合创始人维维克·拉格哈万(Vivekâraghavan)称该模型为印度建造主权人工智能的重要垫脚石。但是,其下载数字在最初的两天内只有300个。风险资本家迪迪·达斯(Deedy Das)称发射感到尴尬。

问题超出了不冷不热的早期接待。印度的许多开发人员仍然无法轻松访问GPU,印度语言应用程序应用程序的更广泛的生态系统仍然很新生。 

计算问题

计算稀缺正在成为生成AI中最重要的瓶颈之一,不仅在印度,而且在全球范围内。对于仍然严重依赖进口GPU和缺乏国内制造能力的国家,建造和运行大型模型的成本通常是过于刺激的。” 

印度仍然进口大部分筹码,而不是在国内生产它们,而训练大型型号仍然昂贵。这就是为什么初创企业和研究人员都集中在软件级别的效率上,这些效率涉及较小的模型,更好的推理和微调框架,可在较少的GPU上优化性能。

CAO说:“缺乏基础设施并不意味着没有创新。”支持优化科学是在约束中工作的明智方法。 

然而,印度印第安纳州的辛格认为,由于新的政府计划和私人公共合作伙伴关系,潮流正在跨越基础设施挑战。我相信,在接下来的三个月内,我们将不再面对去年看到的那种计算瓶颈。”

印度也有成本优势。

根据古普塔(Gupta)的说法,在印度建立一个超大数据中心的费用约为500万美元,大约是美国,欧洲或新加坡等市场所需的一半。这要归功于负担得起的土地,较低的建筑和人工成本以及大量熟练的工程师。 

就目前而言,印度的AI野心似乎不太在于跨越Openai或DeepSeek,而更多地是关于战略自决的。无论其方法是采用较小的主权模型,开放生态系统还是公私混合动力车的形式,该国都在押注它可以绘制自己的过程。” 

尽管一些专家认为政府的行动或对DeepSeek的反应是表演性的,并且与其民族主义议程保持一致,但许多初创公司的创始人都充满活力。他们认为,国家与私营部门之间的合作越来越大,这是克服印度在技术创新中长期存在的结构性挑战的真正机会。

在去年在班加罗尔举行的元峰会上,Infosys董事长Nandan Nilekani敦促印度抵制追逐Me-Too AI Dream。 

他说,让山谷中的大男孩做到这一点。我们将使用它来创建综合数据,快速构建小语言模型,并使用适当的数据进行训练。” 

他认为印度应该优先考虑奇观的优先级,受到了分裂的欢迎。但这反映出印度是否应该完全玩不同的比赛的更广泛的共识。

Shobhankita说,试图统治堆栈的每一层也不是现实的,' 雷迪(Reddy)是印度公共政策非营利组织Takshashila机构的研究人员。'统治一层,例如应用程序,服务或人才,因此您仍然是必不可少的。 

更正:我们修改了雷迪的名字

关于《在印度的争夺中,以寻求人工智能独立》的评论


暂无评论

发表评论

摘要

在印度的班加罗尔,Cognitivelab的创始人Adithya Kolavi受到DeepSeek的语言模型的启发,而Soket AI Labs的创始人Abhishek Upperwal感到失望,因为他的项目无法扩大资金,因此无法扩展。这反映了印度AI部门的更广泛挑战:投资不足和有限的研究基础设施。在DeepSeek取得成功之后,印度政府发起了印度赛任务之类的倡议,旨在为AI项目提供资金,旨在旨在为印度的语言多样性量身定制的主权AI模型并解决数据稀缺问题。尽管开源与封闭模型争议,但Sarvam AI等初创公司仍在开发针对印度语言优化的大规模语言模型。目的是创建具有使印度多样化人群受益的全球竞争性AI,同时克服技术和经济挑战。