谷歌 DeepMind 研究人员推出 InfAlign:用于推理感知语言模型对齐的机器学习框架
2025-01-02 07:32:26
谷歌 DeepMind 和谷歌研究院的研究人员推出了 InfAlign,这是一个旨在将生成语言模型与推理感知策略(例如 Best-of-N 采样和 Worst-of-N 安全评估)相结合的框架。InfAlign 使用校准强化学习 (CTRL) 根据特定解码方法调整奖励函数,从而提高模型在实际应用中的性能和可靠性。与现有方法相比,InfAlign 使用 Anthropic 数据集,Best-of-N 安全评估的获胜率提高了 8-12%,Worst-of-N 安全评估提高了 4-9%。该框架弥合了培训目标和实际使用之间的差距,增强了人工智能系统与不同应用的一致性。