添加内容 ,这些投资主要用于开发智能系统,训练人工智能代理并优化其在不同环境中的表现。
领先的人工智能实验室对强化学习 (RL) 环境的需求日益增长,以训练出更强大的人工智能代理,这推动了 Mechanize Work 和 Prime Intellect 等旨在提供此类环境的初创公司的涌现。投资者和 Scale AI、Surge 和 Mercor 等主要数据标注公司也在将资源转向构建这些模拟训练场,据报道,Anthropic 计划在未来一年投资 10 亿美元用于强化学习环境。虽然强化学习环境对于突破人工智能目前的局限性至关重要,但一些专家也对其可扩展性挑战以及奖励黑客攻击等潜在问题提出了警告。

