首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 工信部:要加快急需标准制定,制定发布自动驾驶、数据安全、网络安全等标准|辛国斌|汽车标准
• 腾讯发布QClaw V2大版本:支持多Agent、应用连接器、龙虾管家|知名企业|agent|qclaw|即时通讯工具
• 卡塔尔工业城被炸,霍尔木兹海峡被堵,半导体关键原料价格暴涨超5倍!“市场压力未来几个月都不会缓解”|氦气|氢气
• 腾讯云率先支持Hermes Agent云端快速部署|服务器|知名企业|agent|hermes
• “马克斯·普朗克-中国科学院合成生物化学联合研究中心”在深圳揭牌|深圳市
• “最懂苹果”分析师郭明錤:苹果将停产iPhone 17 Plus|苹果公司|财务会计|财务报表|智能手机|apple|新款iphone