首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 航天事业再创辉煌空间站建设稳步推进
• 韩国5月汽车出口、内销和产量同比齐降,新能源汽车表现稳健
• 从“流量营销”到“诊疗辅助” ,业内呼吁关注AI医美数据安全和有效性|AI重塑医疗|新氧|算法
• 全球AI大模型周调用量连跌两周后小幅回升,Kimi K2.6位居榜首,小米MiMo-V2-Pro跌出榜单|kimi|mimo|小米集团|知名企业|token|ai大模型
• 智元发布机器人应用部署平台Genie Studio Agent|真实场景|agent|genie|studio
• “闪电”完成2026人形机器人半马|冲线|半程马拉松