首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 特朗普政府为英特尔拉订单?有爆料称特斯拉AI6芯片或转移至英特尔|三星|台积电|知名企业|唐纳·川普|特斯拉ai6|特斯拉(公司)
• 中国工程院院士、导弹专家冯煜芳逝世|国防科技大学|航天科技集团
• 国内首台!10MeV超紧凑医用回旋加速器研制成功|同位素|mev|原子能
• 24岁掌管55亿美元!从被OpenAI扫地出门到华尔街投资新王:Leopold的“开挂人生”|基金|疯狂|人工智能|openai|leopold
• 英威腾:入围中央国家机关机房空调框架采购项目
• 无锡将建立一座大规模“Token工厂”|无锡市|知名企业|token