首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

阿里通义实验室智能计算团队推出新算法FIPO|fipo

4月7日,阿里通义实验室智能计算团队宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL机制,奖励关键Token,解决纯强化学习(Pure RL)训练中“推理长度停滞”难题。据该团队介绍,在32B规模的纯RL设定下,率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

📚 相关阅读

• 纽泰格:尚未有相关产品给机器人公司送样验证
• 脑机接口驶入临床转化快车道,业内坦言“能研发不等于能上市”,标准缺失、算力分散等问题待解|孙昊|信号|脑电|脊髓|电刺激
• AI早报|阿里AI视频大模型HappyHorse预计一周后对外发布;亚马逊考虑向其他公司出售其人工智能芯片|谷歌|英特尔|机器人|阿里ai|知名企业|亚马逊公司|阿里巴巴集团
• OpenAI老板做的全民发钱实验,结果出来了!|马蒂诺|奥巴马|丹尼尔|年收入|openai
• MiniMax发布新一代音乐生成 模型Music 2.6|music|minimax
• 我国AI大模型周调用量连续五周超越美国,科创AIETF博时(588790)强势涨超2%|基金|科创aietf