首页 国内 国际 社会 军事 科技 财经 体育 娱乐
首页 采集科技文章 返回首页

通义实验室推出通用智能体评测基准PawBench|人工智能模型|pawbench

6月5日,通义实验室推出评测基准PawBench,v1.0版本已开源。它面向个人助理与通用智能体场景,将底座模型与运行框架(Harness)纳入同一评测体系。据介绍,PawBench不是单纯做一个模型排行榜,而是把“模型、Harness、任务”三者放在一起做交叉评测。

📚 相关阅读

• 人形机器人量产稳步推进,机器人ETF易方达(159530)一键打包人形机器人本体与零部件厂商|易方达基金|核心零部件
• 新能源车涨价潮开启价值竞争,高流动性的新能源ETF南方(516160)有望受益全产业链发展机遇|中证|比亚迪|权重股|知名企业|新能源etf南方
• ARR季度大涨300% 迅策“场景Token”定价10-100美元/百万Token|调用|arr|token
• Anthropic完成650亿美元融资,投后估值近万亿美元|红杉资本|互联网巨头|人工智能公司|openai|anthropic
• AI早报 | 千问AI眼镜S1推出空间3D显示能力;OpenAI推出“可信联系人”安全功能|谷歌|英伟达|服务器|人工智能|知名企业|openai|千问ai眼镜
• 深圳“细胞十条”发布 推动细胞与基因产业提速发展|肿瘤|治疗|遗传病|免疫性疾病