大语言模型测评规范研讨会成功召开

2023-08-30

2023年8月29日下午,由中国电子信息产业发展研究院、中国软件评测中心(工业和信息化部软件与集成电路促进中心)、人工智能场景化应用与智能系统测评工信部重点实验室、人工智能产业创新联盟举办的大语言模型测评规范研讨会在赛迪大厦成功召开。中国电子信息产业发展研究院副总工程师、人工智能场景化应用与智能系统测评工信部重点实验室主任、人工智能产业创新联盟秘书长安晖,中国软件评测中心总工程师陈渌萍,北京联合大学教授、俄罗斯交通科学院外籍院士程光,北京航空航天大学副教授韦星星,中国科学院自动化研究所副教授钱胜胜,中国科学院信息工程研究所副研究员孟国柱和百度、商汤科技、360集团、科大讯飞等骨干企业代表出席了会议。

会议由中国软件评测中心人工智能研究测评部总经理庄金鑫主持,副主任测评师孙佰鑫分享了国内外大模型测评现状,介绍了大语言模型测评规范编制及相关测试数据集情况。2022年底以来,大模型引发了新一轮人工智能发展热潮,国内相关企业、研究机构、高校迅速行动,密集发布了百余个大模型产品,如何评价大模型功能性能和能力水平成为业界重要议题。中国软件评测中心依托人工智能场景化应用与智能系统测评工信部重点实验室,从通用能力、行业能力、安全能力三大维度50余个细分能力项形成大语言模型测评指标体系,并针对各指标建立了测试数据集。


与会专家、企业代表普遍认为开展大模型测评十分必要,并对大语言模型测评规范和测试数据集进行了充分研讨,从测评权威性特色化、测评能力项权重设置、测试平台化工具化、测评指标(尤其是安全能力方面)颗粒度细化、测试数据丰富度等方面提出了切实可行的意见建议。


下一步,中国软件评测中心将充分吸收相关意见建议,加强与相关专家、企业的沟通协作,修改完善大语言模型测评规范和测试数据集,并开展相关测评工作,支撑和促进大模型健康快速发展。

 

3349381607