【新业务】大模型一体机服务性能和适配性评测工作正式启动

2025-03-18

一、背景与目的

随着以DeepSeek为代表的国产大模型技术突破性进展,大模型向产业应用转化的进程显著加速。优越大模型破解了企业部署大模型的算力门槛,推动大模型在边缘端、终端的轻量化部署需求激增。为响应政府工作报告“人工智能+”行动号召,规范行业技术标准并保障自主水平,中国软件评测中心依据《大模型一体机服务性能和适配性测试规范》正式启动“大模型一体机服务性能和适配性测试活动”,验证软硬协同一体化能力,为企业提供选型参考,助力金融、医疗、工业等场景安全高效落地。

二、评测内容与标准

(1)功能完备性

代码能力:生成代码的语法正确性、多语言支持能力

数学能力:基础运算、方程求解、高阶数学问题解决能力

翻译能力:多语种互译准确性、专业术语适配性

多轮对话:上下文连贯性、意图理解准确性

(2)性能效率

硬件能力:验证异构算力适配性(如CPU/GPU/NPU协同效率)及资源池化管理能力,确保算力利用率最大化

模型支持:涵盖主流大模型(如DeepSeek、百度文心)的推理与训练性能

首Token延迟(TTFT):用户请求至首个响应Token的时间

完整回复率:完整回答用户问题的输出占比

截断率:因超长截断导致回答不完整的比例

推理速度:每秒生成思考内容的字数

(3)安全合规性

生成内容安全:符合《生成式AI服务管理暂行办法》

有害内容拦截:暴力、歧视、违法信息过滤效率(拦截率≥99%)

数据安全加密:采用国产加密算法进行加密

(4)用户体验性

支持文件/语音/图片上传、联网控制、上下文清除功能

提供Token数量显示、思考时间可视化等辅助功能

(5)适配性

开源模型适配:测试对DeepSeek-V3/R1、Qwen、GLM-4等开源模型的部署效率,支持轻量化边缘端应用

框架支持:验证与深度学习框架的适配性,测试模型编译、训练和推理全流程兼容性

应用场景适配:测试大模型一体机在特定的应用场景是否适配

三、评测安排

报名时间:即日起开启

首批评测:2025年3月-5月

第二批评测:2025年5月起(滚动受理,按季度发布结果)

四、评测流程

合同签订:双方确认评测需求并签署服务协议

评测实施:

阶段一:功能与性能基线测试

阶段二:安全合规性测试与用户体验性测试

阶段三:适配性测试

结果交付:

提供《技术评测报告》,包含分项得分、风险项清单及优化建议

通过评测的产品颁发《大模型一体机服务性能和适配性认证证书》

五、评级标准

A级(卓越):综合得分区间在[80,100];

B级(达标):综合得分区间在[60,80);

C级(受限):综合得分区间在[50,60);

D级(未通过):综合得分区间在[0,50]或单项得分低于50分;

六、联系方式

沈老师 18910748987

曹老师 18518203633

3349381607