【新业务】大模型一体机服务性能和适配性评测工作正式启动-评测中心

关于CSTC

中心简介
资质授权 +

测试资质

认证资质
发展历程
组织架构
专家团队 ×

中心领导

网安中心

信创

软信

认证评估

机器人

制造业数字化转型

赛迪工控

赛迪汽车

大数据

集成电路

人工智能

电子信息通信

质量部

创新发展部

【新业务】大模型一体机服务性能和适配性评测工作正式启动

2025-03-18

一、背景与目的

随着以DeepSeek为代表的国产大模型技术突破性进展，大模型向产业应用转化的进程显著加速。优越大模型破解了企业部署大模型的算力门槛，推动大模型在边缘端、终端的轻量化部署需求激增。为响应政府工作报告“人工智能+”行动号召，规范行业技术标准并保障自主水平，中国软件评测中心依据《大模型一体机服务性能和适配性测试规范》正式启动“大模型一体机服务性能和适配性测试活动”，验证软硬协同一体化能力，为企业提供选型参考，助力金融、医疗、工业等场景安全高效落地。

二、评测内容与标准

（1）功能完备性

代码能力：生成代码的语法正确性、多语言支持能力

数学能力：基础运算、方程求解、高阶数学问题解决能力

翻译能力：多语种互译准确性、专业术语适配性

多轮对话：上下文连贯性、意图理解准确性

（2）性能效率

硬件能力：验证异构算力适配性（如CPU/GPU/NPU协同效率）及资源池化管理能力，确保算力利用率最大化

模型支持：涵盖主流大模型（如DeepSeek、百度文心）的推理与训练性能

首Token延迟（TTFT）：用户请求至首个响应Token的时间

完整回复率：完整回答用户问题的输出占比

截断率：因超长截断导致回答不完整的比例

推理速度：每秒生成思考内容的字数

（3）安全合规性

生成内容安全：符合《生成式AI服务管理暂行办法》

有害内容拦截：暴力、歧视、违法信息过滤效率（拦截率≥99%）

数据安全加密：采用国产加密算法进行加密

（4）用户体验性

支持文件/语音/图片上传、联网控制、上下文清除功能

提供Token数量显示、思考时间可视化等辅助功能

（5）适配性

开源模型适配：测试对DeepSeek-V3/R1、Qwen、GLM-4等开源模型的部署效率，支持轻量化边缘端应用

框架支持：验证与深度学习框架的适配性，测试模型编译、训练和推理全流程兼容性

应用场景适配：测试大模型一体机在特定的应用场景是否适配

三、评测安排

报名时间：即日起开启

首批评测：2025年3月-5月

第二批评测：2025年5月起（滚动受理，按季度发布结果）

四、评测流程

合同签订：双方确认评测需求并签署服务协议

评测实施：

阶段一：功能与性能基线测试

阶段二：安全合规性测试与用户体验性测试

阶段三：适配性测试

结果交付：

提供《技术评测报告》，包含分项得分、风险项清单及优化建议

通过评测的产品颁发《大模型一体机服务性能和适配性认证证书》

五、评级标准

A级（卓越）：综合得分区间在[80,100]；

B级（达标）：综合得分区间在[60,80)；

C级（受限）：综合得分区间在[50,60)；

D级（未通过）：综合得分区间在[0,50]或单项得分低于50分；

六、联系方式

沈老师 18910748987

曹老师 18518203633

关于CSTC

【新业务】大模型一体机服务性能和适配性评测工作正式启动

业务咨询