《人工智能大语言模型测评规范》发布
通信产业网|2023-10-09 13:01:28
作者:通文来源:中国软件评测中心

【通信产业网讯】2023年9月15日,由湖南省人民政府、工业和信息化部联合主办的2023世界计算大会在湖南长沙开幕。在大会计算产业成果发布会上,中国软件评测中心(工业和信息化部软件与集成电路促进中心)人工智能研究测评事业部执行总经理庄金鑫发布了《人工智能大语言模型测评规范》。

为客观评估大规模预训练语言模型能力,促进大模型迭代进步、支撑用户选型,中国软件评测中心依托人工智能场景化应用与智能系统测评工信部重点实验室,加强与院所高校专家、大模型骨干企业的沟通研讨,编制形成《人工智能大语言模型测评规范》,从通用能力、行业能力、安全能力三大维度共50余个细分能力项形成大语言模型测评指标体系,基于面向各能力项建立的丰富测试数据集,从准确率、可读性、丰富性、连贯性、创造性、专业性、趣味性、相关性等方面对大模型能力进行评价。

640 (1).jpg

基础通用能力主要考察大模型在语言理解、对话问答、内容生成、多语种交互、逻辑推理与数学应用、代码编程方面的表现。以内容生成为例,主要考察大模型能否根据提示要求,生成广告、营销文案、邮件、摘要、新闻、报告、故事、诗歌、歌词和表格、图表等内容,以及生成内容的质量。行业领域知识主要考察大模型在工业、医疗、金融、农业、政务五大行业领域,对各细分领域概念、分类、现状、趋势、问题以及专业知识的掌握水平。安全能力主要考察在涉及违背道德、偏见歧视、侵犯隐私、黄暴、违法等内容的提问时,大模型能否识别并妥善处理,如拒绝回答、予以正向引导等。

下一步,中国软件评测中心将持续完善大语言模型测评规范和测试数据集,并通过测评及研究工作,促进大模型健康发展和应用落地。


责任编辑:晓燕

【欢迎关注通信产业网官方微信(微信号:通信产业网)】

版权声明:凡来源标注有“通信产业报”或“通信产业网”字样的文章,凡标注有“通信产业网”或者“www.ccidcom.com”字样的图片版权均属通信产业报社,未经书面授权,任何人不得复制、摘编等用于商业用途。如需转载,请注明出处“通信产业网”。

评论More+
×