本文件规定了焊接大语言模型(welding large language model,Weld LLM)的评价原则、评价维度与指标体系、数据集构建方法、评测流程、评分与等级划分方法、检验记录要求,并提供了评价报告格式。
本文件适用于以自然语言处理为核心的焊接大语言模型的评价,包括通用型大语言模型在焊接领域的能力评估,以及面向焊接领域开发的专用大语言模型性能测试与验证。
本文件不适用于对非自然语言处理类的焊接人工智能系统(如基于规则的专家系统、单纯的图像识别算法)的独立评价,但可为此类系统与LLM 融合后的整体性能评估提供参考。