Title
您当前的位置: 首页 > > 文章详细
高质量数据集典型案例|中交集团交通基建行业通识类数据集建设与应用
发布时间:2026-01-22

  中交集团交通基建行业通识类数据集建设与应用

  推荐单位:中国交通建设集团有限公司申报单位:中国交通信息科技集团有限公司一、背景在交通基建行业,高质量数据集已成为推动行业智慧化转型升级的重要驱动。中交信科作为中交集团数据集建设的执行者以及交通运输部交通大模型建设牵头单位,在数据集规划治理、质量评测、应用验证、标准建设上具有较高水平,构建了400亿Token高质量行业文本、200万图像文本、60万余条专业问答和30万条交通基建专属思维链数据,支撑交通行业大模型训练应用。

  交通基建行业高质量数据集建设路线

  二、方案和成效一是构建数据集建设应用体系,涵盖数据采集、存储、标准化、清洗、标注、质检、训练验证、运营及对外服务等关键环节,并在过程中形成全流程数据集治理标准规范,为高质量数据集建设应用提供标准指引。二是打造数据集建设应用平台,形成全链条全生命周期的数据集构建工具栈,包括质量评测模块、应用支撑平台、数据集共享服务集市等功能。能够支撑涵盖文本、图像、视频、点云等不同模态的数据集建设、评估及应用,具备支撑高质量数据集跨机构、跨层级、跨区域流通共享。三是训练专属数据处理的质量、隐私、安全判别模型,对文本,图像数据处理过程中的关键环节进行自动化提升。并根据国标规范,对最终形成交通基建通识数据集,围绕文档完整性、质量合规性、场景适用性等3大维度共15项指标开展质量评测。四是完成数据集应用验证,基于该数据集完成交融大模型训练,达到行业问答准确度85%,知识覆盖度75%。模型已上架国资委焕新社区,对外申请制开源。同时基于交融大模型的交通基建认知、推理、生成和交互能力,打造集团级AI应用—交融问之智能助手。并基于模型能力在交通基建领域建管养运100余项场景应用,其行业内表现全面优于主流大模型,已赋能50余家企业。三、创新点一是技术创新,通过自建数据集建设平台,完成自动化清洗、标注等流程的工具链,实现文本、图像、视频等多种类型的数据统一标准化处理;构建专属数据处理的质量、隐私、安全判别模型,对数据处理过程中的关键处理点进行自动处理。二是模式创新,构建数据驱动+业务协同的模式,将行业业务流程与数据处理环节结合,实现数据从采集到应用的全流程闭环管理。三是管理创新,建立完善的数据管理制度和标准化体系,涵盖数据采集、存储、标准化、清洗、标注、质检及训练等关键环节。四是机制创新,构建了一个开放、共享、协作的数据生态系统,鼓励行业内的各方积极参与数据集的建设和应用,建立数据更新和维护的长效机制。

  智能导盲区域指引 ALT+1

  导航区 (0)

  ALT+2

  视窗区 (0)

  ALT+3

  交互区 (0)

  ALT+4

  服务区 (0)

  ALT+5

  列表区 (0)

  ALT+6

  正文区 (0)

  声音 大字幕 帮助 返回 提示:该链接属站外链接,将无法使用辅助浏览工具!是否继续访问? 附件 附件 附件 附件 当前访问页面超出辅助工具操作范围无障碍辅助工具无法正常工作!

上一篇:
高质量数据集典型案例|视联网多行业空间治理数据集
下一篇:
山东金诚石化集团有限公司80万吨/年高端特种油加氢装置扩产改造项目建设用地规划许可批后公示
Title