Title
您当前的位置: 首页 > > 文章详细
“数据工厂”系列之五:数据工厂的建设、运营和部署(上)
发布时间:2026-01-19

  (来源:呼和浩特市大数据管理局)

  正如工业社会水有水厂、电有电厂,数据工厂正在成为数字社会的一种新兴生产业态。数据工厂是国家数据基础设施的基本构成单元,是高质量数据集规模化生产的重要设施,也是数据产业的创新载体。过去一年,随着人工智能的蓬勃发展,对高质量数据的需求爆发式增长,国内外许多机构在数据工厂建设和运营方面开展了大量探索,积累了一定经验。在长期跟踪研究基础上,《交大评论》和京数智科技将联合刊出6期“数据工厂”系列研究文章,系统阐释发展数据工厂的背景、意义和现状,数据工厂的构成、作用和特点,以及数据工厂的部署、建设和运营等。

  系列研究文章为:

  1.

  2.

  3.

  4.

  5.“数据工厂”系列之五:数据工厂的建设、运营和部署(上)

  6.“数据工厂”系列之六:数据工厂的建设、运营和部署(下)

  第五期和第六期是系列研究的重点:《数据工厂的建设、运营和部署》,分上下两篇,主要介绍数据工厂的类型、建设和运营模式,以及国家数据基础设施的层级架构和数据工厂的部署策略,以及本期为第五期(上篇),重点介绍数据工厂的类型、建设和运营模式。

  一、数据工厂的不同类型

  根据物理分布、组织方式和技术水平等特征,数据工厂可以分为集中式数据工厂、半集中式数据工厂和分布式数据工厂等三种不同类型,数据工厂的三种形式特点各异、各有优势,并将在今后很长一段时间内长期共存。

  (一)集中式数据工厂

  集中式数据工厂是指将“供应-生产-交付”等数据加工生产全过程,都集中在一个固定物理区域内的数据生产业态。集中式数据工厂最大的特点就是“物理集中”,即数据资源集中供给、数据生产集中加工、数据产品集中交付。集中式数据工厂是未来五年之内数据工厂的主流方式之一。本系列研究之二例举的美国星际之门、欧洲数据中心、帕西尼具身智能超级数据工厂、库帕思语料超级工厂、贵州主枢纽存力中心数据要素保障基地等都是典型的集中式数据工厂。

  (二)半集中式数据工厂

  半集中式数据工厂是指采用相对一致的技术、工具、平台和方法,在不同区域开展不同行业领域、不同应用场景的数据规模化生产方式。半集中式数据工厂最大的特点就是“技术平台统一、加工场所分散”,即,将相对统一的技术平台部署在不同区域,生产不同场景应用需求的高质量数据集。半集中式数据工厂是我国数据工厂发展的重点方向,将在未来五年实现爆发式增长,大量专业的数据标注公司和人工智能企业都将开发数据工厂的统一技术平台,并在全国多区域布局建设,当前的国家数据标注基地也将向半集中式数据工厂转型升级。本系列研究之二例举的美国ScaleAI就是典型的半集中式数据工厂。

  (三)分布式数据工厂

  分布式数据工厂是指数据的“供应-生产-交付”等加工生产全过程分布在一个广泛、分散的网络空间内,原始数据不需要汇聚在一个集中场所,数据加工也不需要集中在一个物理空间,而是通过数据虚拟化和连接器框架等数据编织技术,将分散在不同区域的数据库、数据仓、数据湖中的数据连接在一起,并将查询转换为源系统能够理解的语言,在数据原地进行处理,只将结果返回给平台,形成“逻辑统一,物理解耦”的分布式数据加工生产业态。分布式数据工厂不需要将原始数据移出其原先的数据库仓,可以完全实现“原始数据不出域,数据可用不可见”的数据资源开发利用,特别适用于国防、金融、医疗、交通等安全要求极高行业的高质量数据集生产加工。分布式数据工厂是数据工厂发展的必然发展方向,将在未来五年的技术突破中实现快速增长,许多技术创新创业型企业将持续突破数据编织、数据虚拟化、数据连接框架等数据前沿技术,越来越多的政府机关、国有企事业单位、大型龙头行业企业等将采用分布式数据工厂模式,既能实现数据的高价值加工流通,又能确保对原始数据的控制权。本系列研究之二例举的美国Palantir就是典型的分布式数据工厂。

  二、数据工厂的建设模式

  根据建设主体的原有基础和条件,数据工厂可以通过数据标注企业升级、数据存储基地转型、人工智能企业延伸和技术企业创新设立等四种模式建设。

  (一)数据标注企业升级

  现状基础:数据标注企业是指通过对图像、语音、文本等原始数据进行筛选、清洗、分类、注释和质检等处理,生成高质量数据集,以支持人工智能模型训练和应用的企业。当前我国已形成以海天瑞声、数据堂、澳鹏、景联文科技、菲利信科技、淘丁、龙猫数据、标贝科技等为代表的一大批专门提供数据标注服务的数据标注企业,并正在建设四川成都、辽宁沈阳、安徽合肥、湖南长沙、海南海口、河北保定、山西大同等七个国家数据标注产业基地,在推进数据要素化价值化和人工智能水平提升方面发挥了巨大作用。但是,当前这些企业普遍存在自动化程度低、设施化程度差、低端外包业务占比大、数据标注质量低、企业规模小、不能规模化生产高质量数据集,不能满足高端需求等方面的突出问题,急需通过技术改造和规模提升,从零散式、手工化、个性化、低端化的劳动密集型数据标注企业转型升级为规模化、智能化、通用化、高端化的数据工厂。

  建设方式:国家层面和有条件的省市应设立半集中式数据工厂建设和改造项目,支持海天瑞声、数据堂、澳鹏、景联文科技等传统数据标注龙头企业,积极加大数据资源储备、数据生产加工、数据中试验证等方面科技投入和技术创新,尽快实现从数据标注企业到数据工厂的跃迁。推动国家数据标注产业基地的七个城市建设半集中式数据工厂,一方面应加快数据加工生产环节的技术改造和公共服务平台升级,另一方面要向上下游产业链延伸拓展,在上游加大数据资源汇集储备力度,下游拓展人工智能大模型训练和各行各业应用。支持新设高端化、智能化、设施化的半集中式数据工厂,逐步淘汰低端化、手工化、定制化的作坊式数据标注业态。

  (二)数据存储基地转型

  现状基础:数据存储基地或大型数据中心是指以“八大枢纽十大集群”和华为、曙光、浪潮、易华录等企业分布在全国各地的的大量存储基地、数据中心、算力中心等。当前这些存储基地普遍存在“有存储无数据、有数据无加工”的现象,存储设备、算力设备和数据资源闲置的情况也都不同程度存在,导致这些存储基地和数据中心业务层级低、经营困难。究其原因,一方面由于这些储备设备、算力设备和数据资源分属于不同的经营主体,协同运营有一定难度,另一方面高质量数据集应用未形成有效市场,付费使用数据的市场还在形成过程中。在当前人工智能大模型和智能体应用对高质量数据集需求迫切的形势下,应充分发挥这些存储基地和数据中心已部署大量的存储设备、积累海量高价值数据资源、拥有超强的算力配置等显著优势,推动转型升级为集中式数据工厂新业态。

  建设方式:采用存储(算力)厂商与数据源机构合作共建方式。即存储厂商和算力厂商提供数据工厂加工处理技术,数据源机构提供数据资源,合作共建集中式数据工厂,将长期存放在存储基地或数据中心的静态原始数据,加工成能为人工智能大模型训练应用的高质量数据集。

  (三)人工智能企业延伸

  现状基础:据京数智科技统计,当前我国人工智能企业已达到6000多家,人工智能产业规模已突破9000亿元,并占据了全球10大开源大模型企业的8席,特别是涌现出一批以Deepseek、Kimi、文兴、豆包等为代表的一大批全球领先的大模型企业,这些人工智能企业拥有最领先的数据采集汇聚、加工处理、清洗标注等方面的技术,拥有最完善的数据资源储备、数据生产加工、数据中试验证等数据工厂产业链。但是,这些企业的数据生产加工和清洗标注都是“作坊式”生产,其生产的高质量数据集都是为自已的大模型训练服务,而即使像银河通用等在探索面向全行业提供高质量数据集时,也很少有人问津。当前,急需支持和鼓励人工智能企业探索发展独立的数据业务。

  建设方式:采取项目支持、资金补助等多种政策措施,在全社会培育出付费使用数据的意识和氛围;支持百度、抖音、腾讯、阿里等人工智能头部企业大力发展数据业务,建设独立运营的半集中式数据工厂,形成企业的第二业务增长曲线。鼓励人工智能头部企业与地方数据标注基地合作,建设技术先进、产品丰富、应用广泛的半集中式区域数据工厂。鼓励人工智能头部企业与行业数据标注“链主”单位合作,打造行业特色鲜明、行业数据源供应充沛、数据加工处理技术先进、行业应用场景丰富的半集中式行业数据工厂。

  (四)技术企业创新设立

  现状基础:数据工厂作为国家数据基础设施的一种新型基本业态,主要任务就是要将因涉隐涉密而无法流通的私域数据,采用“原始数据不出域,数据可用不可见”的技术手段和方法,加工成可供人工智能大模型训练、微调和推理等应用的高质量数据集。但是,由于当前数据安全流通技术还不成熟,既能让数据大规模流通又能确保数据安全的数据安全可信流通环境还不健全,导致原始数据供给量不大,数据质量不高,加工生产出的高质量数据集不能满足人工智能大模型的需求。从全球范围看,Palantir公司创新数据虚拟化和连接器框架等数据编织技术,将分散在不同区域的数据库、数据仓、数据湖中的数据连接在一起,并将查询转换为源系统能够理解的语言,在数据原地进行处理,只将结果返回给平台,形成“逻辑统一,物理解耦”的分布式数据加工生产业态。正如Palantir 公司CEO Alex Karp所言:“我们不是在提供一套工具,而是在构建一个数字时代的基础设施。”当前,我国也迫切需要出现一批像Palantir的技术创新型公司,通过技术突破构建一种分布式数据工厂新型业态。

  建设方式:在国家科技计划、国家自然科学基金、国家数据重点实验室、国家数据协同创新中心等国家级重点项目和计划中,将数据编织、数据虚拟化、增强型连接器框架等前沿数据技术列为重点攻关计划,聚集全社会力量开展创新性研发,特别鼓励高等院校和科研机构的数据领域学术带头人领衔开展相关研发工作;鼓励华为、阿里、腾讯等科技投入较的大龙头企业,将数据编织技术作为公司重点开发方向;支持各类基金增加对数据安全流通技术的投资力度;在国防、金融、医疗、交通等重点行业各选择一批部门开展先行先试点示范,在数据编织、数据虚拟化、增强型连接器框架等数据安全流通技术持续迭代的基础上,建设各行业的分布式数据工厂。

  三、数据工厂的运营机制

  数据工厂应根据不同类型和不同建设模式,采用不同的运营机制。特别是要根据数据供给方式和数据工厂建设的市场化程度差异,引导数据工厂建设主体面向人工智能大模型和各行各业的应用需求,探索数据资源供应充沛、数据集生产集约高效、数据集市场一体化互联的数据工厂运营模式。今后较长一段时间,数据工厂将采用保障模式、定制模式、电商模式和结对子模式等四种不同的运营模式。

  (一)保障模式

  针对国家重大战略需求,数据工厂应采用“保障模式”运营。在数据资源供给端,国家数据资源战略储备库或各行业各部门控制的重要数据资源应以市场方式无条件向数据工厂提供,数据工厂生产的高质量数据集应向国家人工智能训练场和人工智能行业应用基地等有条件无偿开放。在前述的四种数据工厂建设模式中,数据存储基地转型的数据工厂建设模式应采用“保障模式”开展运营,国家应通过中央预算内资金和“两重两新”等财政资金予以重点支持。

  (二)定制模式

  针对社会公益、技术创新需求,数据工厂应采用“定制模式”运营。在数据资源供给端,国家数据资源战略储备库或各行业各部门控制的重要数据资源应按需求有条件向数据工厂提供,数据工厂生产的高质量数据集应按照社会公益和技术创新需求定向开放。在前述的四种数据工厂建设模式中,技术企业创新设立的数据工厂建设模式应采用“定制模式”开展运营,国家应通过国家科技计划、国家自然科学基金、国家数据重点实验室、国家数据协同创新中心等国家级重点项目和计划予以支持。

  (三)电商模式

  针对数据成熟度较高、市场化基础较好的重点行业和地方需求,数据工厂应采用“电商模式”运营。国家数据资源战略储备库或各行业各部门控制的重要数据资源,应按通过有条件开放或公共数据授权运营等方式向数据工厂提供,数据工厂生产的高质量数据集按照市场规则向全社会开放。在前述的四种数据工厂建设模式中,通过数据标注企业升级和人工智能企业延伸形成的数据工厂建设模式应采用“电商模式”开展运营,国家层面应通过数据基础设施建设、高质量数据集建设工程、数据产业集聚区、数字化转型应用等重大应用工程项目予以支持,有条件的地方和行业应通过建设数据工厂公共服务平台、优化重要数据资源供给流程、开放更多有价值应用场景等方式,吸引数据标注企业和人工智能企业在本地区设立数据工厂。

  (四)结对子模式

  针对数据资源禀赋较好,但需要长期开发的智慧医疗、智能驾驶、智能工厂等重点领域和地方,数据工厂应采用“结对子模式”运营。应引导行业龙头企业、大模型企业和数字化解决方案提供商形成良性循环,国家数据资源战略储备库或各行业各部门控制的重要数据资源,应按通过有条件开放或公共数据授权运营等方式向数据工厂优先提供,数据工厂生产的高质量数据集应面向领域和地方应用需求有偿定向供给。在前述的所有四种数据工厂建设模式中,所有发展前景较好,但当前技术、应用、政策等方面还不成熟的行业和地方,都可以探索采用这种模式开展运营。鼓励各地方开展技术创新和机制创新,培育和支持行业龙头企业、大模型企业、数字化解决方案提供商,特别是本地数据企业发展壮大,建设形成本行业地区“结对子”模式的数据工厂。

  作者:

  张茜茜:北京物资学院计算机与人工智能学院副教授

上一篇:
荣耀500系列新增4K超清实况照片 小红书支持无损直出
下一篇:
中国电子技术标准化研究院:2025知识图谱与大模型融合实践案例集
Title