今天是:2024年06月15日 星期六     欢迎光临四川省自贡市大安区《大安》
设为主页 加入收藏    
站内搜索:
首页 > 杂志阅读>>《大安》2024年第4期>>工作探索
如何利用数据标注产业撬开数字经济大门
发布时间:2024-04-30 13:23:22       作者:李青洪 毛志强 周政       来源:区委办

大安区委办公室副主任 李青洪

大安区委办副科级干部 毛志强

大安区委办公室工作人员 周政

 

党的十八大以来,党中央高度重视发展数字经济,将其上升为国家战略。20215月,《全国一体化大数据中心协同创新体系算力枢纽实施方案》中,“东数西算”工程被首次提出。2022年,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发通知,明确成渝等8地启动建设国家算力枢纽节点,建设天府集群、重庆集群等10个国家数据中心集群。中央经济工作会议强调“要大力推进新型工业化,发展数字经济,加快推动人工智能发展”。相继召开的全国、全省、全市推进新型工业化会议把“智改数转”摆在突出位置,彰显了党中央和省委、市委对数字经济的高度重视。为找到一条适合大安数字经济发展的有效路径,调研组开展了一次深入调研,现将有关情况报告如下。

一、基本情况

(一)数据标注的定义。数据标注是人工智能数据生产(设计、采集、加工、质检)中最重要的加工环节,对收集或现存的大量原始数据进行分类、画框、标注、注释等处理,用于人工智能算法的研发与训练,被公认为人工智能算法的“燃料”。常见的数据标注按照数据类型可以分为图像标注、文本标注及语音标注,业务需求方一般以AI企业、科研公司、行业企业、科研单位为主。其中,图像标注主要应用于智能驾驶和工业自动化,文本标注主要应用于ChatGPT、文心一言等人工智能大模型,语音标注主要应用于人机交互、虚拟现实等领域。

(二)数据标注产业发展现状和趋势。目前数据标注企业按参与模式,主要分为众包平台和专业数据标注公司两种模式(京东众智、百度众测、阿里数据标注、数据堂等属于众包平台,Testin云测、龙猫数据等属于专业数据公司)。相较而言,众包平台由于其母公司IP效应,更容易通过发布业务的模式聚集众多中小企业,打造规模化的数据标注基地。以百度为例,百度智能云在全国已建设包括自贡在内的十余个专业数据标注基地。专业数据标注公司也在纷纷布局,共逐数据“新蓝海”。据国际数据公司(IDC)测算,2023年中国人工智能基础数据服务市场规模超过70亿元,并将在2025年突破120亿元,20192025年年均复合增长率(CAGR)约为47%。随着一线城市较高的运营成本和有限的发展空间,处于产业链下游的数据标注产业将逐步向周边三四线城市外溢,为大安做大做强数据标注产业带来了新机遇。

(三)数据标注产业的短板和挑战。一方面,单一数据标注产业对地方经济带动作用有限。数据标注作为人工智能产业的“敲门砖”,处于产业链下游,属于劳动密集型的基础业务,产值与从业数量线性相关,难以有质的飞跃。例如,目前国内较大的几个数据标注基地中,青岛数字贸易港数字服务基地拥有1000名员工,产值1亿元左右;百度山西数据标注基地拥有5000余名员工,产值6亿元左右;宜昌华中人工智能数据标注中心拥有2000名员工,预计产值7亿元左右。另一方面,数据标注产业变革周期短带来不确定性。随着AI辅助标注、自动化数据标注兴起,纯人工标注在效率和成本上的优势将很快消失,低端从业人员数量将面临削减。苏黎世大学研究发现,ChatGPT平均每个标注成本低于0.003美元,比众包平台便宜20倍;理想汽车董事长兼CEO李想在20234月份举行的一场论坛上表示,理想汽车使用软件2.0大模型,通过训练的方式进行自动化标定,效率是人的1000倍。

二、解析国内先进地区经验

山西省太原市2018年同百度智能云达成合作,在太原共建百度(山西)人工智能基础数据产业基地,并随后由省市两级分别出台了促进数字经济发展的系列实施意见。截至20239月,已引进各类企业150余家,拥有5000余名数据标注师,吸引华为鲲鹏云、字节跳动、阿里云等优质数据标注企业入驻,其中16家被评为国家级科技型中小企业,11家被评为国家级高新技术企业,2家被评为省级“专精特新”企业,累计产值超6亿元。目前太原市周边已建设晋中、阳泉、运城、长治等多个分布式基地。其中,阳泉落户百度云计算(阳泉)中心,成功打造山西首家地市级智慧能源数据中心,成为全国首个全域开放自动驾驶的地级市。

湖北省宜昌市依托充沛的水电资源和水冷散热条件,打造三峡(宜昌)大数据产业园,投资55亿元建设标准机柜规模10万架的三峡东岳庙数据中心,投资30.2亿元建设500P混合算力的国家先进计算产业创新(宜昌)中心项目,已建成升哲科技50P百度人工智能等一批数据和算力中心,吸引阿里巴巴、中国电信、奇安信等26家企业入驻。园区的华中人工智能数据产业中心一期已投入运营并已招募2000人标注团队,预计最终将形成2万人规模的华中地区最大、全国精度最高、标注门类最全的数据标注基地。

海南省海口市与百度合作,20234月建成百度智能云(海口)人工智能基础数据产业基地,是国内首个大模型数据标注中心,预计三到五年内突破5000人规模。与传统人工智能场景下基于客观规则的数据标注形式不同,文心一言和ChatGPT等大模型标注基于偏主观的标注规则,通过排序、打分、评估、多轮对话、内容生成等形式完成问答、对话和专业领域的问答和对话等标注内容。

三、纵观全省数字经济发展格局

2022年,四川省发展和改革委员会等6部门印发《全国一体化算力网络成渝国家枢纽节点(四川)实施方案》,提出天府数据中心集群先期在成都市双流区、郫都区、简阳市建设起步区,在绵阳市、德阳市、雅安市、宜宾市、达州市,适度建设若干3000机架以下的城市内部数据中心。

德阳市在旌阳区建设32平方公里核心区的“天府数谷”,以能容纳10万台服务器的云上天府智算中心为核心,招引落地云上天府大数据产业园、万石控股“德阳数字科创城”、光大特斯联AI CITY58同城未来产业学院及数据标注基地、海尔卡奥斯工业互联网高地、奇安信141网络安全、安盟西南商用密码示范应用基地、爱奇艺智能科技西南总部、爱数智慧数据标注基地、众信佳阿里巴巴客户体验中心、绿地“智慧之心”等项目,现有数字经济企业160余家。“十四五”期间,天府数谷计划完成投资350亿元,实现产值150亿元,税收10亿元,实现就业2万人。

达州市投资约180亿元在达州高新区规划建设2888亩的达州数字经济产业园,单独规划130亩的大数据区域协同创新基地,专门用于智算中心、云计算中心等新型算力基础设施建设,其中,万达开先进计算中心一期项目规划建设超算中心7P、智算中心100P,于202312月正式上线运营,成为继成都超算、成都智算后,全省第三大先进算力服务平台,成功签约百度、阿里云、中科曙光等10余家企业。预计到2025年,全市数据中心规模可达2万机架、算力核心产业规模超10亿元以上、数字经济核心产业增加值达300亿元以上。

雅安市依托水电能源优势(驻产业园的企业到户电价0.34/千瓦时)和低温散热优势(年均气温在14℃,水温在18℃以下),打造大数据产业园,目前机架规模达3万个,建成数据机房等基础设施超23万平方米,目前是全省单体规模最大、标准最高的绿色数据中心,共签约大数据项目171个,涉及云计算、区块链、人工智能、5G应用等领域,协议总投资达487亿元,落地项目141个,成功招引阿里、腾讯、字节等互联网头部企业落户,成为中国电信天翼云全国三大资源池之一、中国移动云全国九大节点之一,阿里云成渝地区核心资源池。

绵阳市着力推动以5G为重点的通信基础设施建设,全市建成5G基站近8000个,5G终端用户数近150万,实现对市域内乡镇以上地区、交通枢纽、工业园区、科研院所、重点现代农业产业示范园区和重点景区的全覆盖。2022年启动“云上科技城”“云上大学城”建设,运用云计算、大数据等技术,推动高校与各类创新主体开展关键核心技术联合攻关,已签约入驻知名高校20余所、高水平创新团队14个,发布创新成果460余项。绵阳市在2023年全国数字百强市排名第46位。

宜宾市建成新经济科创基地、智能终端、大数据、信息技术服务四大数字经济产业园。其中,位于三江新区的长江上游区域大数据中心暨宜宾市大数据产业园投资34亿元,在建的大数据中心整体规划10000个机柜的服务能力,带宽达到5T10T,已入驻华为、中软国际、浪潮、国科、智达万应、云步科技等24户企业,其中数字经济类企业17户。宜宾市在2023年全国数字百强市排名第59位。

四、工作建议

从先进地区经验看,由于人工智能企业轻资产的特性,头部企业对下游企业的带动效应比较强,各地目前主要围绕“算力”打造人工智能或数据标注产业园吸引入驻。从川内发展格局看,德阳、达州、雅安已经建设算力中心、数据中心,宜宾和绵阳更偏重于产业数字化,川南仍然存在算力空缺。调研组经过调研论证认为:大安区应锚定建设川南算力枢纽节点目标,做大数据标注产业规模,加快智慧文旅城市建设,努力走出一条数字赋能城市发展的新路。

(一)夯实基础、做优配套,做大数据标注产业规模。学习借鉴太原市和海口市经验做法,充分利用百度、腾讯、抖音等超级IP吸引力,积极争取承接东部先进地区和成渝双核数据标注产业转移,加快做大数据标注产业基本盘。同时,要为数字经济科创园预留空间,规划建设好交通、住宿等配套设施,加快推进新兴产业孵化园提升改造和总部经济及创新创业孵化中心等载体建设,打造全国领域的人工智能数据标注产业“单项冠军”。

(二)依托禀赋、深化应用,打造智慧文旅城市示范。学习借鉴山西阳泉市和绵阳市经验做法,聚焦“智慧+文旅”,以自贡恐龙文旅特色产业园核心区建设为试验田,深化与腾讯在AI大模型文旅服务方面合作,力争从市级层面发布应用场景清单,丰富支持措施,在文旅、制造、城建、交通、物流、医疗等传统领域加大应用场景开放力度,积极打造“全市域人工智能全场景应用试验场”,力争成为人工智能产业的“中试基地”。

(三)抢抓机遇、全力争取,打造川南算力枢纽节点。参照学习借鉴德阳市和达州市经验做法,借势借力全国一体化算力网络成渝国家枢纽节点(四川)“1+5+N”总体规划布局建设,全力配合争取四川省新一代人工智能创新发展试验区,积极争取水电消纳等优惠政策,通过企地合作或者申请专项债券基金的方式,加快推进自贡市先进计算中心项目,逐步建设边缘数据中心、智能计算中心,打造川南算力枢纽节点。

 

(责任编辑:祁宁)