
? 樊威 燕江依 李蓀
人工智能(AI)的發(fā)展離不開高質(zhì)量數(shù)據(jù)的“投喂”,而數(shù)據(jù)標注工作是高質(zhì)量數(shù)據(jù)誕生的基礎(chǔ),也是支撐人工智能技術(shù)演進和應(yīng)用落地的基石。隨著人工智能向垂直領(lǐng)域滲透,高端數(shù)據(jù)標注基地和行業(yè)數(shù)據(jù)標注基地正在成為突破數(shù)據(jù)瓶頸、釋放數(shù)據(jù)潛能的關(guān)鍵載體。
一、數(shù)據(jù)標注的重要性日益凸顯
數(shù)據(jù)標注是連接數(shù)據(jù)資源、算法模型與應(yīng)用場景的關(guān)鍵“橋梁”,也是人工智能高質(zhì)量數(shù)據(jù)集建設(shè)的基石與核心生產(chǎn)環(huán)節(jié)。
(一)數(shù)據(jù)標注是數(shù)據(jù)要素價值充分釋放的基礎(chǔ)
數(shù)據(jù)標注對釋放數(shù)據(jù)要素價值的意義,主要體現(xiàn)在如下3個方面。
一是有效促進數(shù)據(jù)流通和共享。數(shù)據(jù)標注將原始數(shù)據(jù)從“信息”轉(zhuǎn)化為結(jié)構(gòu)清晰的“資產(chǎn)”,賦予數(shù)據(jù)明確的語義,使其更容易被不同用戶和系統(tǒng)理解和使用,促進數(shù)據(jù)的流通共享。二是有效增強數(shù)據(jù)的可用性和精準度。數(shù)據(jù)標注將原始的雜亂無章的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化、有標簽的數(shù)據(jù),從而顯著提升數(shù)據(jù)質(zhì)量和可用性。三是有效提高數(shù)據(jù)驅(qū)動的決策水平。標注后的數(shù)據(jù)能夠為數(shù)據(jù)分析提供更準確、更有價值的信息,幫助企業(yè)和組織機構(gòu)更好理解數(shù)據(jù)背后的業(yè)務(wù)邏輯和趨勢,做出更科學(xué)的決策。
(二)數(shù)據(jù)標注是人工智能技術(shù)水平提升的關(guān)鍵
數(shù)據(jù)標注是人工智能的基礎(chǔ)性工作,通過給原始數(shù)據(jù)打上標簽,為計算機提供學(xué)習(xí)數(shù)據(jù)特征與規(guī)律的素材,使模型獲得對未標注數(shù)據(jù)的識別能力,這是模型智能的起點。而高水平的數(shù)據(jù)標注是模型能力提升的關(guān)鍵,貫穿于模型訓(xùn)練、評估、優(yōu)化和應(yīng)用等環(huán)節(jié)。精準的標注能幫助模型更深刻地理解數(shù)據(jù)的特征和模式,進一步提高模型的準確性和預(yù)測能力。數(shù)據(jù)標注是高質(zhì)量數(shù)據(jù)集構(gòu)建的核心,通過人工或智能標注對原始數(shù)據(jù)進行清洗、分類、去噪,才能形成驅(qū)動模型迭代的高質(zhì)量數(shù)據(jù)集。DeepSeek-V3、GPT-4o等在訓(xùn)練階段均使用了總量約15萬億token(令牌/詞元)、經(jīng)過嚴格清洗和標注的高質(zhì)量數(shù)據(jù)。
(三)數(shù)據(jù)標注是人工智能賦能千行百業(yè)的支撐
數(shù)據(jù)標注支撐人工智能在垂直場景中深度應(yīng)用。
在醫(yī)療領(lǐng)域,醫(yī)療影像中病灶標注能夠顯著提升數(shù)據(jù)可用性,智源研究院醫(yī)療大模型經(jīng)專業(yè)醫(yī)生標注的影像、病例、文獻等數(shù)據(jù)訓(xùn)練,比通用模型疾病診斷能力提升15%。在自動駕駛領(lǐng)域,數(shù)據(jù)標注為自動駕駛提供精準、可操作的數(shù)據(jù)輸入,百度自動駕駛大模型Apollo ADFM利用精細標注的車輛、交通標志、運動軌跡等數(shù)據(jù),顯著提升復(fù)雜場景行人識別能力。在工業(yè)質(zhì)檢領(lǐng)域,像素級標注通過精確標識缺陷在圖像中的具體位置,為高精度缺陷檢測模型提供詳細監(jiān)督信息,提升質(zhì)檢效能。此外,數(shù)據(jù)標注還在智能家居、智慧城市、金融服務(wù)、生物醫(yī)藥等多領(lǐng)域多場景得到有效應(yīng)用。
二、數(shù)據(jù)標注產(chǎn)業(yè)快速發(fā)展
當前,我國數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展駛?cè)搿翱燔嚨馈保尸F(xiàn)規(guī)模擴張與創(chuàng)新實踐并進的良好態(tài)勢。
(一)數(shù)據(jù)標注工作成效顯著
目前,四川成都、遼寧沈陽、安徽合肥、湖南長沙、海南???、河北保定、山西大同7個國家級數(shù)據(jù)標注基地數(shù)據(jù)標注總規(guī)模超過1.72萬TB(太字節(jié)),約為國家圖書館數(shù)字資源總量的6倍,已形成醫(yī)療、工業(yè)、教育等行業(yè)的高質(zhì)量數(shù)據(jù)集335個;賦能121個國產(chǎn)人工智能大模型研發(fā);引進和培育標注企業(yè)223家;標注從業(yè)人員達5.8萬人;帶動數(shù)據(jù)標注行業(yè)相關(guān)產(chǎn)值超過83億元。
(二)數(shù)據(jù)標注基地展開實踐探索
各個數(shù)據(jù)標注基地積極承接數(shù)據(jù)標注任務(wù),并主動展開實踐探索。在技術(shù)創(chuàng)新方面,研發(fā)自動化和半自動化的標注工具,搭建一體化服務(wù)平臺;在行業(yè)賦能方面,通過數(shù)據(jù)標注帶動行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè),推動傳統(tǒng)產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型;在生態(tài)培育方面,加快數(shù)據(jù)標注龍頭企業(yè)引育,構(gòu)建數(shù)據(jù)標注產(chǎn)業(yè)鏈、價值鏈和生態(tài)系統(tǒng);在標準應(yīng)用方面,圍繞數(shù)據(jù)標注技術(shù)和行業(yè)需求,引導(dǎo)企業(yè)積極參與標準編制和應(yīng)用;在人才培養(yǎng)方面,通過設(shè)立實訓(xùn)基地、舉辦職業(yè)技能大賽等形式推動產(chǎn)教融合,培育數(shù)據(jù)標注人才;在數(shù)據(jù)安全方面,探索數(shù)據(jù)分類分級安全保護制度,構(gòu)建數(shù)據(jù)安全風(fēng)險防控體系,推動常態(tài)化、規(guī)范化數(shù)據(jù)安全運營。
(三)數(shù)據(jù)標注產(chǎn)業(yè)供需對接高效開展
目前,數(shù)據(jù)供需各方積極開展對接,在4次數(shù)據(jù)標注產(chǎn)業(yè)供需對接會上,7個國家級數(shù)據(jù)標注基地、全國70余個省市級數(shù)據(jù)管理部門和數(shù)百家企業(yè)參與,累計簽約供需合作80余項,企業(yè)-基地簽約33項,共2300余人次參會。通過現(xiàn)場簽約、央企對接集市及共建可信數(shù)據(jù)空間等方式,釋放企業(yè)數(shù)據(jù)標注需求,支撐重點行業(yè)數(shù)據(jù)要素價值化應(yīng)用。
三、加快建設(shè)高端與行業(yè)數(shù)據(jù)標注基地
隨著數(shù)據(jù)標注產(chǎn)業(yè)快速發(fā)展,數(shù)據(jù)標注基地建設(shè)呈現(xiàn)清晰的發(fā)展路徑:一方面是向“高精尖”邁進的高端數(shù)據(jù)標注基地;另一方面是深耕垂直場景的行業(yè)數(shù)據(jù)標注基地。高端數(shù)據(jù)標注基地和行業(yè)數(shù)據(jù)標注基地是在7個國家級數(shù)據(jù)標注基地建設(shè)經(jīng)驗總結(jié)的基礎(chǔ)上,向?qū)I(yè)化縱深和區(qū)域化廣泛覆蓋兩個方向的演進與補充。國家級數(shù)據(jù)標注基地將與高端和行業(yè)數(shù)據(jù)標注基地共同構(gòu)成一個功能銜接、層次分明、協(xié)同發(fā)展的體系。
(一)加快建設(shè)高端數(shù)據(jù)標注基地
高端數(shù)據(jù)標注基地是高質(zhì)量數(shù)據(jù)供給的關(guān)鍵,具有“高技術(shù)含量、高人才素質(zhì)、高質(zhì)量把控、高行業(yè)價值”的特征,其核心目標是通過人機協(xié)同標注、合成數(shù)據(jù)標注、大模型智能標注等前沿技術(shù),結(jié)合多學(xué)科知識,實現(xiàn)數(shù)據(jù)標注的專業(yè)化、標準化與高質(zhì)量輸出。
具體而言,高端數(shù)據(jù)標注基地是以高技術(shù)、高水平的數(shù)據(jù)標注能力強化高質(zhì)量數(shù)據(jù)供給,以產(chǎn)教融合新模式培養(yǎng)多元化數(shù)據(jù)標注人才,以權(quán)威的高質(zhì)量數(shù)據(jù)集質(zhì)量評估和模型驗證能力體系提升數(shù)據(jù)質(zhì)量和模型能力,以數(shù)據(jù)生態(tài)服務(wù)矩陣繁榮數(shù)據(jù)要素市場、促進產(chǎn)業(yè)迭代升級。
對此,國家層面應(yīng)通過政策引導(dǎo)和建設(shè)指引,明確高端數(shù)據(jù)標注基地的建設(shè)內(nèi)容,推動關(guān)鍵技術(shù)突破和標準體系完善,與區(qū)域數(shù)據(jù)資源聯(lián)動,帶動數(shù)字經(jīng)濟發(fā)展。地方政府應(yīng)激勵骨干企業(yè)、科研院所等積極參與基地共建,加強技術(shù)研發(fā),建立合作網(wǎng)絡(luò),形成從需求提出到成果應(yīng)用閉環(huán)。
(二)加快建設(shè)行業(yè)數(shù)據(jù)標注基地
行業(yè)數(shù)據(jù)標注基地是人工智能深度應(yīng)用的重要支撐,具有強行業(yè)屬性、強場景導(dǎo)向和強專業(yè)需求的特征,旨在圍繞醫(yī)療健康、智慧交通、智能制造、能源電力、金融服務(wù)等重點行業(yè)場景,提供專業(yè)的定制化標注服務(wù),結(jié)合行業(yè)標準和業(yè)務(wù)流程,將分散異構(gòu)的原始數(shù)據(jù)轉(zhuǎn)化為符合行業(yè)應(yīng)用需求的高質(zhì)量數(shù)據(jù)集。
行業(yè)數(shù)據(jù)標注基地的建設(shè),重點面向行業(yè)主管部門、龍頭企業(yè)和產(chǎn)業(yè)聯(lián)盟,特別是對行業(yè)數(shù)據(jù)安全、準確性和專業(yè)性要求高的領(lǐng)域。通過推動專業(yè)化標注體系建立和行業(yè)規(guī)范落地,提升行業(yè)數(shù)據(jù)的結(jié)構(gòu)化與可用性水平,形成可復(fù)制推廣的標注標準,降低企業(yè)自行標注成本;同時提升模型在特定任務(wù)上的訓(xùn)練效果,推動模型精準解決行業(yè)痛點問題。
對此,建議通過政策引導(dǎo),鼓勵龍頭央企承擔行業(yè)數(shù)據(jù)標注基地建設(shè)任務(wù),加強行業(yè)數(shù)據(jù)的合規(guī)采集、分級管理與安全流通,打造一批行業(yè)標注標準和示范應(yīng)用典型。鼓勵龍頭央企牽頭搭建行業(yè)標注平臺,帶動上下游企業(yè)協(xié)同參與,推動跨企業(yè)、跨行業(yè)的數(shù)據(jù)共享與標準統(tǒng)一。
四、高端與行業(yè)數(shù)據(jù)標注基地建設(shè)需要素保障
高端數(shù)據(jù)標注基地和行業(yè)數(shù)據(jù)標注基地的建設(shè),除頂層設(shè)計外,還需依托完善的要素條件。為此特提出4點思考建議。
一是強化人才保障。數(shù)據(jù)標注需要既懂人工智能又熟悉行業(yè)場景的復(fù)合型人才。應(yīng)加快建設(shè)數(shù)據(jù)標注人才培養(yǎng)體系,支持高校開設(shè)相關(guān)課程和實踐平臺,鼓勵基地與科研院所、企業(yè)等聯(lián)合開展人才培養(yǎng)。二是建立多元化資金投入機制。標注基地建設(shè)周期長、投入大,需建立中央財政引導(dǎo)、地方專項資金配套、社會資本參與的多元化投入機制,提供長期穩(wěn)定的資金保障。三是加強智能化工具研發(fā)應(yīng)用。傳統(tǒng)人工標注成本高、效率低,應(yīng)加快自動化、半自動化標注工具研發(fā),推動自然語言處理、計算機視覺、生成式人工智能等技術(shù)與標注工具深度融合,推動建設(shè)一體化的智能標注平臺。四是促進產(chǎn)業(yè)轉(zhuǎn)型升級,加強示范引領(lǐng)。應(yīng)引導(dǎo)數(shù)據(jù)標注企業(yè)和平臺向高端、智能方向轉(zhuǎn)型,鼓勵龍頭企業(yè)打造分領(lǐng)域特色標注平臺。支持有能力的基地先行先試,在技術(shù)、標準、安全等方面形成可復(fù)制推廣的典型經(jīng)驗,促進技術(shù)交流和成果轉(zhuǎn)化。
加快建設(shè)高端數(shù)據(jù)標注基地和行業(yè)數(shù)據(jù)標注基地,是推動數(shù)據(jù)標注產(chǎn)業(yè)向深向?qū)嵃l(fā)展、釋放數(shù)據(jù)要素價值、支撐人工智能賦能經(jīng)濟社會發(fā)展的關(guān)鍵。未來,需推動產(chǎn)學(xué)研用協(xié)同,共建繁榮產(chǎn)業(yè)生態(tài),以高質(zhì)高效的數(shù)據(jù)標注,為我國人工智能產(chǎn)業(yè)的高水平自立自強筑牢根基。
(作者單位:中國信息通信研究院人工智能研究所。作者:樊威,高級工程師;燕江依,工程師;李蓀,高級工程師)
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2025 中國高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號-5
電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報》社有限責任公司