【
智慧城市網 企業關注】人工智能是新一輪科技革命和產業變革的重要驅動力量。數據標注是對原始數據進行采集、清洗、分類、標記、質量檢驗等專業數據治理活動,能有效提升數據供給質量,是人工智能發展的關鍵環節。大力發展數據標注產業,對推動人工智能創新發展、帶動大學生就業和促進數字經濟高質量發展具有重大意義。
01
發展數據標注產業的重大意義
(一)數據標注是提升數據供給質量的關鍵環節,是提升人工智能產業競爭力的先手棋
大模型已成為中美科技競爭的制高點,數據供給質量決定了模型的基礎能力。當前,全球主流基礎大模型,中文語料僅占全部語料的1%,高質量中文數據成為制約我國基礎大模型能力的瓶頸。訓練一個領先的大模型,需要數百萬甚至數千萬條標注數據。數據標注發展水平成為決定中美人工智能勝負的關鍵因素。美國在數據標注領域投入巨大,培育了一批數據標注獨角獸企業,產業迅速發展。例如,OpenAI在訓練GPT系列模型時,投入數千人力和數億資金進行數據標注,高質量語料集煉就了全球最好性能基礎大模型。相比之下,我國雖是全球第二
大數據資源國,但數據質量不高,開發利用比例低。全面提升中文語料質量,成為破解我國大模型發展和提升人工智能產業競爭力的關鍵環節。
(二)數據標注是充分釋放數據要素價值的前提條件,是數據要素價值化的必選項
我國是全球第一個將數據資源作為核心生產要素的國家,加快數據要素市場化配置,發揮數據的倍增、疊加、放大效應,是實現數據要素價值賦能經濟創新發展的關鍵。我國是數據資源大國,但不是數據資源強國。2023年,我國數據資源32ZB(澤字節),保存數據僅有2.9%,數據留存率遠低于發達國家水平。數據質量低,大量數據被浪費,成為制約我國數據資源價值發揮的瓶頸。數據標注能為機器提供高質量的數據,賦能機器學習、深度學習等人工智能算法的訓練,從而實現數據價值轉化。以醫療領域為例,通過對大量醫療影像數據進行標注,可以訓練出精準的疾病診斷模型,提高醫療診斷的準確性和效率,為患者提供更好的醫療服務。目前,標注數據已廣泛應用于生成式人工智能、自動駕駛、電子商務、精準醫療、智能制造等智能場景應用,是數據要素化的必選項。
(三)數據標注產業逐步向智能化、知識化和專業化邁進,是解決大學生就業的有效路徑
隨著人工智能從通用領域向專業領域演進,數據標注對專業性、技術性的人才需求日益增長,數據標注產業也從勞動密集型,逐步向知識密集型轉變,為大學生創造了數百萬就業崗位。比如,美國從事數據標注的崗位超過30萬,德國最大的數據標注公司Clickworker全球雇傭了120萬標注員,印度到2030年數據標注人才的需求也將到100萬。我國各地發展的數據標注基地,也對拉動大學生就業產生了顯著效果。比如,日照數據標注基地,2024年從業人員突破1.1萬人。國內大型互聯網公司在全國數據標注基地人員都超過了數萬人。通過發展數據標注產業,能夠有效緩解大學生就業壓力,促進人才培養與產業發展的良性互動。
(四)發達國家紛紛布局數據標注產業,使之成為數字經濟發展的基礎性、戰略性產業
美國、德國、英國、印度等國家和地區紛紛將數據標注產業作為數字經濟發展的基礎性、戰略性產業,支持數據標注產業發展。美國是數據標注產業發展的領航者,通過政府戰略、企業創新、產業領先等方面,全方位推動了數據標注服務的高質量發展。特別是前沿技術的深度融合應用上。歐盟則通過構建“歐洲共同數據空間”和推動數據相關法案,整合了工業、綠色協議、移動、衛生、金融、能源、農業、公共行政、技能等多個戰略性行業和領域的數據,試圖構建歐洲統一數據市場并大力發展數據標注產業。印度憑借龐大的低成本數字人才優勢,吸引全球科技巨頭投資,大力發展數據標注產業,成為全球重要的數據標注基地。
02
推動我國數據標注產業發展的思路與重點
一是加快發展一批數據標注基地,培育壯大市場主體。今年5月,國家數據局公布首批全國數據標注基地建設城市名單,通過推動數據標注基地建設,以點帶面大力發展數據標注產業,激發行業發展活力。以國家數據標注基地試點為抓手,圍繞技術創新、行業賦能、生態培育、標注應用、人才就業和安全發展等六個方面做好試點,探索推進數據標注產業發展的最優路徑。另外,通過加大財稅政策支持力度、完善數據標注基礎設施建設、制定行業標準規范、鼓勵技術創新與應用、強化人才培養與引進等措施的實施,培育和壯大市場主體。
二是鼓勵數據標注核心技術研發,提升數據標注水平。通過國家重點研發專項,加大對人工智能技術在標注技術研發投入。加快數據標注技術研發費用納入研發加計扣除,鼓勵企業加快科技創新投入。重點布局跨語言、跨領域、跨模態語義對齊、4D標注、大模型標注、數據合成等標注核心技術攻關項目。支持研發專家標注、多模態標注、眾包標注、標注審查、質量評估等智能化高端化工具,提升數據標注科技水平。
三是圍繞數據標注關鍵環節,制定數據標注標準。構建數據標注標準框架體系,加快制定數據標注的國家標準和行業標準,明確標注質量、流程、技術等方面的要求。建立健全數據標注標準實施與監督機制,促進協同創新。加強對數據標注企業和項目的監督和檢查。
四是加大數據標注人才培養,提升人才專業化素養。加強職業教育和培訓體系建設,支持高校和職業院校開設數據標注相關專業和課程。推動企業與教育機構合作,共建實訓基地和培訓中心,培養具備專業技能和職業素養的數據標注人才。制定吸引和留住高層次人才的政策措施,促進數據標注領域的國際交流與人才合作。