加強數(shù)字中文建設(shè),全方位釋放中文要素價值
來源:光明日報作者:劉培俊 2025-06-08 09:06
大語言模型技術(shù)日新月異,為社會數(shù)字化發(fā)展注入強勁動力,并塑造未來勢能。自然語言處理技術(shù)、高質(zhì)量語言資源、大規(guī)模優(yōu)質(zhì)語料等已成為這場新技術(shù)革命的戰(zhàn)略支點和社會發(fā)展的基礎(chǔ)要素。中文在支撐科技創(chuàng)新、服務(wù)數(shù)字中國建設(shè)和參與世界語言治理格局中,發(fā)揮著技術(shù)、語言和文化優(yōu)勢。
為貫徹落實數(shù)字中國建設(shè)和教育強國建設(shè)規(guī)劃部署,教育部、國家語委、中央網(wǎng)信辦于2025年1月印發(fā)《關(guān)于加強數(shù)字中文建設(shè),推進(jìn)語言文字信息化發(fā)展的意見》,首次提出“數(shù)字中文”概念。《意見》面向2035年明確發(fā)展目標(biāo)、政策措施和工作機制,以實施加強數(shù)字中文建設(shè)行動全面帶動語言文字信息化,聚焦高價值領(lǐng)域全局賦能經(jīng)濟(jì)社會發(fā)展。
數(shù)字中文概念的提出根植于社會現(xiàn)實
數(shù)字中文,一個新術(shù)語,乍看起來生疏而新鮮,其實,數(shù)字中文的豐富內(nèi)涵根植于多年來、多方面、深層次的社會現(xiàn)實基礎(chǔ)。
人工智能技術(shù)創(chuàng)新發(fā)展,更加需要中文數(shù)字化支撐。在大語言模型技術(shù)快速迭代的過程中,數(shù)據(jù)成為其中的核心競爭力變量,語言文字、語言資源和語言數(shù)據(jù)至關(guān)重要。中文以其語言學(xué)意義和歷史文化層面的特殊性,有利于創(chuàng)新中國特色大語言模型發(fā)展之路,有利于技術(shù)賦能中文功能發(fā)揮與中文賦能技術(shù)創(chuàng)新應(yīng)用雙向促進(jìn),并在技術(shù)競爭、文化傳播和全局賦能中發(fā)揮更大作用。
世界語言格局迅速變化,更加需要中文數(shù)字化傳播。中國是世界上語言資源最豐富的國家之一;中文承載著中華民族數(shù)千年的文明智慧,是中國貢獻(xiàn)給世界的重要公共文化產(chǎn)品,是世界上使用人數(shù)最多的語言,是聯(lián)合國六種工作語言之一。越來越多的國家和國際事務(wù)場景使用中文,中文參與全球治理的價值作用更加凸顯。
數(shù)字中國建設(shè)進(jìn)程加快,更加需要中文數(shù)字化助力。語言文字?jǐn)?shù)字化應(yīng)用場景不斷拓展,語言數(shù)據(jù)作為新型要素,快速融入生產(chǎn)、分配、流通、消費以及政務(wù)管理等各環(huán)節(jié),廣泛服務(wù)社會發(fā)展。
語言文字信息化進(jìn)展,更加需要中文數(shù)字化躍升。語言文字信息化發(fā)展呈現(xiàn)出多語種資源廣泛開發(fā)、多方面技術(shù)創(chuàng)新應(yīng)用、多類型主體共同推進(jìn)、多維度賦能發(fā)揮作用的良好局面。今后一個時期,加大國家通用語言文字推廣力度,深化中華優(yōu)秀語言文化傳承,增進(jìn)中國特色語言文明交流互鑒,更加需要中文數(shù)字化賦能。
數(shù)字中文的概念內(nèi)涵與應(yīng)用
基于當(dāng)前社會現(xiàn)實和未來國內(nèi)國際多樣化需求,我們嘗試結(jié)合數(shù)字技術(shù)與中文系統(tǒng)之間的互動關(guān)系,初步定義“數(shù)字中文”概念,以期為數(shù)字中文技術(shù)體系、認(rèn)知體系和治理體系建構(gòu)提供基本范疇、分析框架和邏輯起點。
從本體性技術(shù)上,數(shù)字中文是指中文語言系統(tǒng)在數(shù)字技術(shù)生態(tài)中演化形成的復(fù)合語言形態(tài),依托字符集標(biāo)準(zhǔn)及多模態(tài)語言信息標(biāo)準(zhǔn)在數(shù)字化媒介中實現(xiàn)編碼、傳輸、呈現(xiàn),以及依托語義計算框架形成中文支撐人工智能技術(shù)的新型符號系統(tǒng)。
從功能性特征上,數(shù)字中文基于技術(shù)標(biāo)準(zhǔn)、語用實踐與算法架構(gòu),作為語言-技術(shù)共生體系和智能基礎(chǔ)設(shè)施,全方位支持中文語言資源功能作用發(fā)揮和中文語言數(shù)據(jù)要素價值釋放,體現(xiàn)為國際編碼的字符數(shù)字化、中文信息處理的算法系統(tǒng)化、人機界面交互驅(qū)動的語用重構(gòu)化、人工智能技術(shù)創(chuàng)新的語言智能化、文化傳承傳播的載體中介化以及服務(wù)經(jīng)濟(jì)社會發(fā)展的賦能全局化。
加強數(shù)字中文建設(shè),不僅局限于技術(shù)名詞和學(xué)術(shù)術(shù)語的討論,更著眼于以信息化、數(shù)字化、智慧化方式全方位釋放中文全要素價值的戰(zhàn)略選擇、制度創(chuàng)新和技術(shù)實踐。數(shù)字中文的時代背景是大語言模型等人工智能技術(shù)飛速變革,數(shù)字中國建設(shè)加快推進(jìn),中文在全球治理中的參與度和貢獻(xiàn)率快速提升;技術(shù)本質(zhì)是中文信息與圖靈測試邏輯的結(jié)構(gòu)性耦合,語言與技術(shù)深度融合并“雙向促進(jìn)”;語用基礎(chǔ)是推動語言資源轉(zhuǎn)化為語言數(shù)據(jù),全方位釋放語言文字在經(jīng)濟(jì)社會發(fā)展中的數(shù)據(jù)要素價值,是語言文字現(xiàn)代化與國家數(shù)字化戰(zhàn)略的重要結(jié)合點;政策要點是推進(jìn)中文數(shù)字化與數(shù)據(jù)中文化“兩化并進(jìn)”、創(chuàng)新應(yīng)用與規(guī)范安全、新型中文服務(wù)體系構(gòu)建與語言文字治理體系完善;前沿應(yīng)用是以數(shù)字化方式深度研究語言本體機理,力求突破語言學(xué)理論和實踐問題;加強國家關(guān)鍵領(lǐng)域語料基礎(chǔ)設(shè)施“新基建”,有效服務(wù)大語言模型等人工智能創(chuàng)新應(yīng)用“制高點”;戰(zhàn)略定位是通過數(shù)字化手段提升中文的生命力、傳播力和競爭力,使中文在人工智能、大數(shù)據(jù)、互聯(lián)網(wǎng)和全球化時代保持生機活力,是推進(jìn)國家語言文字事業(yè)高質(zhì)量發(fā)展、國家語言服務(wù)體系高標(biāo)準(zhǔn)構(gòu)建和國家語言能力高起點增強的重要舉措;賦能方式是以語言文字的泛在性與信息技術(shù)的泛在性密切結(jié)合,聚焦關(guān)鍵領(lǐng)域全局賦能經(jīng)濟(jì)社會發(fā)展,不斷提升中文在全球數(shù)字空間和世界現(xiàn)實生活中的使用占比、價值引領(lǐng)和文化貢獻(xiàn)。
數(shù)字中文建設(shè)的政策體系框架
按照《意見》部署,以實施數(shù)字中文建設(shè)行動為重點,全方位釋放語言文字的數(shù)據(jù)要素價值、全環(huán)節(jié)發(fā)揮語言文字的資源功能作用、全領(lǐng)域推進(jìn)語言文字賦能經(jīng)濟(jì)社會發(fā)展,明確了到2027年和2035年的分段發(fā)展目標(biāo),形成了加強數(shù)字中文建設(shè)的政策體系框架。
堅持總體戰(zhàn)略導(dǎo)向。堅持需求牽引,回應(yīng)經(jīng)濟(jì)社會新需求。堅持語技融合,實施示范項目,打造引領(lǐng)品牌,在匯聚數(shù)據(jù)資源、創(chuàng)新應(yīng)用形態(tài)、提升賦能效果等關(guān)鍵環(huán)節(jié)開辟新空間。堅持資源開發(fā),多渠道分類型系統(tǒng)建設(shè)數(shù)字化語言資源新體系。堅持多方協(xié)同,形成政府、市場、社會聯(lián)動新機制。堅持全局賦能,聚焦關(guān)鍵領(lǐng)域,塑造數(shù)字中文賦能經(jīng)濟(jì)社會新格局。
應(yīng)用關(guān)鍵前沿技術(shù)。以支撐人工智能技術(shù)創(chuàng)新為先導(dǎo),創(chuàng)新應(yīng)用自然語言處理、大語言模型、多模態(tài)信息處理、知識圖譜、語料加工等前沿技術(shù),重點加強國家關(guān)鍵領(lǐng)域語料基礎(chǔ)設(shè)施建設(shè),有效服務(wù)大語言模型等人工智能創(chuàng)新應(yīng)用。
建強支撐保障體系。以固本強基為基點,系統(tǒng)建設(shè)規(guī)范標(biāo)準(zhǔn)、資源服務(wù)、人才培養(yǎng)、協(xié)同創(chuàng)新、安全治理等保障體系,有效推進(jìn)教育、科技、人才一體發(fā)力,重點支撐語言文字信息技術(shù)理論研究水平、產(chǎn)業(yè)應(yīng)用能力和社會服務(wù)效能。
實施全局賦能行動。以賦能高價值領(lǐng)域優(yōu)先,統(tǒng)籌實施數(shù)字中文服務(wù)教育發(fā)展、助力科技創(chuàng)新、賦能文化傳承、推動產(chǎn)業(yè)升級、促進(jìn)社會進(jìn)步等賦能行動,重點部署引領(lǐng)性計劃和先導(dǎo)性項目,提升數(shù)字中文賦能經(jīng)濟(jì)社會發(fā)展的針對性、實效性和全局性。
創(chuàng)新推進(jìn)落實機制。以實現(xiàn)數(shù)字中文政策目標(biāo)為導(dǎo)向,一體建立統(tǒng)籌規(guī)劃、共建共享、多方協(xié)同、試驗帶動、品牌引領(lǐng)等機制。重點鼓勵一地一策、一校一品制定數(shù)字中文建設(shè)規(guī)劃,支持創(chuàng)建試驗區(qū)示范點,形成數(shù)字中文賦能生態(tài)。
開展系統(tǒng)化的數(shù)字中文相關(guān)研究
站在語言與技術(shù)融合的新起點,數(shù)字中文定義的深化、政策的落實和行動的實施,急需聚焦重大方向、重要領(lǐng)域和重點選題,開展數(shù)字中文理論與實踐研究。
關(guān)鍵戰(zhàn)略研究。包括數(shù)字中文建設(shè)的時代價值、支持政策和實施路徑;新型國家語料庫建設(shè)的理論、政策和標(biāo)準(zhǔn);構(gòu)建中文在全球數(shù)字空間占比指數(shù),提升語言文字信息化助力國家語言能力的戰(zhàn)略貢獻(xiàn)力;推進(jìn)高價值語言資源轉(zhuǎn)化為高賦能語言數(shù)據(jù)的有效機制,提升語言文字的科技支撐力;推進(jìn)語言本體發(fā)展以數(shù)字化方式走向語言社會服務(wù),提升語言文字的社會吸引力。
前沿基礎(chǔ)研究。包括語言數(shù)據(jù)賦能信息技術(shù)創(chuàng)新應(yīng)用和信息技術(shù)賦能語言資源功能發(fā)揮的“雙向賦能”機理;中文數(shù)字化和數(shù)據(jù)中文化“兩化并進(jìn)”途徑;中文支撐人工智能的技術(shù)、語言和文化優(yōu)勢;數(shù)字中文建設(shè)的安全和風(fēng)險;中文數(shù)字化標(biāo)準(zhǔn)與國際技術(shù)生態(tài)的兼容性;中文結(jié)構(gòu)特征與深度學(xué)習(xí)技術(shù)架構(gòu)的適配性。
急需應(yīng)用研究。包括數(shù)字中文標(biāo)準(zhǔn)、規(guī)范與治理體系建設(shè);青少年大語言模型素養(yǎng)提升;大語言模型技術(shù)規(guī)范與質(zhì)量標(biāo)準(zhǔn);數(shù)字中文新產(chǎn)品、新職業(yè)、新業(yè)態(tài);培植專攻數(shù)字中文建設(shè)專業(yè)化機構(gòu),培育促進(jìn)語言與技術(shù)雙向賦能的融合性學(xué)科,培養(yǎng)復(fù)合型語言人才;開設(shè)語言科學(xué)與技術(shù)專業(yè),構(gòu)建數(shù)字中文建設(shè)人才供需適配機制。
展望未來,數(shù)字中文建設(shè)要聚焦國家、市場和社會需求,立足國家語言文字事業(yè)發(fā)展、國家語言服務(wù)體系構(gòu)建和國家語言能力增強的“一體兩翼”大語言格局,服務(wù)國家事業(yè)發(fā)展大局,著力將數(shù)字中文概念轉(zhuǎn)化為政策制度、規(guī)范標(biāo)準(zhǔn)、計劃項目、實際行動和社會效能,更好地助推國家語言服務(wù)體系的數(shù)字化轉(zhuǎn)變、語言資源大國向語言能力強國的戰(zhàn)略性轉(zhuǎn)變以及語言有限賦能向語言賦能全局轉(zhuǎn)變。
(作者:劉培俊,系教育部語言文字信息管理司司長)
編輯:董麗娜
文章、圖片版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系刪除