|
|
|
電子科技大學:AI賦能 格桑花藏地語料庫建設啟動 |
http://www.ehavn.com 2025年4月26日 來源:電子科技大學 |
|
4月22日,格;ú氐卣Z料庫建設在“2025天府融媒大講堂——主流媒體系統(tǒng)性變革之技術賦能”活動上正式啟動。該語料庫由天府融媒(四川)科技有限公司、四川省全媒信息傳播研究院共同發(fā)起,尼瑪扎西院士工作站(電子科技大學)、藏地陽光全媒體中心、甘孜州傳媒中心、四川日報全媒體技術中心等多家機構共同建設。
黨的二十大提出,要實施國家文化數(shù)字化戰(zhàn)略,增強中華文明傳播力影響力。今年,教育部、國家語委、中央網(wǎng)信辦聯(lián)合印發(fā)的《關于加強數(shù)字中文建設 推進語言文字信息化發(fā)展的意見》指出,“以加強數(shù)字中文建設為重點,以集成化、智能化、國際化為導向”,“促進中文數(shù)據(jù)的規(guī)模生產(chǎn)、優(yōu)質集成、融合創(chuàng)新、規(guī)范治理和復用增效”,“加快推進語言文字信息化發(fā)展”,明確要求推進“古籍數(shù)字化整理關鍵技術研究”和“國家關鍵語料庫、高質量民族語言文字語料庫”建設。
格;ù碇腋:图椋遣刈迦嗣駥γ篮蒙畹南蛲推谂。以“格;ā泵⒁庹Z料庫將像格;ㄒ粯觽鞒胁刈逦幕,并為藏語在人工智能時代的應用注入新的希望和活力。
目前,格;ú氐卣Z料庫已初步搭建藏語語料訓練系統(tǒng)。接下來,將對已整理的超200億字符的藏文資料、30000多小時的音視頻資料進行訓練,形成千萬條高質量多模態(tài)藏語語料。同時,基于已有的翻譯詞庫構建500萬級“藏漢英對照”平行語料庫。今后,將通過數(shù)據(jù)清洗、知識提取等智能處理,形成藏語核心語料及細分領域知識庫,并借助格;ú氐卣Z料庫建設藏語智能體綜合平臺,開發(fā)藏語知識問答、藏漢互譯等智能體,為藏語研究、內容生產(chǎn)與傳播提供支撐。
中國工程院院士尼瑪扎西談到,四川是我國重要的藏族聚居地,其涉藏地區(qū)涵蓋了藏語三大方言中的康巴和安多兩大方言。同時,藏地陽光全媒體中心、甘孜州傳媒中心等四川主流媒體機構擁有的藏語數(shù)據(jù)具備素材多、質量好的優(yōu)勢。由這些主流媒體參與建設的格;ú氐卣Z料庫,可以為語言學、計算機科學、民族學等多學科跨領域研究提供廣泛的數(shù)據(jù)支撐。格;ú氐卣Z料庫將在傳承和弘揚中華傳統(tǒng)文化,促進民族文化交流,增強國家文化軟實力方面發(fā)揮重要作用。
|
關于電子科技大學更多的相關文章請點擊查看  |
|
特別說明:由于各方面情況的不斷調整與變化,華禹教育網(wǎng)(www.ehavn.com)所提供的信息為非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點或證實其內容的真實性,僅供參考,相關信息敬請以權威部門公布的正式信息為準。 |
|
|
|