2021年11月,在世界權(quán)威多語(yǔ)言理解評(píng)測(cè)XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,,哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)團(tuán)隊(duì)以總平均分84.1位列榜首,,刷新世界記錄,在四個(gè)賽道中獲得三項(xiàng)最好成績(jī),。
這也標(biāo)志著科大訊飛多語(yǔ)言理解與跨語(yǔ)言遷移能力再上新臺(tái)階,。
這個(gè)難度有多高?先來(lái)看一段話:
The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen F?llen ist die W?rmequelle ein Atomreaktor, Erdw?rme, Solarenergie oder Abw?rme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.
上述這段話包含了英語(yǔ),、德語(yǔ),、西班牙語(yǔ),而這只是機(jī)器多語(yǔ)言理解評(píng)測(cè)的冰山一角,,它要面臨的是多達(dá)40種語(yǔ)言的高難度理解,。翻譯成中文就是:
讓水沸騰以提供蒸汽所需熱量有多種來(lái)源,最常見(jiàn)的是在封閉空間(別稱有燃燒室,、火箱)中供應(yīng)適量空氣來(lái)燃燒可燃材料,。在某些情況下,熱源是核反應(yīng)堆,、地?zé)崮?、太?yáng)能或來(lái)自內(nèi)燃機(jī)或工業(yè)過(guò)程的廢氣,。如果是模型或玩具蒸汽發(fā)動(dòng)機(jī),還可以將電加熱元件作為熱源,。
最新突破:在40種語(yǔ)言下完成自然語(yǔ)言理解
XTREME評(píng)測(cè)由谷歌公司舉辦,,旨在全面考察模型的多語(yǔ)言理解與跨語(yǔ)言遷移能力。該評(píng)測(cè)覆蓋了中文,、英語(yǔ),、韓語(yǔ)、日語(yǔ),、阿拉伯語(yǔ),、越南語(yǔ)等40種語(yǔ)言,包含了句對(duì)分類,、序列標(biāo)注,、閱讀理解、句子檢索賽道,,共四大類九個(gè)任務(wù),。吸引了國(guó)內(nèi)外眾多知名高校和研究機(jī)構(gòu)參加。
XTREME評(píng)測(cè)包含4大類9個(gè)任務(wù),,分別為:
句對(duì)分類:XNLI,、PAWS-X(自然語(yǔ)言推斷)
序列標(biāo)注:UDPOS(詞性標(biāo)注)、PANX(命名實(shí)體識(shí)別)
閱讀理解:XQuAD,、MLQA,、TyDiQA(片段抽取型閱讀理解)
句子檢索:BUCC、Tatoeba(跨語(yǔ)言文本檢索)
與以往單語(yǔ)言自然語(yǔ)言理解評(píng)測(cè)任務(wù)不同的是,,XTREME中的每一個(gè)任務(wù)都覆蓋了多種語(yǔ)言,,評(píng)測(cè)的是模型在多種語(yǔ)言上的理解能力平均指標(biāo),因此對(duì)系統(tǒng)模型的多語(yǔ)言理解與跨語(yǔ)言遷移能力要求大大提高,。
其難度可想而知,,榜單上的模型也代表了多語(yǔ)言模型的頂尖水平,,因此獲得了眾多機(jī)構(gòu)和高校的廣泛關(guān)注,。
機(jī)器是怎么做到多語(yǔ)言理解的?
本次哈工大訊飛聯(lián)合實(shí)驗(yàn)室提交的CoFe模型以總成績(jī)84.1分位居X(jué)TREME評(píng)測(cè)榜首,,有三大法寶:
1,、加入了自主研發(fā)的跨語(yǔ)言對(duì)比學(xué)習(xí)技術(shù),鼓勵(lì)模型學(xué)習(xí)不同語(yǔ)言中的語(yǔ)義相似性,。
2,、利用知識(shí)蒸餾技術(shù)進(jìn)行自監(jiān)督學(xué)習(xí)和知識(shí)遷移,進(jìn)一步提升了模型在各個(gè)語(yǔ)言上效果的穩(wěn)定性,。
3,、創(chuàng)新性地融入了細(xì)粒度的語(yǔ)言學(xué)特征,,幫助模型克服訓(xùn)練不足的困難,解決低資源語(yǔ)言學(xué)習(xí)不充分的問(wèn)題,,同時(shí)使之適應(yīng)不同語(yǔ)言的形態(tài)學(xué)特點(diǎn),。
也就是說(shuō),通過(guò)本土語(yǔ)言學(xué)習(xí),,機(jī)器可以在少量其他語(yǔ)言語(yǔ)料的情況下,,通過(guò)“類比”學(xué)會(huì)這門語(yǔ)言,減少了收集語(yǔ)料,、語(yǔ)音標(biāo)注等大量工作,。
這就是多語(yǔ)言理解與跨語(yǔ)言遷移能力!
發(fā)布少數(shù)民族語(yǔ)言預(yù)訓(xùn)練模型CINO
“要讓中文語(yǔ)音技術(shù)由中國(guó)人做到最好,?!?/p>
成立以來(lái),科大訊飛初心未改,,持續(xù)關(guān)注并積極推動(dòng)中文相關(guān)信息處理技術(shù)的研究與發(fā)展,。少數(shù)民族語(yǔ)言處理是中文信息處理中不可缺少的一環(huán),也是中文信息處理多樣性的一種體現(xiàn),。這項(xiàng)技術(shù)的進(jìn)步將極大改善我國(guó)少數(shù)民族語(yǔ)言學(xué)習(xí)問(wèn)題,。
目前由于國(guó)內(nèi)少數(shù)民族語(yǔ)言語(yǔ)料稀缺、獲取難度大等原因,,相關(guān)技術(shù)研究相對(duì)匱乏,,而主流的多語(yǔ)言模型也無(wú)法很好地處理國(guó)內(nèi)少數(shù)民族語(yǔ)言文字。為了促進(jìn)中國(guó)少數(shù)民族語(yǔ)言信息處理的研究與發(fā)展,。2021年11月,,科大訊飛發(fā)布了首個(gè)面向少數(shù)民族語(yǔ)言的多語(yǔ)言預(yù)訓(xùn)練模型CINO(Chinese mINOrity pre-trained language model),彌補(bǔ)相關(guān)資源的空白,,并將相關(guān)預(yù)訓(xùn)練模型和任務(wù)數(shù)據(jù)開源,。希望未來(lái)能夠進(jìn)一步促進(jìn)業(yè)內(nèi)少數(shù)民族語(yǔ)言相關(guān)的技術(shù)研究,推動(dòng)少數(shù)民族語(yǔ)言相關(guān)技術(shù)的應(yīng)用落地,。未來(lái)支持各少數(shù)民族語(yǔ)言的多語(yǔ)言搜索引擎等文字應(yīng)用工具或?qū)⒊蔀榭赡堋?/p>