中安在線、中安新聞客戶端訊安徽又一科技創(chuàng)新成果出圈!
6月24日,國家科學(xué)技術(shù)獎勵大會上,由科大訊飛牽頭,聯(lián)合中國科學(xué)技術(shù)大學(xué)、清華大學(xué)、華為終端有限公司、中移(杭州)信息技術(shù)有限公司等高校及行業(yè)領(lǐng)軍企業(yè)聯(lián)合完成的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目榮獲2023年度國家科學(xué)技術(shù)進(jìn)步獎一等獎。
一
含金量高
科技創(chuàng)新,始終是國家關(guān)心關(guān)切的大事,是推動國家發(fā)展的核心動力,也是當(dāng)今發(fā)展新質(zhì)生產(chǎn)力的“牛鼻子”。
1984年,國務(wù)院創(chuàng)立國家科學(xué)技術(shù)進(jìn)步獎,設(shè)一、二兩個獎勵等級,旨在激勵科技人才,促進(jìn)成果轉(zhuǎn)化。如今,該獎已成為國務(wù)院設(shè)立的國家科學(xué)技術(shù)獎五大獎項(國家最高科學(xué)技術(shù)獎、國家自然科學(xué)獎、國家技術(shù)發(fā)明獎、國家科學(xué)技術(shù)進(jìn)步獎、中華人民共和國國際科學(xué)技術(shù)合作獎)之一。
科大訊飛牽頭項目榮獲2023年度國家科學(xué)技術(shù)進(jìn)步獎一等獎
為突出質(zhì)量優(yōu)先、寧缺毋濫,進(jìn)一步增強(qiáng)獎項的學(xué)術(shù)性、權(quán)威性和榮譽(yù)性,2017年,國家自然科學(xué)獎、國家技術(shù)發(fā)明獎、國家科學(xué)技術(shù)進(jìn)步獎三大獎,總數(shù)由不超過400項減少到不超過300項,此后經(jīng)多次變革,讓其競爭難度進(jìn)一步提升,換言之,能獲獎的,在當(dāng)今中國,都可謂科技創(chuàng)新的巔峰之作。
如何才能獲獎?
根據(jù)《國家科學(xué)技術(shù)獎勵條例》規(guī)定,國家科學(xué)技術(shù)進(jìn)步獎,授予完成和應(yīng)用推廣創(chuàng)新性科學(xué)技術(shù)成果,以及為推動科學(xué)技術(shù)進(jìn)步和經(jīng)濟(jì)社會發(fā)展作出突出貢獻(xiàn)的個人、組織。
可見,想獲獎,滿足創(chuàng)新性科學(xué)技術(shù)成果的同時,成果還要得到應(yīng)用和推廣。
值得一提的是,受過去兩年國家科技獎暫停的緣故,2023年度國家科技獎積累了大量優(yōu)秀成果,堪稱國獎史上最難一年,提名環(huán)節(jié)指標(biāo)難拿、初評環(huán)節(jié)網(wǎng)評難過,答辯環(huán)節(jié)競爭極其激烈。
以此次獲獎的科大訊飛牽頭“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項目為例,該項目所屬計算機(jī)與自動控制組評審組,據(jù)悉,今年該組受理45個項目,通過初評的僅有8項,通過率不到18%。因此,榮獲此次殊榮,含金量不言而喻。
二
應(yīng)用度廣
作為智能語音行業(yè)的執(zhí)牛耳者,來自合肥高新區(qū)的科大訊飛,長期聚焦多語種智能語言技術(shù)研發(fā)和應(yīng)用,在迎接市場環(huán)境新挑戰(zhàn)的同時,不斷進(jìn)行技術(shù)創(chuàng)新,推動應(yīng)用落地。如今,在全球化背景下,乘勢而上,讓技術(shù)成果逐步從實驗室走向應(yīng)用場,在各行各業(yè)諸多場景中,得到廣泛應(yīng)用。
此次獲獎“多語種智能語音技術(shù)”,是科大訊飛聯(lián)合多個單位研發(fā)的包含多語種語音識別、多語種語音合成、多語種翻譯技術(shù)等為一體的綜合技術(shù),不僅硬核,還很實用。
先看技術(shù)本身,大體來看,多語種智能語音技術(shù)功能有三:
·語音識別:通過先進(jìn)的算法,如深度學(xué)習(xí),系統(tǒng)能夠準(zhǔn)確地將人類的語音轉(zhuǎn)換為文本。
·語音合成:利用自然語言處理技術(shù),可以將文本轉(zhuǎn)換為流暢自然的語音輸出。
·機(jī)器翻譯:結(jié)合語言學(xué)和計算機(jī)科學(xué),實現(xiàn)不同語言之間的高質(zhì)量自動翻譯。
據(jù)悉,連同6個聯(lián)合國通用語種(漢語、英語、法語、西班牙語、俄語、阿拉伯語在內(nèi)),此技術(shù)共支持世界69個語種,其中不乏挪威語、丹麥語等54個小語種,且均達(dá)到使用門檻。
同時,項目還覆蓋維、藏、蒙、哈、朝、壯、彝等24種主要中國方言,未來還將覆蓋更多方言。
這項技術(shù)有多牛?
記者從科大訊飛了解到,在CHiME、openASR、Blizzard Challenge、IWSLT等國際權(quán)威比賽中,該技術(shù)的成績可謂“遙遙領(lǐng)先”,近五年就累計獲得國際權(quán)威評測冠軍20余項;在與谷歌、微軟等國際廠商的盲測對比中,該技術(shù)也實現(xiàn)了多個語種整體并跑,其中14個重點語種領(lǐng)跑,并在安全部等組織的多次翻譯評測中業(yè)界領(lǐng)先。
在產(chǎn)業(yè)化方面,據(jù)德勤數(shù)據(jù)發(fā)布的《2020-2021中國語音產(chǎn)業(yè)發(fā)展白皮書》及華經(jīng)產(chǎn)業(yè)研究院的《2023-2028年中國智能語音行業(yè)市場發(fā)展現(xiàn)狀及投資方向研究報告》,國內(nèi)市場份額科大訊飛穩(wěn)居第一,在全球多語種市場中,占比也在持續(xù)提升。
眼前便是例證。會議轉(zhuǎn)寫方面,截至2024年,借用該項技術(shù)的訊飛聽見APP,已全面覆蓋人大政協(xié)各個駐地會議三周年。
訊飛聽見APP助力聽障人士日常交流
今年全國兩會,為更好輔助會議簡報記錄工作,科大訊飛推出“訊飛聽見智慧簡報系統(tǒng)”,實現(xiàn)將會議發(fā)言,實時轉(zhuǎn)成文字,且全程離線進(jìn)行,在保證簡報記錄原汁原味,內(nèi)容詳實的同時,也確保了會議的信息安全。
與此同時,訊飛多語種智能語音技術(shù),已助力國內(nèi)車企以及華為等品牌的產(chǎn)品出海。其中,中國汽車出海10強(qiáng)企業(yè)中有8家和科大訊飛合作,覆蓋23個語種,出口60余個國家。
還有在業(yè)界開創(chuàng)的智能翻譯機(jī)、智能錄音筆、智能辦公本等新品類。以訊飛翻譯機(jī)為例,可在線翻譯支持85個語種,覆蓋全球200多個國家和地區(qū),支持17個語種無網(wǎng)絡(luò)翻譯,35個語種自動識別翻譯,32個語種拍照翻譯,可解決用戶全球旅游、商務(wù)等跨語言溝通問題,已在北京冬奧會、進(jìn)博會、博鰲論壇、國家安全、海關(guān)等重大活動和場景中獲廣泛應(yīng)用。
還有助力公益。2017年,科大訊飛發(fā)起“方言保護(hù)計劃”,截至目前,方言庫收集近170萬條方言,貢獻(xiàn)人數(shù)超過85萬,其成果已在影視、教育、文旅、媒體等多個行業(yè)尋找到可切實落地的應(yīng)用場景。
此外,自2019年起,科大訊飛聯(lián)合中國聾協(xié)、中國殘疾人藝術(shù)團(tuán)發(fā)起“聽見AI的聲音”公益關(guān)愛行動,為聽力障礙人士提供免費的實時語音轉(zhuǎn)文字服務(wù)、捐贈免費時長。截至今年6月,已累計捐贈時長超一億分鐘。
三
大模型時代
2023年,可謂AI元年,大模型興起、諸多公司跑步進(jìn)場,“大模型是AI時代的基礎(chǔ)設(shè)施”的提法漸漸深入人心。
2024消博會上科大訊飛帶來AI消費新體驗
與此同時,語音是人類信息傳播的基本方式,多語種智能語音技術(shù),在支撐人機(jī)交互、人類語言互通及國家安全等方面,都具有重大戰(zhàn)略意義。
將AI大模型與多語種智能語音技術(shù)進(jìn)行結(jié)合,將會是怎樣的未來?這是當(dāng)今國際科技競爭的焦點,也是科大訊飛正著力描繪的未來。
語音屬性解耦、語音信號時空分離等技術(shù)突破,可以將語音信號經(jīng)過編碼后輸入到大語言模型,顯著提升語音大模型的效果。大模型技術(shù)可以在復(fù)雜語義理解、長文本建模能力上進(jìn)一步提升語音識別、合成和翻譯的效果,同時基于其強(qiáng)大的語義理解、知識問答、多輪對話、多模態(tài)建模能力,也能進(jìn)一步大幅提升智能語音技術(shù)的使用場景和應(yīng)用價值。
今年1月30日,科大訊飛發(fā)布星火語音大模型,迅速實現(xiàn)了對openAI2023年11月發(fā)布的whisper_v3多語種大模型的大幅領(lǐng)先。
6月9日,科大訊飛成立25周年司慶活動上,科大訊飛董事長劉慶峰表示,利用語音合成、語音識別、機(jī)器翻譯等單點技術(shù),再通過大模型的理解能力、文本生成能力的后臺加持,科大訊飛已實現(xiàn)了語義理解、指令跟隨、多輪對話、情緒感知、超擬人合成的技術(shù)突破,真正使得語音交互得到提升。
而行業(yè)應(yīng)用,永遠(yuǎn)是技術(shù)生命力的源泉。
在此背景下,語音領(lǐng)域的幾乎所有應(yīng)用,都值得用新方式重構(gòu)一遍:
醫(yī)療導(dǎo)診機(jī)器人、酒店服務(wù)機(jī)器人、所有企業(yè)的客服機(jī)器人等都可以重新做一遍;7*24小時營業(yè)場所的部分崗位、企業(yè)中的服務(wù)類崗位等都可以用數(shù)字員工;汽車、手機(jī)、家庭助手等終端的智能語音服務(wù)也能得到很大提升。
類似的應(yīng)用領(lǐng)域和產(chǎn)業(yè)空間不勝枚舉……
總之,大模型時代的語音技術(shù),本質(zhì)上是一次推動萬物互聯(lián)和原有人機(jī)交互場景重構(gòu)的巨大產(chǎn)業(yè)機(jī)會,科大訊飛也正著力抓住其中的核心技術(shù)和應(yīng)用紅利。
創(chuàng)新引領(lǐng),步履不停,6月27日,科大訊飛將發(fā)布訊飛星火V4.0,底座能力將全面對標(biāo)GPT-4 Turbo,語音大模型也將迎來全新升級,在科大訊飛國際領(lǐng)先的智能語音技術(shù)基礎(chǔ)之上,訊飛星火將進(jìn)一步向著“解放生產(chǎn)力、釋放想象力,為每個企業(yè)和每個人打造專屬AI助手”的更大愿景。(記者 孟一凡)