2021-06-11 11:25:30 來源:中國周刊 作者:高揚(yáng)
31位中外院士,260多位海內(nèi)外人工智能專家學(xué)者,22場人工智能專題論壇……
2021年6月5日-6日,包括微軟、亞馬遜、百度、京東等在內(nèi)的,全球人工智能專家學(xué)者與商界名流齊聚杭州,在“2021全球人工智能技術(shù)大會(huì)暨全球人工智能技術(shù)博覽會(huì)”上,對當(dāng)下的人工智能把脈問診,進(jìn)行思想碰撞和技術(shù)交流,以及展望未來。
在這一全球性的行業(yè)盛會(huì)上,傳神語聯(lián)參與發(fā)起中國人工智能學(xué)會(huì)“多語種智能信息處理專業(yè)委員會(huì)”,并成為常委單位。
傳神在十年前提出多語智能信息處理,并通過旗下的語聯(lián)網(wǎng)平臺(tái),將多方面的自然語言處理技術(shù)、大數(shù)據(jù)技術(shù)、大量在線譯員、以及大規(guī)模的術(shù)語語料資產(chǎn)有機(jī)結(jié)合,通過創(chuàng)新的人機(jī)協(xié)作體系向各語言服務(wù)機(jī)構(gòu)賦能,幫助各類組織和個(gè)人,以前所未有的綜合效率和成本獲得所需的語言服務(wù),從而實(shí)現(xiàn)更快、更豐富的全球文化、貿(mào)易和信息交流。
那么,何為自然語言處理技術(shù),何為人機(jī)協(xié)作體系,它們與AI時(shí)代有著怎樣密不可分的關(guān)系?對此,筆者進(jìn)行了深入了解與探索。
人工智能領(lǐng)域皇冠上的明珠
目前人工智能可大致分為四個(gè)階段:運(yùn)算智能、感知智能、認(rèn)知智能,以及發(fā)展到未來會(huì)觸達(dá)到創(chuàng)造智能。自然語言處理技術(shù)屬于認(rèn)知智能,包括語言理解、知識(shí)和推理,相當(dāng)于人類的大腦思維。
“自然語言理解是人工智能領(lǐng)域皇冠上的明珠,自然語言處理技術(shù)(NLP)是人工智能賦能社會(huì)和賦能行業(yè)的硬核科技?!蔽④泚喼扪芯吭涸痹洪L、創(chuàng)新工場首席科學(xué)家、ACL前主席周明博士,作為世界頂級(jí)的AI科學(xué)家、自然語言處理領(lǐng)域代表性人物,在該會(huì)議分論壇表示,“自然語言處理技術(shù)的重要性比肩芯片、操作系統(tǒng)”。
“它是感知智能基礎(chǔ)上的認(rèn)知智能最重要的技術(shù)。它的進(jìn)步會(huì)推動(dòng)推理、決策、問題求解等技術(shù),推動(dòng)人工智能的理論和技術(shù)發(fā)展。”周明博士如是表示。
“如果我們能夠推進(jìn)自然語言處理,就可以再造一個(gè)微軟?!睙o獨(dú)有偶,美國微軟公司聯(lián)合創(chuàng)始人比爾·蓋茨也對自然語言處理在人工智能時(shí)代,及未來社會(huì)發(fā)展中的重要性,給予中肯的定義。
看似一小步,實(shí)則跋山涉水,行程千萬里。
自然語言處理技術(shù),就是使機(jī)器人或計(jì)算機(jī)設(shè)備從標(biāo)準(zhǔn)格式化的問答,變得會(huì)學(xué)習(xí)、有知識(shí)、會(huì)思考、善交流。包括人們?nèi)粘S玫降乃阉饕?、各種智能交互場景,都需要自然語言處理技術(shù)的支撐。
隨著互聯(lián)網(wǎng)的發(fā)展,用戶接觸的信息量是20年前的1000倍,從當(dāng)初的電視、報(bào)紙,廣播,到現(xiàn)在的PC端、移動(dòng)端,對語言翻譯效率提升的要求亦越來越多。
“當(dāng)我們?yōu)g覽國外網(wǎng)站、新聞資訊等內(nèi)容時(shí),如果沒有語言翻譯就等于看不懂的‘天書’,只是一頁頁字符,讓人很迷茫。”傳神語聯(lián)董事長何恩培接受采訪表示, 當(dāng)前的人工翻譯每年處理的字符量是1500億,而機(jī)器翻譯調(diào)用的字符量每天就在8000億至10000億之間,這表明信息處理空間達(dá)到2400倍。
隨著信息量的增加,未來十年還會(huì)從目前經(jīng)常用到的60對語言進(jìn)化到150對。按照中國國標(biāo),翻譯的準(zhǔn)確率要求高達(dá)99.7%,而今天的機(jī)器翻譯準(zhǔn)確率難以超過70%。
人工翻譯準(zhǔn)確率高但效率低、成本高;而機(jī)器翻譯效率高、成本低但準(zhǔn)確率不高。如何將二者優(yōu)勢結(jié)合,創(chuàng)造出兼具高準(zhǔn)確、高效率、低成本的翻譯服務(wù)模式,正是自然語言處理領(lǐng)域最具價(jià)值的命題之一。
傳神語聯(lián)正在打造或肩負(fù)這樣的角色與使命,不斷探索。既不執(zhí)著于傳統(tǒng)的人工翻譯,也沒有執(zhí)著于機(jī)器翻譯。
探索多語智能,求解千年難題
事實(shí)上,翻譯作為溝通世界的紐帶與基礎(chǔ)要素,早在東漢就有記載。而在形成規(guī)模和組織后的1600年,行業(yè)都未曾出現(xiàn)重大突破;法國科學(xué)家早在1933年開始暢想機(jī)器翻譯,在近代50年才有突破性發(fā)展。
2015年是第一次真正意義上的突破,由暢想變?yōu)槌醪綉?yīng)用。而同樣被認(rèn)為人類難題的登月計(jì)劃,1961年提出,僅11年就得以實(shí)現(xiàn),可見自然語言處理的難度遠(yuǎn)高于人類很多難題。
隨著全球化深入和數(shù)字化時(shí)代到來,翻譯不再只是滿足高端人士的工作需求,而是深入人們生活的各個(gè)場景與基礎(chǔ)生活需求,如購物、知識(shí)獲取、社交等多語需求場景,無時(shí)不在,無處不有;未來,新的應(yīng)用場景像電網(wǎng)上電器一樣,不斷增長。
物流行業(yè)的智能分揀機(jī)器人、各種工業(yè)機(jī)器人等,都是人工智能相對成熟的“場景邊界”效果。但在“開放世界”中的多語種網(wǎng)頁瀏覽與知識(shí)獲取、生活交互場景等,還有很長的路要走。自然語言的處理則是解決這些問題的關(guān)鍵。
以上場景的應(yīng)用,就需要強(qiáng)大的自然語言處理。而當(dāng)前,一般的機(jī)器翻譯引擎都只能在簡單的新聞稿等領(lǐng)域有比較好的表現(xiàn),在復(fù)雜的專業(yè)領(lǐng)域則無法勝任。普適性的機(jī)器翻譯在廣泛使用上,也已遇到瓶頸。
在此大背景下,創(chuàng)建語聯(lián)網(wǎng)的大膽想法涌入何恩培的腦海,并在心底生根發(fā)芽。
從2011年設(shè)想至2017年醞釀問世,傳神語聯(lián)用了6年時(shí)間。從調(diào)研、論證到技術(shù)探索與創(chuàng)新,一次次的自我革命,終于等來傳神語聯(lián)“人+機(jī)器,孿生譯員”誕生的這一刻。
“孿生譯員”模式,通過設(shè)置“場景邊界”的方式,跟蹤一個(gè)翻譯組織乃至一名譯員的翻譯過程,在翻譯結(jié)果、上下文等場景化數(shù)據(jù)中進(jìn)行學(xué)習(xí),建立多維度異構(gòu)模型并持續(xù)迭代,讓每個(gè)翻譯組織或譯員,都可以將自己的翻譯經(jīng)驗(yàn)、風(fēng)格數(shù)字化克隆,形成具有專屬特征的孿生翻譯引擎。同時(shí),將自己的翻譯資產(chǎn),變成24小時(shí)躺著賺錢的服務(wù)能力。
例如文本解析、智能聚類、智能分拆、智能匹配、智能糾錯(cuò)、智能合并等一系列技術(shù),都將在這一過程中發(fā)揮作用,組織起幾十、幾百乃至幾千名翻譯人員同時(shí)處理一個(gè)翻譯任務(wù),并使得每個(gè)人都能夠很好地完成自己的工作,從而遠(yuǎn)超人工翻譯效率,并保證翻譯結(jié)果。
“孿生譯員”在提高翻譯效率和綜合質(zhì)量基礎(chǔ)上,也可作為機(jī)器翻譯引擎對外輸出產(chǎn)能。
人機(jī)共譯,是翻譯最終出路
在語聯(lián)網(wǎng)誕生之前,中國甚至全球語言服務(wù)行業(yè)的各領(lǐng)域翻譯公司,各自為陣,小而散,成為一個(gè)個(gè)語言信息的孤島,互不往來,更沒統(tǒng)一標(biāo)準(zhǔn)。語聯(lián)網(wǎng)及“孿生譯員”通過大數(shù)據(jù)的科技創(chuàng)新與不斷變革,將中國、甚至世界各地的翻譯公司和翻譯人員連接一起,形成一個(gè)規(guī)模龐大的智能翻譯矩陣。
基于以上方式,傳神語聯(lián)建立了一個(gè)“數(shù)據(jù)-訓(xùn)練-應(yīng)用-數(shù)據(jù)”的閉環(huán),讓機(jī)器在每一次工作中變得越來越聰明,給人類提供越來越多的幫助。每一次任務(wù)完成過程中,積累的所有數(shù)據(jù)和信息都將成為機(jī)器翻譯引擎學(xué)習(xí)的新材料,這就是傳神的“Twinslator”孿生譯員。
“人機(jī)共譯才是出路?!眰魃駝?chuàng)始人何恩培說,語言特殊的人文屬性,決定了未來翻譯絕不是單純機(jī)器的事情。
新技術(shù)時(shí)代,翻譯的突破,更需要人的參與大協(xié)同。
“機(jī)器圍棋比賽有固定棋譜規(guī)則可循,語言背后是文化,是生命進(jìn)化的呈現(xiàn),無法簡單推論與佐證?!眰魃裾Z聯(lián)董事長何恩培曾公開表示,當(dāng)下的語言服務(wù)是機(jī)器依賴于人類大腦的思考與加工,人類判斷翻譯標(biāo)準(zhǔn),使機(jī)器翻譯與場景結(jié)合,而不是機(jī)械性的轉(zhuǎn)換?! ?/span>
“這是一個(gè)不斷探索的過程?!焙味髋啾硎荆浆F(xiàn)在為止,自然語言處理技術(shù),連看起來最簡單的文章斷句都無法精準(zhǔn)實(shí)現(xiàn)。
何恩培說,人類與人工智能的最佳相處方式,或許就是“譯員與孿生譯員”的關(guān)系。譯員與孿生譯員的關(guān)系,就像工匠和徒弟之間的關(guān)系,工匠指導(dǎo)徒弟,徒弟經(jīng)過某種場景的訓(xùn)練,創(chuàng)造出孿生譯員的產(chǎn)能,更好的賦能AI,與時(shí)代共進(jìn)步。
傳神語聯(lián)做多語智能的探索者。人賦慧于機(jī)器,而機(jī)器賦能于人。就像機(jī)器賦予人類超越自身極限的“力量”一樣,人也能通過賦慧于機(jī)器,讓機(jī)器越來越智慧與“通靈”。
編輯:海洋