【資料圖】
當(dāng)?shù)貢r間8月22日晚,Meta宣布發(fā)布人工智能模型SeamlessM4T,可以轉(zhuǎn)錄和翻譯近100種語言。
據(jù)稱,SeamlessM4T可以在文本和語音之間進行翻譯。Meta還將SeamlessM4T和一個新的翻譯數(shù)據(jù)集SeamlessAlign一起開源。Meta聲稱,SeamlessM4T在人工智能驅(qū)動的語音到語音、語音到文本領(lǐng)域取得了“重大突破”。
“我們的單一模型提供了即時翻譯,使得說不同語言的人可以更有效地溝通,”Meta在一篇與TechCrunch分享的博客文章中寫道。“SeamlessM4T可以隱式(通過兩個文本片段之間的邏輯關(guān)系,如因果關(guān)系、比較關(guān)系、時序關(guān)系等,從而進行篇章結(jié)構(gòu)分析和篇章內(nèi)容理解)地識別源語言,而不需要單獨的語言識別模型。”
SeamlessM4T建立在Meta的Massively Multilingual Speech框架之上,該框架提供了超過1100種語言的語音識別、語言識別和語音合成技術(shù)。Meta的SeamlessM4T模型能夠同時處理多種語音和文本任務(wù),包括自動語音識別、語音到文本、語音到語音、文本到語音和文本到文本等。它支持近100種語言,其中一些是語料資源較少的語言。Meta的實驗表明,SeamlessM4T在不影響資源充足的語言的性能的情況下,提升了資源較少的語言的翻譯質(zhì)量。
Meta使用抓取的文本和語音來創(chuàng)建SeamlessM4T的訓(xùn)練數(shù)據(jù)集,稱為SeamlessAlign。研究人員將44.3萬小時的語音與文本對齊,并創(chuàng)建了2.9萬小時的“語音到語音”對齊,這些對齊“教會”了SeamlessM4T如何將語音轉(zhuǎn)錄為文本、翻譯文本、從文本生成語音,甚至將一種語言中說出的單詞翻譯成另一種語言中的單詞。
Meta并不是唯一一個投入資源開發(fā)復(fù)雜的人工智能翻譯和轉(zhuǎn)錄工具的公司。除了亞馬遜、微軟、OpenAI和許多初創(chuàng)公司已經(jīng)提供的商業(yè)服務(wù)和開源模型之外,谷歌也在不斷改進其自己的翻譯服務(wù)。但是,SeamlessM4T是迄今為止將翻譯和轉(zhuǎn)錄能力結(jié)合起來,最雄心勃勃的一個大模型。
在開發(fā)SeamlessM4T時,Meta稱其從網(wǎng)上抓取了公開可用的文本(數(shù)量級為“數(shù)千億”個句子)和語音(400萬小時)。然而,Meta人工智能研究部門的研究科學(xué)家兼項目貢獻者Juan Pino拒絕透露數(shù)據(jù)的確切來源,只是說有“各種各樣”的來源。
并非所有的內(nèi)容創(chuàng)作者都同意公司利用公開數(shù)據(jù)來訓(xùn)練可能用于商業(yè)目的的模型。有些人已經(jīng)對一些利用公開數(shù)據(jù)構(gòu)建人工智能工具的公司提起了訴訟,認為這些公司應(yīng)該提供信用或補償,以及清晰的退出方式。但是Meta聲稱,它所挖掘的數(shù)據(jù)(可能包含個人身份信息),不存在版權(quán)問題,其擁有許可來源或出自開源。
采寫/編譯:南都記者胡耕碩
關(guān)鍵詞: