中國新聞網(wǎng)-上海新聞
上海分社正文
聚焦“超長文本輸入” MiniMax發(fā)布新一代開源模型
2025年01月15日 19:25   來源:中新網(wǎng)上海  

  中新網(wǎng)上海新聞1月15日電(記者 鄭瑩瑩)在大模型領(lǐng)域,前沿技術(shù)日新月異。15日,上海稀宇科技有限公司 (MiniMax)發(fā)布并開源新一代01系列模型,包含基礎(chǔ)語言大模型 MiniMax-Text-01 和視覺多模態(tài)大模型MiniMax-VL-01。

(圖片說明:MiniMax新一代開源模型架構(gòu))

  MiniMax-01系列模型首次將線性注意力機制擴展到商用模型級別。據(jù)介紹,受益于此次架構(gòu)創(chuàng)新,該系列模型在處理長輸入的時候具有高效率,將有效替代一些傳統(tǒng)架構(gòu)并開啟“超長文本輸入時代”。

  在應(yīng)用創(chuàng)新架構(gòu)之外,MiniMax還大規(guī)模重構(gòu)了01系列模型的訓(xùn)練和推理系統(tǒng),致力于使其模型能力可與知名閉源模型相媲美。

  眼下,AI Agent的發(fā)展備受業(yè)界關(guān)注。智能體處理的任務(wù)變得越來越復(fù)雜,涉及的數(shù)據(jù)量也越來越大,單個智能體的記憶以及多個智能體協(xié)作間的上下文變得越來越長。因此,AI Agent若要為各行業(yè)帶來更豐富、高效、智能的解決方案,需要長上下文能力與多模態(tài)處理能力的提升。

  (圖片說明:MiniMax-01系列模型憑借對超長上下文的理解和處理能力,在上述任務(wù)中取得“全綠”。)

  據(jù)介紹,MiniMax在GitHub上開源了Text-01模型、VL-01模型的完整權(quán)重,以便于更多開發(fā)者開展有價值、有突破性的研究。

  通過開源模型激發(fā)AI產(chǎn)業(yè)的創(chuàng)新活力,正成為賦能新質(zhì)生產(chǎn)力發(fā)展的引擎之一。

  MiniMax相關(guān)負(fù)責(zé)人說:“我們認(rèn)為這有可能啟發(fā)更多長上下文的研究和應(yīng)用,從而更快地促進(jìn)Agent時代的到來。另外,開源也能驅(qū)動我們努力創(chuàng)新,更高質(zhì)量地開展后續(xù)模型研發(fā)工作!(完)

注:請在轉(zhuǎn)載文章內(nèi)容時務(wù)必注明出處!   

編輯:鄭瑩瑩  

本網(wǎng)站所刊載信息,不代表中新社和中新網(wǎng)觀點。 刊用本網(wǎng)站稿件,務(wù)經(jīng)書面授權(quán)。
未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制及建立鏡像,違者將依法追究法律責(zé)任。
常年法律顧問:上海金茂律師事務(wù)所