中新網(wǎng)上海新聞1月11日電(鄭瑩瑩)商湯日前宣告正式推出 “日日新”融合大模型。
相較于一般傳統(tǒng)大語言模型僅支持單一文本輸入的模式,“日日新”融合大模型能夠滿足用戶對圖像、視頻、語音、文本等多源異構(gòu)信息的綜合處理與識別需求。

這在自動駕駛、視頻交互、辦公教育、金融、園區(qū)管理、工業(yè)制造等天然擁有豐富模態(tài)信息的場景中展現(xiàn)出優(yōu)勢。
原生多模態(tài)大模型是業(yè)內(nèi)探索的重要方向之一。但多模態(tài)訓(xùn)練過程往往會導(dǎo)致純語言任務(wù),尤其是指令跟隨和推理任務(wù)的性能嚴重下降。
商湯在推動語言模型和多模態(tài)模型融合的過程中,發(fā)展出兩項關(guān)鍵技術(shù):融合模態(tài)數(shù)據(jù)合成與融合任務(wù)增強訓(xùn)練,從而完成“日日新”融合大模型的訓(xùn)練,進而推向市場。(完)
注:請在轉(zhuǎn)載文章內(nèi)容時務(wù)必注明出處!
編輯:鄭瑩瑩