上海 AI 實驗室發(fā)布“書生·浦語”大模型
6 月 7 日,上海人工智能實驗室(上海 AI 實驗室)、商湯科技聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級參數(shù)大語言模型“書生·浦語”(InternLM)。
“書生·浦語”具有 1040 億參數(shù),是在包含 1.6 萬億 token 的多語種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。
上海人工智能實驗室稱,全面評測結(jié)果顯示,“書生·浦語”不僅在知識掌握、閱讀理解、數(shù)學(xué)推理、多語翻譯等多個測試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強(qiáng)的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項中文考試中取得超越 ChatGPT 的成績,其中就包括中國高考各科目的數(shù)據(jù)集(GaoKao)。
聯(lián)合團(tuán)隊選取了 20 余項評測對其進(jìn)行檢驗,其中包含全球最具影響力的四個綜合性考試評測集——由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評測集 MMLU;由微軟研究院推出的學(xué)科考試評測集 AGIEval(含中國高考、司法考試及美國 SAT、LSAT、GRE 和 GMAT 等);由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集 C-Eval;由復(fù)旦大學(xué)研究團(tuán)隊構(gòu)建的高考題目評測集 Gaokao。
“書生·浦語”在考試評測上取得優(yōu)秀成績,但仍然存在不少局限性。
比如,“書生·浦語” 受限于 2K 的語境窗口長度(GPT-4 的語境窗口長度為 32K),在長文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題。
這些局限使得大語言模型“書生·浦語”在開放場景中的使用還有很長的路要走。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?