(相關資料圖)
“書生·浦語”聯(lián)合團隊選取了20余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集,對“書生·浦語”、清華大學的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT和GPT-4進行了全面測試。
6月7日,上海人工智能實驗室(上海AI實驗室)、商湯科技聯(lián)合香港中文大學、復旦大學及上海交通大學發(fā)布千億級參數(shù)大語言模型“書生·浦語”(InternLM),具有1040億參數(shù),在多項中文考試中取得超越ChatGPT的成績,在數(shù)學考試中成績明顯領先于谷歌、Meta的大模型。
“書生·浦語”聯(lián)合團隊選取了20余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集:由伯克利加州大學等高校構建的多任務考試評測集MMLU;微軟研究院推出的學科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE 和 GMAT等),AGIEval的19個評測大項中有9個大項是中國高考,通常也列為一個重要的評測子集AGIEval(GK);由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval;以及由復旦大學研究團隊構建的高考題目評測集Gaokao。
實驗室聯(lián)合團隊對“書生·浦語”、清華大學的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT和GPT-4進行了全面測試,針對上述四個評測集的成績對比如下(滿分100分)。
標簽: