阿里云發(fā)布通義千問(wèn)2.5,中文性能全面趕超GPT-4 Turbo,中文能力地表最強

2024-05-09 23:01:15來(lái)源:威易網(wǎng)作者:王陽(yáng)

相比此前的通義千問(wèn)2.1版,通義千問(wèn)2.5的理解能力、邏輯推理、指令遵循、代碼能力分別提升9%、16%、19%、10%,中文能力更是持續領(lǐng)先業(yè)界。

通義大模型發(fā)布一周年之際,迎來(lái)重要的歷史性時(shí)刻。5月9日,阿里云正式發(fā)布通義千問(wèn)2.5,模型中文性能全面趕超GPT-4 Turbo,成為地表最強中文大模型。同時(shí),通義千問(wèn)1100億參數開(kāi)源模型在多個(gè)基準測評收獲最佳成績(jì),超越Llama-3-70B,成為開(kāi)源領(lǐng)域最強大模型。

歷經(jīng)一年多追趕,國產(chǎn)大模型終于進(jìn)入核心競技場(chǎng),可與國外一流大模型一較高下。 

奮力追趕一年,成就最強中文大模型

大模型技術(shù)爆發(fā)一年多,行業(yè)競爭態(tài)勢激烈而又多變。通義千問(wèn)走了一條最“卷”的路,2023年4月問(wèn)世以來(lái),始終專(zhuān)注于基礎模型的技術(shù)研發(fā),從初代模型升級至2.5版本。相比此前的通義千問(wèn)2.1版,通義千問(wèn)2.5的理解能力、邏輯推理、指令遵循、代碼能力分別提升9%、16%、19%、10%,中文能力更是持續領(lǐng)先業(yè)界。根據權威基準OpenCompass的測評結果,通義千問(wèn)2.5得分追平GPT-4 Turbo,是該基準首次錄得國產(chǎn)大模型取得如此佳績(jì)。

\

同時(shí),通義還發(fā)布了1100億參數開(kāi)源模型Qwen1.5-110B,該模型在MMLU、TheoremQA、GPQA等基準測評中超越Meta的Llama-3-70B,在HuggingFace開(kāi)源大模型排行榜Open LLM Leaderboard上進(jìn)入榜首,再度證明通義開(kāi)源系列業(yè)界最強的競爭力。

通義多模態(tài)模型和專(zhuān)有能力模型也具備業(yè)界頂尖影響力。在多個(gè)多模態(tài)標準測試中,通義千問(wèn)視覺(jué)理解模型Qwen-VL-Max得分超越Gemini Ultra和GPT-4V,這款模型已在多家企業(yè)落地;代碼大模型CodeQwen1.5-7B則是HuggingFace代碼模型榜單Big Code的榜首模型,也是國內用戶(hù)規模第一的智能編碼助手通義靈碼的底座。

\

從曾經(jīng)的追趕者到如今的并行者,通義大模型頻頻霸榜,可以說(shuō)是國產(chǎn)大模型一年來(lái)砥礪前行、奮力追趕的縮影。

一年間,通義還發(fā)展出了業(yè)界領(lǐng)先的文生圖、智能編碼、文檔解析、音視頻理解等能力,企業(yè)客戶(hù)和開(kāi)發(fā)者可以通過(guò)API調用、模型下載等方式接入通義,個(gè)人用戶(hù)可從APP、官網(wǎng)和小程序免費使用通義。大會(huì )當日,原通義千問(wèn)APP宣布更名為“通義APP”,將通義大模型全套能力集于一身,致力于成為“通情達義”的全能AI助手。 

堅定開(kāi)源路線(xiàn),成為中國最強開(kāi)源大模型

去年8月,通義宣布加入開(kāi)源行列,隨之啟動(dòng)馬不停蹄的開(kāi)源狂飆,沿著(zhù)“全模態(tài)、全尺寸”開(kāi)源路線(xiàn)陸續推出十多款模型。目前,通義開(kāi)源模型下載量已經(jīng)超過(guò)700萬(wàn)。

大模型的訓練和迭代成本極高,絕大部分的AI開(kāi)發(fā)者和中小企業(yè)都無(wú)法負擔。Meta、阿里云等推動(dòng)的大模型開(kāi)源風(fēng)潮,讓開(kāi)發(fā)者不必從頭訓練模型,還把模型選型的主動(dòng)權交給了開(kāi)發(fā)者,大大加速了大模型的應用落地進(jìn)程。

\

為順應不同場(chǎng)景用戶(hù)需求,通義推出參數規模橫跨5億到1100億的八款大語(yǔ)言模型,小尺寸模型如0.5B、1.8B、4B、7B、14B,可便捷地在手機、PC等端側設備部署;大尺寸模型如72B、110B能支持企業(yè)級和科研級的應用;中等尺寸如32B試圖在性能、效率和內存占用之間找到最具性?xún)r(jià)比的平衡點(diǎn)。此外,通義還開(kāi)源了視覺(jué)理解模型Qwen-VL、音頻理解模型Qwen-Audio、代碼模型CodeQwen1.5-7B、混合專(zhuān)家模型Qwen1.5-MoE。

通義72B、110B開(kāi)源模型都曾登頂Open LLM Leaderboard榜首。在開(kāi)放研究機構LMSYS Org推出的基準測試平臺Chatbot Arena上,通義72B模型多次進(jìn)入“盲測”結果全球Top 10,創(chuàng )造了國產(chǎn)大模型的先例。

\

長(cháng)期沉淀的良好口碑為通義開(kāi)源模型贏(yíng)得一眾鐵粉,每有開(kāi)源動(dòng)作都會(huì )早早被開(kāi)發(fā)者“蹲守”,也總能獲得生態(tài)伙伴第一時(shí)間支持。“開(kāi)發(fā)者的反饋和開(kāi)源社區的生態(tài)支持,是通義大模型技術(shù)進(jìn)步的重要助力。”阿里云CTO周靖人透露,未來(lái)通義大模型還會(huì )持續開(kāi)源。

開(kāi)源開(kāi)放,打造最受中國企業(yè)歡迎的大模型

通義正在成為最受中國企業(yè)歡迎的大模型。根據最新數據,通義通過(guò)阿里云服務(wù)企業(yè)超過(guò)9萬(wàn)、通過(guò)釘釘服務(wù)企業(yè)超過(guò)220萬(wàn),現已落地PC、手機、汽車(chē)、航空、天文、礦業(yè)、教育、醫療、餐飲、游戲、文旅等領(lǐng)域。

5月9日,小米旗下的人工智能助手“小愛(ài)同學(xué)”與阿里云通義大模型達成合作,強化其在圖片生成、圖片理解等方面的多模態(tài)AI 生成能力,并在小米汽車(chē)、手機等多類(lèi)設備落地;微博、眾安保險、完美世界游戲等企業(yè)也宣布接入通義大模型,將大模型應用于社交媒體、保險、游戲等領(lǐng)域。

\

此前,通義大模型還曾“上天入地”服務(wù)客戶(hù),中國科學(xué)院國家天文臺人工智能組基于通義千問(wèn)開(kāi)發(fā)了新一代天文大模型“星語(yǔ)3.0”,這是大模型首次應用于天文觀(guān)測領(lǐng)域;陜煤建新煤礦等十余座礦山推出由通義支持的新型礦山重大風(fēng)險識別處置系統,成為大模型在礦山場(chǎng)景的首次規;涞。

一直以來(lái),阿里云都強調要成為“AI時(shí)代最開(kāi)放的云”,通過(guò)開(kāi)放的算力平臺、開(kāi)源的自研模型、優(yōu)質(zhì)的模型服務(wù),幫助客戶(hù)抓住大模型時(shí)代的機遇。如今,開(kāi)源開(kāi)放戰略正為阿里云帶來(lái)新的商業(yè)增長(cháng)。