界面新聞獲悉,1月26日晚,阿里正式推出千問(wèn)系列旗艦推理模型Qwen3-Max-Thinking。根據(jù)阿里公布的數(shù)據(jù),該模型在19項(xiàng)權(quán)威基準(zhǔn)測(cè)試中的表現(xiàn)媲美OpenAI的GPT-5.2-Thinking、谷歌的Gemini 3 Pro等國(guó)際頂尖模型,標(biāo)志著國(guó)產(chǎn)大模型在高階推理領(lǐng)域?qū)崿F(xiàn)重要突破。
該模型總參數(shù)量超萬(wàn)億,預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36T Tokens,經(jīng)大規(guī)模強(qiáng)化學(xué)習(xí)打磨而成。相較于前代模型,其核心改進(jìn)集中在兩方面。
一是自適應(yīng)工具調(diào)用能力,可按需調(diào)用搜索引擎和代碼解釋器,現(xiàn)已上線Qwen Chat。與早期需要用戶手動(dòng)選擇工具的方法不同,Qwen3-Max-Thinking能在對(duì)話中自主選擇并調(diào)用其內(nèi)置的搜索、記憶和代碼解釋器功能。這種能力讓模型能像專業(yè)人士一樣自主判斷是否調(diào)用搜索、記憶或代碼解釋器,比如解答實(shí)時(shí)政策問(wèn)題時(shí)自動(dòng)檢索最新信息,處理工程計(jì)算時(shí)啟動(dòng)代碼工具驗(yàn)證結(jié)果,無(wú)需用戶額外指令即可降低“幻覺(jué)”風(fēng)險(xiǎn)。
Qwen3-Max-Thinking相關(guān)測(cè)試數(shù)據(jù) 圖片來(lái)源:千問(wèn)另一個(gè)是測(cè)試時(shí)擴(kuò)展技術(shù)(Test-Time Scaling),指在推理階段分配額外計(jì)算資源以提升模型性能的技術(shù)。據(jù)稱顯著提升推理性能,在關(guān)鍵推理基準(zhǔn)上超越Gemini 3 Pro。
一般AI遇到難題,會(huì)同時(shí)想很多思路,很多是重復(fù)的,白白耗算力。該技術(shù)則通過(guò)“經(jīng)驗(yàn)提取”式反思,避免傳統(tǒng)模型并行推理的冗余計(jì)算,在相同算力下聚焦未解決難點(diǎn),使GPQA科學(xué)知識(shí)測(cè)試得分從90.3提升至92.8,LiveCodeBench編程測(cè)試從88.0升至91.4。
針對(duì)Qwen3-Max-Thinking的更多性能評(píng)估 圖片來(lái)源:千問(wèn)在性能比拼中,該模型在被稱為“人類最后的測(cè)試”的HLE工具調(diào)用基準(zhǔn)中,以58.3分遠(yuǎn)超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分;IMO級(jí)數(shù)學(xué)推理測(cè)試獲91.5分登頂,預(yù)覽版更曾拿下AIME 25與HMMT 25雙滿分。
目前,普通用戶可通過(guò)千問(wèn)PC端、網(wǎng)頁(yè)端免費(fèi)體驗(yàn),企業(yè)則能通過(guò)阿里云百煉獲取API服務(wù)。
1月21日,全球最大AI開(kāi)源社區(qū)Hugging Face最新數(shù)據(jù)顯示,阿里千問(wèn)衍生模型數(shù)突破20萬(wàn)個(gè),成為全球首個(gè)達(dá)成此目標(biāo)的開(kāi)源大模型;同時(shí),千問(wèn)系列模型下載量突破10億次,平均每天被下載110萬(wàn)次,已完全超越美國(guó)Llama,穩(wěn)居開(kāi)源大模型全球第一。
阿里CEO吳泳銘去年曾表示,公司正在積極推進(jìn)三年3800億的AI基礎(chǔ)設(shè)施建設(shè)計(jì)劃,并將會(huì)持續(xù)追加更大的投入。這一投入規(guī)模與谷歌、Meta和亞馬遜等美股科技巨頭的AI資本開(kāi)支處于同一量級(jí)。