北京時間4月15日凌晨1點,OpenAI進行了技術直播發布了最新模型——GPT-4.1。
除了GPT-4.1之外,還有GPT4.1-Mini和GPT4.1-Nano兩款模型,在多模態處理、代碼能力、指令遵循、成本方面實現大幅度提升。特別是支持100萬token上下文,這對于金融分析、小說寫作、教育等領域幫助巨大。
圖片來源:OpenAI官網截圖
當日,OpenAI首席執行官奧特曼表示,GPT-4.1(以及-Mini和-Nano)現已在API中可用。
由于GPT-4.1的發布,OpenAI宣布將會淘汰剛發布不久的GPT-4.5,其能力可見一斑。
目前,如果想體驗GPT-4.1而無法通過API身份驗證的小伙伴,微軟已經在AzureOpenAI上線了該模型,可以使用了。
GPT-4.1最大亮點之一就是支持100萬tokens上下文,這也是OpenAI首次發布長窗口模型。
與前代模型相比,GPT-4.1、GPT-4.1Mini和GPT-4.1Nano能夠處理多達100萬tokens的上下文,是GPT-4o的8倍。
OpenAI在LongContextEvals上對長文本進行了測試,測試結果顯示,GPT-4.1系列的三個模型均能夠在語料庫的任何深度找到目標文本,無論是開頭、中間還是結尾,甚至在長達100萬tokens的上下文中,模型依然能夠準確地定位目標文本。
OpenAI還在Multi-RoundCoreference進行了測試,通過創建合成對話來測試模型在長上下文中的理解和推理能力。在這些對話中,用戶和助手交替進行對話,用戶可能會要求模型生成一首關于某個主題的詩,接著要求生成另一首關于不同主題的詩,然后可能要求生成一個關于第三個主題的短故事。模型需要在這些復雜的對話中找到特定的內容,例如“第二篇關于某個主題的短故事”。
測試結果顯示,GPT-4.1在處理長達128Ktokens的數據時顯著優于GPT-4o,并且在長達100萬tokens的上下文中依然能夠保持較高的性能。在編碼能力測試中,SWEBench評估將模型置于Python代碼庫環境,讓其探索代碼庫、編寫代碼和測試用例。結果顯示,GPT-4.1的準確率達到55%,而GPT-4o僅為33%。
該測試中,模型會收到一個代碼庫和問題描述,然后其需要生成補丁來解決該問題,模型的表現會高度依賴于所使用的提示和工具。
在多語言編碼能力測試方面,Aderpolyglot基準測試涵蓋多種編程語言和不同格式要求。GPT-4.1在差異性能上較GPT-4o提升一倍,在處理多語言編程任務、代碼優化和版本管理時更高效。
在指令遵循能力測試中,OpenAI構建內部評估體系,模擬API開發者使用場景,測試模型對復雜指令的遵循能力。每個樣本包含分屬不同類別的復雜指令,并分難度等級。在困難子集評估中,GPT-4.1遠超GPT-4o。
在多模態處理測試的視頻MME基準測試中,GPT4.1對30~60分鐘無字幕視頻進行理解并回答多項選擇題,取得72%的成績,達到當前最佳水平,在視頻內容理解上實現重大突破。
價格方面,GPT-4.1系列在性能提升的同時,價格更具競爭力。GPT-4.1相比GPT-4o價格降低26%,而GPT-4.1Nano作為最小、最快且最便宜的模型,每百萬token的成本僅為12美分。
當地時間4月14日,OpenAI首席執行官山姆·奧特曼在社交平臺透露,接下來的一周將發布很多新產品。本月初,他曾表示將在數周內發布o3、o4-mini,未來幾月內發布GPT-5。
根據OpenAI在其官網上發布的公告,OpenAI兩年前推出的人工智能模型GPT-4將于本月底從聊天機器人ChatGPT中“退役”。OpenAI表示,從4月30日起,GPT-4將被GPT-4o“完全取代”,后者是ChatGPT目前的默認模型。不過,GPT-4仍可通過OpenAI的API使用。
OpenAI寫道,“在正面評估中,GPT-4o在寫作、編碼、STEM等方面一直超過GPT-4。此外,最近的升級進一步改進了GPT–4o的指令遵循、問題解決和會話流程,使其成為GPT-4的自然繼承者。”
GPT-4于2023年3月推出,被用于ChatGPT和微軟的Copilot聊天機器人。GPT-4模型具有多個版本,還擁有多模態功能,這允許它們同時理解圖像和文本。OpenAI首席執行官奧爾特曼當時還表示,GPT-4的規模龐大,培訓成本超過1億美元。
后來在2023年11月,OpenAI推出GPT-4Turbo模型,這是一種更快且更便宜的模型。
去年5月,GPT-4o被推出,其在多模態功能方面更加強大,據時任OpenAI首席技術官穆拉蒂表示,GPT-4o中的“o”代表了“全能”。