識別人類情緒、實時回答更健談!GPT-4o發(fā)布或開啟人工智能交互新潮流
OpenAI又迎來升級,搖身一變成了人工智能語音助手。
北京時間周二凌晨1點, 人工智能(AI)巨頭OpenAI舉行春季發(fā)布會。公司首席技術(shù)官Mira Murati帶來了多項與ChatGPT有關(guān)的更新。
本次發(fā)布會要點:
新的 GPT-4o 模型:打通任何文本、音頻和圖像的輸入,相互之間可以直接生成,無需中間轉(zhuǎn)換
GPT-4o 語音延遲大幅降低,能在 232 毫秒內(nèi)回應(yīng)音頻輸入,平均為 320 毫秒,這與對話中人類的響應(yīng)時間相似。
GPT-4o 向所有用戶免費開放
GPT-4o API,比 GPT 4-Turbo 快 2 倍,價格便宜 50%
驚艷的實時語音助手演示:對話更像人、能實時翻譯,識別表情,可以通過攝像頭識別畫面寫代碼分析圖表
ChatGPT 新 UI,更簡潔
一個新的 ChatGPT 桌面應(yīng)用程序,適用于 macOS,Windows 版本今年晚些時候推出
整場發(fā)布會中,最吸引人的莫過于GPT-4o 模型。
據(jù)OpenAI表示,GPT-4o是一個“原生多模態(tài)”模型,它的命名來源于“omni”,即包羅萬象之意。
比起此前要么是圖文模式要么是語音模式的GPT-4,它更擅長打組合拳,可以接受文字、音頻、圖像的任意組合輸入,然后無縫銜接圖文音頻的多種形式輸出。
GPT4o可檢測人的情緒
OpenAI聯(lián)合創(chuàng)始人奧特曼曾表示,“多模態(tài)交互能力非常強大,比如可以問:‘嘿,ChatGPT,我正在看什么’或‘我不太確定這是哪種植物?!?/p>
“我期望的是一種始終處于激活狀態(tài),且極易使用的設(shè)備,可以通過語音、文字,或者更理想的其他狀態(tài),來理解我的需求?!眾W特曼表示,“設(shè)想有個系統(tǒng)能全天輔助我,盡可能多地去收集上下文信息,成為世界上最出色的助理,不斷地幫助我提升自我。”
通過響應(yīng)速度的大幅提升,該模型在語音模式下,已經(jīng)可以達到“實時”響應(yīng)的狀態(tài),不再需要尷尬地等上幾秒鐘,等ChatGPT給出一個回答。
換句話說,用戶可以與ChatGPT像真人一樣聊天——在機器人回應(yīng)的過程中打斷它,提出更多的要求(例如轉(zhuǎn)變話題、要求機器人改變語音語調(diào)),再也不需要等待機器人完成上一個問題的回復(fù)后,再提出新的問題。
發(fā)布會上,主持人與ChatGPT寒暄幾句,它能夠從對方的喘氣聲中理解“緊張”的含義,并且指導(dǎo)他進行深呼吸。
隨后,主持人開了攝像頭,拍了白紙上一道題目,請ChatGPT實時幫忙解一個一元方程題,又解讀了一幅氣溫圖表。除了圖像識別和解題能力外,ChatGPT展現(xiàn)了實時根據(jù)影像變化,與人們實時互動的能力。
主持人還展示了和ChatGPT進行意大利語、英語的對話聊天,ChatGPT毫不費力地就能充當(dāng)兩人的現(xiàn)場翻譯員,實時準(zhǔn)確地翻譯出對話內(nèi)容。
用戶無需注冊即可使用ChatGPT
此外,OpenAI宣布,將允許用戶直接使用ChatGPT,而無需注冊該項服務(wù),同時ChatGPT的免費用戶也能用上最新發(fā)布的GPT-4o模型(更新前只能使用GPT-3.5),來進行數(shù)據(jù)分析、圖像分析、互聯(lián)網(wǎng)搜索、訪問應(yīng)用商店等操作。這也意味著GPT應(yīng)用商店的開發(fā)者,將面對海量的新增用戶。
當(dāng)然,付費用戶將會獲得更高的消息限制,至少是免費用戶的5倍。當(dāng)免費用戶用完消息數(shù)量后,ChatGPT將自動切換到 GPT-3.5。另外,OpenAI將在未來1個月左右向Plus用戶推出基于GPT-4o改進的語音體驗,目前GPT-4o的API并不包含語音功能。
蘋果用戶迎來ChatGPT桌面應(yīng)用
最后,蘋果電腦用戶將迎來一款為macOS設(shè)計的ChatGPT桌面應(yīng)用,用戶可以通過快捷鍵“拍攝”桌面并向ChatGP提問,OpenAI表示,Windows版本將在今年晚些時候推出。
OpenAI 還表示,ChatGPT 還優(yōu)化了用戶界面,有了全新的界面。OpenAI 的演示顯示,用戶可以將處于最小化窗口的 ChatGPT 桌面應(yīng)用與其他程序并排打開。用戶可以通過輸入或語音的方式向 ChatGPT 提問屏幕上顯示的內(nèi)容,ChatGPT 則能根據(jù)其“所見” 進行回答。
對于蘋果用戶,人們可以通過 Option + 空格鍵向 ChatGPT 提問,并且可以在應(yīng)用內(nèi)截取和討論屏幕截圖。
參考來源:潮新聞客戶端、機器之心、果殼、GitHub愛好者社區(qū)等
整理:段大衛(wèi)