烏鴉AI日報：快手、百度地圖上線蘋果Vision Pro，Runway Gen 3可生成3D巨幅字幕效果

烏鴉智能說 2024-07-02

展開全文

快手推出蘋果Vision Pro版本應(yīng)用，可以多開屏幕和頁面，實現(xiàn)“邊刷視頻邊評論”。百度地圖也上線了“百度地圖時光機(jī)”的Vision Pro應(yīng)用，用戶可體驗360度全景地圖。

Runway最新推出的Gen-3Alpha視頻生成模型在保真度、一致性和動作表現(xiàn)方面有重大改進(jìn)，不僅生成穩(wěn)定光影，還展現(xiàn)強(qiáng)大想象力，內(nèi)測博主展示了3D巨幅字幕效果。

過去的一天，國內(nèi)外AI行業(yè)還有哪些熱點值得關(guān)注呢？讓烏鴉君帶你一起看看吧。

/ 01 / 大模型

1）Meta最新發(fā)布的LLM Compiler，實現(xiàn)77%自動調(diào)優(yōu)效率

Meta發(fā)布開源模型LLM Compiler通過優(yōu)化編譯器設(shè)計，實現(xiàn)了77%的自動調(diào)優(yōu)效率，顯著提高代碼編譯的速度和效率；該模型在反匯編任務(wù)中表現(xiàn)突出，成功率達(dá)45%，為逆向工程和舊代碼維護(hù)提供了強(qiáng)大工具；該模型在龐大的LLVM-IR和匯編代碼庫上訓(xùn)練，增強(qiáng)了對編譯器中間表示和匯編語言的理解。

2）智譜稱國產(chǎn)大模型GLM-4-9B性能超過了谷歌Gemma

針對谷歌新發(fā)布的Gemma-2開源模型，國內(nèi)大模型獨角獸智譜 AI 向媒體展示一份數(shù)據(jù)稱，提供的各項評測對比中，近1個月前發(fā)布開源的國產(chǎn)大模型GLM-4-9B似乎更具有優(yōu)勢。具體來說，在語義、數(shù)學(xué)、推理、代碼和知識等多方面的數(shù)據(jù)集測評中，GLM-4-9B-Chat版本均表現(xiàn)出較高的性能。

3）面壁智能助力全國首個司法審判垂直領(lǐng)域大模型誕生

面壁智能宣布，全國首個司法審判垂直領(lǐng)域大模型于深圳誕生，深圳市中級人民法院上線運(yùn)行人工智能輔助審判系統(tǒng)，能夠精確診斷案情，解決AI在司法領(lǐng)域的應(yīng)用難題。深圳法院人工智能輔助審判系統(tǒng)具有全流程AI賦能、材料入口要素化、首創(chuàng)樹狀提示詞工程、權(quán)威知識服務(wù)體系、裁判思維鏈路標(biāo)準(zhǔn)化等亮點。

4）榮耀與字節(jié)豆包大模型達(dá)成合作

火山引擎宣布榮耀與字節(jié)豆包大模型達(dá)成合作。火山引擎首先為其提供了包含語音識別、角色扮演等多款模型在內(nèi)的豆包大模型家族，構(gòu)建榮耀垂直模型落地應(yīng)用的基礎(chǔ)能力。在智慧辦公領(lǐng)域，豆包大模型可幫助榮耀為用戶提供基于文檔理解的互動問答、會議紀(jì)要以及輔助創(chuàng)作等功能。

5）Runway Gen 3可生成電影片頭3D巨幅字幕效果

Runway最新推出的Gen-3Alpha視頻生成模型在保真度、一致性和動作表現(xiàn)方面有重大改進(jìn)，不僅生成穩(wěn)定光影，還展現(xiàn)強(qiáng)大想象力。內(nèi)測博主展示了3D巨幅字幕效果，Gen3即將對所有人開放使用。

6）GPTPdf：使用類似GPT-4o的多模態(tài)LLM分析PDF文件

開源項目“GPTpdf”在Github爆火，它使用了類似GPT-4o的VLLM模型解析PDF文件并轉(zhuǎn)換為Markdown格式。該項目代碼簡潔高效，只有293行，卻能完美解析排版、數(shù)學(xué)公式、表格、圖片、圖表等各種內(nèi)容。費(fèi)用每頁平均成本為0.013美元。

/ 02 / AI應(yīng)用

1）蘋果或正在將Apple智能引入Vision Pro

科技記者M(jìn)ark Gurman最新報道，蘋果的人工智能套件“Apple智能”即將登陸Vision Pro頭顯，不過相關(guān)功能預(yù)計在明年才能推出。Vision Pro具有16GB內(nèi)存來支持Apple智能運(yùn)行，并且其操作系統(tǒng)visionOS本質(zhì)上也是iPadOS的變體，因此Gurman認(rèn)為，為頭顯適配Apple智能的難度不會很大。

2）快手、百度地圖時光機(jī)上線蘋果Vision Pro頭顯

快手官方宣布，推出蘋果Vision Pro版本應(yīng)用，可以多開屏幕和頁面，實現(xiàn)“邊刷視頻、邊瀏覽個人主頁、邊開啟評論面板”。百度地圖也上線了“百度地圖時光機(jī)”的Vision Pro應(yīng)用，用戶可以在應(yīng)用中體驗360度全景地圖，用戶視野向下，可查看當(dāng)前地圖的時間及地點信息，“雙手合十”可切換眼前場景。

3）百度：近八成考生用AI填報志愿

百度官方發(fā)布的數(shù)據(jù)顯示，僅6月25日一天，就有超過1000萬用戶使用了百度AI志愿助手，輔助填報志愿。據(jù)悉，高考結(jié)束后，全國有超1300萬考生陸續(xù)進(jìn)入高考填報志愿環(huán)節(jié)。此外，夸克App也推出了智能選志愿服務(wù)，靠譜AI推出了國內(nèi)首款多個大語言模型加持的志愿填報AI工具。

4）字節(jié)跳動發(fā)布豆包MarsCo智能開發(fā)工具

字節(jié)跳動發(fā)布了基于豆包大模型打造的智能開發(fā)工具豆包MarsCode，面向國內(nèi)開發(fā)者免費(fèi)開放。MarsCode包括編程助手和Cloud IDE兩種產(chǎn)品形態(tài)，支持超過100種主流編程語言，可在需求開發(fā)、修復(fù)Bug、開源項目學(xué)習(xí)三個場景中實現(xiàn)項目問答、代碼補(bǔ)全、單測生成等功能。

5）熱門AI搜索工具Perplexity被指引用錯誤信息

AI搜索工具Perplexity被曝引用錯誤的AI生成垃圾信息，這些信息來自LinkedIn文章。初創(chuàng)公司GPTZero發(fā)現(xiàn)Perplexity鏈接的來源中有越來越多是AI生成的，甚至?xí)褂眠@些來源中的過時和不正確信息。

6）奧迪微軟強(qiáng)強(qiáng)聯(lián)手：約200萬輛汽車即將接入ChatGPT

奧迪計劃從今年7月起為約200萬輛汽車接入ChatGPT技術(shù)，以提升車輛的語音控制功能。配備模塊化信息娛樂系統(tǒng)(MIB3)的奧迪車型將通過ChatGPT，允許車主在駕駛時使用自然語言查詢信息。新車型如Q6 e-tron以及未來搭載E3 1.2電子架構(gòu)的車型，將接入ChatGPT，擴(kuò)展奧迪助手的功能。

7）知乎AI搜索功能正式產(chǎn)品化：發(fā)布AI產(chǎn)品“知乎直答”

知乎發(fā)布最新的AI產(chǎn)品“知乎直答”。“發(fā)現(xiàn)·AI搜索”則是基于“知海圖AI”大模型能力，推出的一款集新搜索、實時問答和追問功能于一體的嘗鮮版AI搜索功能。知乎官方也預(yù)告，接下來“知乎直答”將逐步推進(jìn)App開發(fā)和多模態(tài)能力的引入。

8）CharacterAI推出新語音功能，可以給AI角色“打電話”

Character.AI推出了能與AI角色進(jìn)行實時語音通話的功能，支持多種語言包括英語、西班牙語、和中文等；這項功能通過超過300萬用戶的測試，確保了通話體驗的自然流暢性，與真人聊天無明顯差異；Character.AI還增強(qiáng)了AI角色的現(xiàn)實感，用戶可以選擇或創(chuàng)建超過100萬種獨特的聲音。

/ 03 / 投融資情報

1）AI文檔搜索公司Hebbia完成近1億美元B輪融資，估值達(dá)8億美金

據(jù)TechCrunch報道，三位知情人士透露，一家研發(fā)生成式AI搜索大型文檔工具的初創(chuàng)公司Hebbia，近日已完成由Andreessen Horowitz（a16z）領(lǐng)投的近1億美元B輪融資。

2）吳恩達(dá)計劃為其AI基金繼續(xù)籌集1.2億美元

吳恩達(dá)計劃為其AI基金籌集超過1.2億美元，展現(xiàn)了他在人工智能領(lǐng)域的持續(xù)投入和影響力。這一舉動也反映了人工智能行業(yè)的發(fā)展趨勢和潛在泡沫風(fēng)險。

3）OpenAI據(jù)悉聘請Zapier原首席營收官擔(dān)任銷售戰(zhàn)略負(fù)責(zé)人

據(jù)報道，知情人士稱，OpenAI正在擴(kuò)展其企業(yè)軟件業(yè)務(wù)，擔(dān)任企業(yè)軟件提供商Zapier首席營收官兩年多的Giancarlo Lionetti已加入OpenAI，擔(dān)任銷售戰(zhàn)略負(fù)責(zé)人。

/ 04 / AI基礎(chǔ)設(shè)施

1）軟銀孫正義計劃籌措1000億美元成立AI芯片企業(yè)

根據(jù)今年2月的媒體報道，軟銀正在制定一項計劃將約1000億美元投入到AI相關(guān)芯片中的計劃，該項目被命名為是“伊邪那岐”。上周，當(dāng)某股東問及“伊邪那岐”時，孫正義表示，他將致力于取得成果，并將努力實現(xiàn)自己設(shè)定的目標(biāo)，但沒有詳細(xì)說明。

2）微軟AI負(fù)責(zé)人：未來知識生產(chǎn)成本將降到邊際成本為零

微軟AI首席執(zhí)行官穆斯塔法·蘇萊曼示，對于許多開放網(wǎng)絡(luò)上的內(nèi)容，默認(rèn)的社會契約是允許這種使用的?，F(xiàn)有知識產(chǎn)權(quán)法在某種程度上有寬松性，在AI時代這種寬松性面臨挑戰(zhàn)。蘇萊曼認(rèn)為，信息經(jīng)濟(jì)學(xué)即將發(fā)生根本性的變化，“因為我們將把知識的生產(chǎn)成本降低到邊際成本為零”。

3）加速視頻生成新方法PAB：可實時生成視頻，每秒21.6幀

這篇文章介紹了新加坡國立大學(xué)和普渡大學(xué)研究人員成功提出的PAB技術(shù)，實現(xiàn)了基于擴(kuò)散式轉(zhuǎn)換的視頻生成的實時處理。該技術(shù)通過減少冗余的關(guān)注計算，實現(xiàn)了高達(dá)21.6幀每秒的生成速度，加速了10.6倍，同時適用于多個熱門的DiT視頻生成模型。

4）首個多模態(tài)視頻競技場Video-MME發(fā)布

首個多模態(tài)LLM視頻分析綜合評估基準(zhǔn)Video-MME發(fā)布。在其基準(zhǔn)考試中，Gemini 1.5 Pro一路遙遙領(lǐng)先，在全新的、更復(fù)雜的多模態(tài)考試中大獲全勝，全面超越了GPT-4o。

5）Sam Altman：AGI或在十年內(nèi)實現(xiàn)全球GDP翻倍

OpenAI CEO Sam Altman認(rèn)為AGI可能會使全球GDP翻倍，同時他還聲稱“這對我來說是合理的，肯定與其他技術(shù)革命一致。我們確實認(rèn)為這將是一個巨大的生產(chǎn)力驅(qū)動因素，甚至在早期階段，我們已經(jīng)看到人們用它來極大地改進(jìn)產(chǎn)品和服務(wù)”。