
文|AI Pioneer 在這個(gè)變幻莫測(cè)的數(shù)字時(shí)代,我們每個(gè)人都像是水手,駕駛著自己的小船在無(wú)垠的信息海洋中探索。然而,這艘由傳統(tǒng)軟件構(gòu)建的船只,似乎已被歲月的風(fēng)霜侵蝕,略顯陳舊。 生成式人工智能的崛起,宛如晨曦中的一線光芒,為尋求變革的創(chuàng)業(yè)者們指引了一條全新的道路。這些新生的公司不再是簡(jiǎn)單地在舊世界的基礎(chǔ)上添加一層人工智能的色彩,而是從根本上,以AI為本質(zhì)、為靈魂,重新定義了產(chǎn)品和服務(wù)。 從表面上看,人工智能似乎僅僅是提高了我們完成日常工作的效率。然而,AI原生平臺(tái)實(shí)則在革新我們與軟件的互動(dòng)方式,它使得用戶能夠?qū)⒛切┈嵥榍壹夹g(shù)含量不高的任務(wù)委托給機(jī)器,而自己則能夠?qū)氋F的時(shí)間和精力,投入到更高層次的思考和創(chuàng)造中。 在a16z的這篇文章中,將深入探索當(dāng)下及未來(lái)最成功的Gen AI原生工作流程的精髓,并展望這些產(chǎn)品將如何繼續(xù)引領(lǐng)時(shí)代潮流。(轉(zhuǎn)自AI Pioneer,內(nèi)容稍有調(diào)整) 探索GenAI時(shí)代:揭秘未來(lái)消費(fèi)者產(chǎn)品的革命性面貌。 在Gen AI原生的工作流程之心,蘊(yùn)藏著一項(xiàng)關(guān)鍵革新:將尖端技術(shù)模型化身為用戶友好、高效能的界面。在這個(gè)以用戶為中心的新紀(jì)元中,工作流程工具的使用者并不糾結(jié)于技術(shù)細(xì)節(jié)的迷宮,他們的目光聚焦于這些產(chǎn)品如何成為他們成功的助力。 盡管生成式人工智能的技術(shù)躍進(jìn)令人贊嘆不已,但真正成功的產(chǎn)品始終植根于深刻理解用戶及其需求的土壤。AI如何巧妙地抽絲剝繭,精確捕捉?jīng)Q策的關(guān)鍵節(jié)點(diǎn)和最有效的杠桿點(diǎn)? 我們預(yù)見(jiàn),這類產(chǎn)品將展現(xiàn)以下幾個(gè)核心功能: 解決“空白頁(yè)”困境(從0到1)消費(fèi)者AI的最早和最直觀的應(yīng)用體現(xiàn)在將自然語(yǔ)言提示轉(zhuǎn)換成媒體產(chǎn)出——比如圖像、視頻和文本生成器。這些工具旨在化解實(shí)際的“空白頁(yè)”挑戰(zhàn),面對(duì)眼前讓人好毫無(wú)頭緒的一片白紙,完成無(wú)論是將幻燈片的文字提示醞釀成故事,還是把簡(jiǎn)單的草圖或大綱升華為更豐富的創(chuàng)作。 有些企業(yè)將通過(guò)自研的專有模型實(shí)現(xiàn)這一點(diǎn),而其他企業(yè)則可能巧妙結(jié)合多種模型(開(kāi)源、專有或通過(guò)API),創(chuàng)造出獨(dú)一無(wú)二的產(chǎn)品體驗(yàn)。以Vizcom的渲染工具為例,用戶只需輸入文本提示、草圖或3D模型,便可迅速得到逼真的渲染效果,從而為創(chuàng)作提供更豐富的迭代空間。 另一個(gè)引人注目的例子是Durable的網(wǎng)站構(gòu)建器,這款產(chǎn)品已經(jīng)成功幫助創(chuàng)建了超過(guò)六百萬(wàn)個(gè)網(wǎng)站,成為一個(gè)顯著的成就。用戶僅需輸入他們的公司名稱、部門和地點(diǎn),Durable就能提供一個(gè)可供個(gè)性化定制的網(wǎng)站模板。 隨著LLM(大語(yǔ)言模型)技術(shù)日益增強(qiáng),未來(lái)的產(chǎn)品——比如Durable能夠從互聯(lián)網(wǎng)和社交媒體等渠道智能地提取和整合有關(guān)您業(yè)務(wù)的實(shí)時(shí)信息,如公司歷史、團(tuán)隊(duì)構(gòu)成、客戶評(píng)價(jià)、品牌標(biāo)識(shí)等。 想象一下,通過(guò)這樣一個(gè)高度集成的產(chǎn)品,您可以獲得更為豐富和復(fù)雜的輸出,極大地簡(jiǎn)化并加速您的網(wǎng)站建設(shè)過(guò)程。這不僅僅是自動(dòng)化的升級(jí),而是一種智能化的革命。它在理解您的業(yè)務(wù)需求和呈現(xiàn)您的品牌故事方面,將展現(xiàn)前所未有的洞察力和創(chuàng)造力。 
多模式和多媒體組合為創(chuàng)意項(xiàng)目帶來(lái)更多可能許多項(xiàng)目需結(jié)合圖像、文本、音樂(lè)、視頻等多種內(nèi)容類型,而目前尚無(wú)單一模型能生成所有類型的資產(chǎn)。這為創(chuàng)新的工作流產(chǎn)品提供了機(jī)遇,允許用戶在一個(gè)平臺(tái)上生成、細(xì)化和組合不同類型的內(nèi)容。 例如,HeyGen的頭像產(chǎn)品就是這類工具的代表。該公司將其化身和配音模型與ElevenLabs的文本轉(zhuǎn)語(yǔ)音API結(jié)合,創(chuàng)造出逼真的數(shù)字人視頻化身(如Justine的視頻化身)。 此外,HeyGen產(chǎn)品還包含模板和類似Canva的編輯器,用戶可以輕松地將頭像整合到幻燈片或視頻中,添加文本或其他元素,無(wú)需轉(zhuǎn)至Powerpoint或Google Slides。這樣的整合為用戶提供了一站式的創(chuàng)意解決方案。 
支持更多迭代的智能編輯器幾乎沒(méi)有任何工作產(chǎn)品是“一次性”的——尤其是人工智能,因?yàn)槊恳淮即嬖诠逃械碾S機(jī)性。您很少能在第一次運(yùn)行時(shí)就得到您想要的結(jié)果。點(diǎn)擊重新生成按鈕和/或修改提示是該過(guò)程的關(guān)鍵部分,但既耗時(shí)又令人沮喪。第一波人工智能生成產(chǎn)品不允許任何迭代:你創(chuàng)建了一個(gè)圖像(或視頻或音樂(lè)),僅此而已。如果您重新運(yùn)行相同的提示,您會(huì)得到完全不同的結(jié)果。 我們現(xiàn)在開(kāi)始看到一些功能,使用戶能夠獲取現(xiàn)有的輸出并對(duì)其進(jìn)行改進(jìn),而無(wú)需完全從頭開(kāi)始。Midjourney 的變化和縮放工具就是一個(gè)很好的例子。 
另外在AI視頻生成工具中,Pika提供了類似的功能。用戶可以獲取他們已經(jīng)創(chuàng)建的剪輯并修改特定區(qū)域。例如,更改角色的性別或頭發(fā)顏色或添加或刪除對(duì)象。用戶還可以通過(guò)修復(fù)現(xiàn)有視頻周圍的空白區(qū)域來(lái)擴(kuò)展畫(huà)布。 平臺(tái)內(nèi)細(xì)化智能編輯的另一個(gè)關(guān)鍵(且相關(guān))要素是精煉。最后10%的打磨工作往往決定著創(chuàng)造出好的東西還是偉大的東西。但這可能是一個(gè)挑戰(zhàn): 1、找出需要改進(jìn)的內(nèi)容; 2、無(wú)需轉(zhuǎn)移到其他產(chǎn)品即可進(jìn)行這些改進(jìn)。 AI工作流程產(chǎn)品可以幫助用戶識(shí)別哪些方面可以改進(jìn),然后自動(dòng)進(jìn)行這些改進(jìn)??梢詫⑵湎胂鬄?Apple 在照片上的“自動(dòng)修飾”功能,但也可以將其視為任何內(nèi)容的“自動(dòng)修飾”!最字面的解釋是升級(jí),這是Krea等平臺(tái)提供的。在一個(gè)界面中,用戶可以生成圖像或設(shè)計(jì),然后對(duì)其進(jìn)行增強(qiáng) - 讓他們更接近最終產(chǎn)品。 ElevenLabs的有聲讀物工作流程是另一個(gè)很好的例子。您可以使用該工具為特定角色生成聲音來(lái)敘述書(shū)籍的各個(gè)部分,然后通過(guò)調(diào)整句子或短語(yǔ)的停頓、穩(wěn)定性或清晰度來(lái)完善輸出。 
可重新混合和轉(zhuǎn)置的輸出人工智能使內(nèi)容具有獨(dú)特的靈活性——每一段內(nèi)容都是下一次迭代的潛在“起點(diǎn)”。如果您曾經(jīng)在Midjourney 或 ChatGPT 中復(fù)制并調(diào)整過(guò)其他人一代的提示,那么您就參與了這一過(guò)程。 發(fā)揮這種靈活性的平臺(tái)可能會(huì)打造出更強(qiáng)大、更具粘性的產(chǎn)品。對(duì)于最初的創(chuàng)作者來(lái)說(shuō),能夠跨媒體轉(zhuǎn)換您的作品具有巨大的價(jià)值,例如,將視頻轉(zhuǎn)變?yōu)椴┛臀恼?,或?qū)⑽谋窘忉屴D(zhuǎn)變?yōu)椴僮鲃?dòng)畫(huà)視頻。這是Gamma發(fā)布平臺(tái)的核心功能。用戶可以根據(jù)提示或上傳的文件生成幻燈片、文檔或網(wǎng)頁(yè),并根據(jù)需要切換格式。 
從面向外部的角度來(lái)看,這些產(chǎn)品可以允許用戶公開(kāi)他們的工作流程以供其他人迭代。這可能是一系列提示或模型組合,或者只是一個(gè)“復(fù)制”按鈕,供技術(shù)水平較低的用戶模仿輸出或美學(xué)。 Imagen AI是一個(gè)面向?qū)I(yè)攝影師的編輯平臺(tái),該公司根據(jù)每位攝影師的個(gè)人風(fēng)格訓(xùn)練一個(gè)模型,使他們能夠更輕松地進(jìn)行批量編輯。 此外,用戶也可以選擇以行業(yè)領(lǐng)先的攝影師的風(fēng)格進(jìn)行編輯,這些攝影師已在平臺(tái)上公開(kāi)了他們的個(gè)人資料。 
產(chǎn)消合一產(chǎn)品將如何發(fā)展?對(duì)于下一代專業(yè)消費(fèi)者工具來(lái)說(shuō),現(xiàn)在還處于早期階段。雖然現(xiàn)有工具生成核心資產(chǎn)的能力最終足以添加有意義的工作流程,但大多數(shù)產(chǎn)品仍然只專注于一種類型的內(nèi)容-并且在功能方面相當(dāng)有限。以下是我們希望在未來(lái)幾個(gè)月看到的一些事情: 1、結(jié)合內(nèi)容模式的編輯工具 視頻可能是最好的例子。如今,使用人工智能制作短片需要在 Pika 或 Runway 等產(chǎn)品中生成多個(gè)剪輯,然后將它們移動(dòng)到 Capcut 或 Kapwing 等另一個(gè)平臺(tái)進(jìn)行編輯或混音(或添加在其他地方生成的聲音?。?。 如果您可以在一個(gè)平臺(tái)上完成此過(guò)程的每一步怎么辦?我們預(yù)計(jì)一些新興的產(chǎn)品將能夠添加更多的工作流程功能,并擴(kuò)展到其他類型的內(nèi)容生成——這可以通過(guò)訓(xùn)練自己的模型、利用開(kāi)源模型或與其他參與者合作來(lái)完成。我們還可能會(huì)看到一個(gè)新的獨(dú)立的人工智能原生編輯器的出現(xiàn),使用戶能夠“插入”不同的模型。 
2、利用不同交互模式的產(chǎn)品 文本提示并不總是與人工智能產(chǎn)品溝通的最有效方式。我們相信,您應(yīng)該能夠像與人類頭腦風(fēng)暴伙伴合作一樣使用生成工具 - 無(wú)論是通過(guò)演講、草圖還是分享靈感照片。 我們對(duì)語(yǔ)音作為一種交互感到特別興奮,它允許用戶分享更復(fù)雜的想法(或者只是以文本不可能的方式閑聊)。此類產(chǎn)品已經(jīng)開(kāi)始出現(xiàn),Oasis、TalkNotes和AudioPen都能夠?qū)⒄Z(yǔ)音筆記轉(zhuǎn)換為電子郵件、博客文章或推文。我們期望音頻甚至視頻作為輸入源出現(xiàn)在更多的工作流程產(chǎn)品中,從而改變用戶完成工作的方式和時(shí)間。 
3、人類和人工智能生成內(nèi)容共存的產(chǎn)品 我們希望看到能夠讓您同時(shí)處理人工智能和人類內(nèi)容的工具。如今大多數(shù)產(chǎn)品都專注于其中之一。例如,它們非常擅長(zhǎng)增強(qiáng)真實(shí)照片,但對(duì)人工智能圖像卻無(wú)能為力。或者他們可以生成新視頻,但無(wú)法增強(qiáng)或重新設(shè)計(jì) iPhone 中的剪輯。 未來(lái),我們預(yù)計(jì)大多數(shù)專業(yè)內(nèi)容制作者將混合使用人工智能和人類生成的內(nèi)容。他們使用的產(chǎn)品應(yīng)該歡迎這兩種類型的內(nèi)容,甚至更容易將它們結(jié)合起來(lái)。 Runway的編輯工具就體現(xiàn)了這一點(diǎn)。您可以從公司的生成模型中提取剪輯和圖像,并上傳真實(shí)視頻以在同一時(shí)間軸中使用。然后,您可以在這兩種類型的內(nèi)容上使用該公司的“神奇工具”,例如修復(fù)和綠屏。 
36氪旗下AI公眾號(hào) ???? 真誠(chéng)推薦你關(guān)注 ????
|