日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

 獨角戲jlahw6jw 2024-06-05 發(fā)布于江西

從去年開始,國內(nèi)各大互聯(lián)網(wǎng)公司就先后推出了大模型產(chǎn)品,像是文心一言(百度)、通義千問(阿里)、豆包(抖音)、訊飛星火……

作為互聯(lián)網(wǎng)巨頭,騰訊動作不大,讓人感覺成了大模型缺席者,事實上,騰訊開發(fā)了混元大模型,在騰訊部分產(chǎn)品里,正在發(fā)揮作用。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

因為騰訊宣傳力度不強(qiáng),所以用戶很難注意到,而前兩天,騰訊終于帶著他們的 AI 助手“元寶”強(qiáng)勢來了。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

就產(chǎn)品功能來說,元寶與其他的 AI 助手并沒有什么區(qū)別,依然是對話界面+各種智能體。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

當(dāng)然了,幾乎所有的 AI 助手都是如此,主流的 AI 助手里,只有天工開物搞了一個音樂創(chuàng)作的功能,可惜體驗很一般。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

信息搜索

回到騰訊元寶上來,按照騰訊官方說法,騰訊元寶接入了微信搜一搜、搜狗搜索、內(nèi)容涵蓋微信公眾號文章,主打一個內(nèi)容全面,信息準(zhǔn)確。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

老狐試著用他們搜索近期關(guān)注的一個互聯(lián)網(wǎng)話題——抖音電商 2024 年的 GMV 還值得看好嗎?

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

元寶生成的回答,邏輯清晰,開頭說明了預(yù)測的 GMV 數(shù)據(jù),以及關(guān)鍵的興趣電商與貨架電商增長對比,也提到了抖音電商的市場策略和外部環(huán)境的競爭。

可以注意到,文章一共引用了 8 篇文章作為參考,來源比較多樣,從公眾號到新浪新聞、網(wǎng)易新聞甚至還有《財富》雜志,在生成的結(jié)果里會標(biāo)注資料來源,重要數(shù)據(jù)能迅速找到出處。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

在生成結(jié)果末尾,提供了更多相關(guān)文章,基本來自公眾號。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

相比于引用資料來說,其實文末的文章質(zhì)量更高,其中也包含可引用的相關(guān)數(shù)據(jù),但它們沒有被元寶收納到“引用資料”中。

為了見到自己的文章出現(xiàn)在引用資料里,老狐找了曾寫過的選題,結(jié)果第 7 條和第 8 條是科技狐發(fā)表在不同平臺的同一篇文章。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

類似的情況在老狐測試時重復(fù)出現(xiàn),優(yōu)化還不夠。

大模型這類涉及到問答形式,需要 AI 引用數(shù)據(jù)資料來生成回答的模式,回答的質(zhì)量取決于引用資料的質(zhì)量。

騰訊元寶背后有騰訊的整個生態(tài),尤其是微信公眾號,后者有大量團(tuán)隊和個人在上面發(fā)布高質(zhì)量文章,僅就文字內(nèi)容來說,這是知乎、小紅書比不了的。

但是……沒錯,老狐要說但是。

元寶在生成答案的末尾,附上的內(nèi)容都是文字,沒有視頻內(nèi)容,形式上不夠豐富,尤其是在特定的問題上,視頻能呈現(xiàn)出更好的效果。

比如面對“佛跳墻怎么做”這個問題,文心一言會提供視頻內(nèi)容,其中還有“老飯骨”明星大廚制作的視頻,而元寶只有文字。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

這需要騰訊后續(xù)升級優(yōu)化,比如引入視頻號的短視頻,或引入其他平臺如 B站、快手的視頻內(nèi)容。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

文檔總結(jié)

文檔總結(jié)功能,現(xiàn)在成了大模型內(nèi)卷的方向之一,尤其是文字長度。

今年 3 月中旬,Kimi 宣布支持文檔最高字?jǐn)?shù)達(dá)到 200 萬字,沒過多久,通義千問就把字?jǐn)?shù)上限提升到 1000 萬字。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

可能有人會質(zhì)疑上百萬字?jǐn)?shù)無用,然而,很多企業(yè)一份英文財報字?jǐn)?shù)就可能超過 100 萬。

騰訊說元寶能一次性解析最多 10 個 PDF/word/tet 文件,一次性閱讀一本書不成問題。

先來看看普通的文章總結(jié),老狐拿公眾號的文章做了測試,結(jié)果讓人有些失望。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

總結(jié)里提到 SU7 的銷量超出預(yù)期,以及雷軍設(shè)定新的銷售目標(biāo),相關(guān)數(shù)據(jù)原文有提到,但總結(jié)卻沒有列出來。

我甩給它小米的財報 PDF 連接,讓它幫我找出關(guān)鍵數(shù)據(jù),這一點,元寶完成得非常不錯。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

繼續(xù)增加難度,我同時向它扔了蔚來、小鵬和理想三家車企的去年英文版年報的鏈接,讓它整理一些關(guān)鍵數(shù)據(jù)。

它變成了文檔提取失敗,多次嘗試依然無果。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

于是我又特地下載三份年報到本地,上傳數(shù)據(jù)讓它讀取。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

這回倒是不會提取失敗,生成了相關(guān)數(shù)據(jù),并且用表格進(jìn)行對比,但三家車企數(shù)據(jù)雷同。

老狐猜測原因是三篇財報字?jǐn)?shù)接近 350 萬,超過了元寶的文字長度限制,于是默認(rèn)使用了最后上傳的小鵬財報數(shù)據(jù)。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

用 Kimi 和通義千問來總結(jié),也無法成功,Kimi 提示“超過對話長度”。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

不過,改成只總結(jié)蔚來的年報時,元寶正確引用了蔚來的數(shù)據(jù),但卻犯了一個致命錯誤,把 RMB 和 Dollar 弄混了。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

*元寶總結(jié)的數(shù)據(jù)

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

*蔚來財報截圖

老狐圓不回來了,可能元寶的英文不佳吧。

值得一提的是,在微信里打開好友發(fā)過來的 word 或 PDF 文檔,可以選擇用元寶打開,通過元寶小程序總結(jié)文檔內(nèi)容。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

而在企業(yè)微信里,暫時還不支持元寶打開文檔。

誰是真實的辦公軟件,誰是虛假的辦公軟件一目了然。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

AI 寫作

AI 寫作也是如今大模型必提的功能之一,宣傳的文案、策劃等場景,大模型已經(jīng)能夠滿足。至于技術(shù)要求更高、代替老狐工作的長文寫作能力,大模型已經(jīng)很少提及。

先來看一個比較普通的寫作場景——寫周報,這是我給的 prompt:

“幫我寫一份上周的周報。我周一寫完了之前沒寫完的視頻稿,周二,周三,周四寫了兩篇公眾號稿子,并體驗了一款大模型產(chǎn)品,周五做了測評并寫了一部分文稿”

這是元寶生成的答案。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

Prompt 里只有簡單的工作內(nèi)容,生成的周報豐富了細(xì)節(jié),比如“與視頻團(tuán)隊溝通”、“撰寫過程中注重內(nèi)容的深度和廣度”。

整體來說,這份周報內(nèi)容寫得還不賴,完成了大部分框架,根據(jù)實際情況再做調(diào)整,便足夠應(yīng)付咱們工作中的需要。

另外我讓元寶完成一份策劃方案,比如公司團(tuán)建活動,給出 prompt 為:

“策劃一場公司團(tuán)建活動,參與人數(shù)為20人,地點就在公司,時間是下午一點半到六點半,活動內(nèi)容包括近期工作總結(jié),互動游戲?!?/span>

生成的活動策劃案第一項是工作總結(jié),安排的三個互動游戲適合室內(nèi),游戲道具也有提及。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

只不過第三條“心得分享與交流”,在我看來沒有必要,但這部分可能是大多企業(yè)結(jié)束團(tuán)建的儀式。

這份策劃方案大家認(rèn)為如何?老狐認(rèn)為還不錯。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

邏輯計算和常識

在考驗大模型的邏輯能力時,最常用的題目類型是雞兔同籠求解,不過類似問題已經(jīng)難不倒普通的大模型,元寶同樣如此。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

提高難度,老狐用一道高考模擬題來考驗它,原題是這樣的。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

上傳圖片讓元寶識別題目,然而識別出現(xiàn)錯誤。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

于是老狐又手動輸入題目,最終計算出一個……錯誤答案!

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

小伙伴也別覺得元寶計算能力差,事實上,這道題我之前用文心一言、Kimi、通義千問、豆包都計算過(且都無法直接用圖片提取題目文字)

元寶,文心一言、Kimi、豆包利用不等式知識解題是正確的思路,但是原題需要變通,將 36=4(a+b) 帶入進(jìn)去提取常數(shù),大模型顯然沒有這個創(chuàng)造力,紛紛選擇硬解,集體翻車。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

通義千問計算出了正確答案,不過沒用不等式,而是通過微積分知識,求導(dǎo)確定極值。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

通義千問這波是拿宰牛刀殺雞。

我調(diào)整了 prompt,讓它用不等式知識計算,看著它輸出了 3 分鐘計算過程,中途還更改計算步驟,最后變成了系統(tǒng)超時。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

能否制造并使用工具是人與動物的區(qū)別之一,而能否靈活運用知識,是人與機(jī)器的區(qū)別。

常識問題在去年大模型爆發(fā)初期常常見到,還鬧出了“林黛玉倒拔垂楊柳”的笑話。現(xiàn)如今,這個 Bug 已經(jīng)得到優(yōu)化,元寶在面對這類問題能輕松避開。

老狐用國外的文學(xué)知識對它測試,它也能正確指出其中的錯誤。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

不過有些陷阱它還是無法避免,比如我在周五問元寶今年多特蒙德為何奪得歐冠冠軍,它說得頭頭是道,然而比賽是周日凌晨才進(jìn)行。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

不過當(dāng)比賽結(jié)束,再問它多特奪冠,它已經(jīng)能指出其中問題所在。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

大模型常識問題需要大量資料支撐,在事發(fā)前,沒有任何資料,它可能就會胡言亂語。

大模型就像是三體人,與人類的詭計多端比起來,還是單純了些。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

AI 作圖

在騰訊的宣傳稿里,特意提到元寶作畫的能力。

實際上,如果給到的 prompt 提到的主角單一,并給到環(huán)境描寫,它能生成信息準(zhǔn)確的圖片。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

一旦主角有兩位,包含不同的細(xì)節(jié),元寶生成的圖片就對不上 prompt 了。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

此外,在某些場景下,生成的人物面部會很恐怖。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

這種情形下選擇重復(fù)輸出,能得到一張容貌姣好的美女照片,但眼神依舊怪異,而且傘骨歪斜。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

老狐進(jìn)行了多次測試后發(fā)現(xiàn),如果人物是正面,且臉部占據(jù)畫面較大的面積,元寶對人物面部刻畫會更準(zhǔn)確,一旦角度是斜側(cè),或者人物面部較小時,面部就會出現(xiàn)比例失調(diào),尤其是后一種情形。

這不是元寶一個大模型的問題,其他大模型也會如此。

不過有些大模型在處理這類問題時,要討巧得多,要么選擇展示人物背面,避免臉部的刻畫,要么就直接正臉,給側(cè)臉是死活不會給的。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

在他們面前,元寶、豆包像個耿直 boy,畫人物面部幾率要比其他幾款大模型高得多。

反過來,耿直的元寶也更“聽話”,畫面與 prompt 更契合,用戶更容易得到自己想要的畫面。

百般刁難騰訊新產(chǎn)品,它的極限被我測出來了

總結(jié)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多