百般刁難騰訊新產(chǎn)品，它的極限被我測出來了

獨角戲jlahw6jw 2024-06-05 發(fā)布于江西

展開全文

從去年開始，國內(nèi)各大互聯(lián)網(wǎng)公司就先后推出了大模型產(chǎn)品，像是文心一言（百度）、通義千問（阿里）、豆包（抖音）、訊飛星火……

作為互聯(lián)網(wǎng)巨頭，騰訊動作不大，讓人感覺成了大模型缺席者，事實上，騰訊開發(fā)了混元大模型，在騰訊部分產(chǎn)品里，正在發(fā)揮作用。

因為騰訊宣傳力度不強(qiáng)，所以用戶很難注意到，而前兩天，騰訊終于帶著他們的 AI 助手“元寶”強(qiáng)勢來了。

就產(chǎn)品功能來說，元寶與其他的 AI 助手并沒有什么區(qū)別，依然是對話界面+各種智能體。

當(dāng)然了，幾乎所有的 AI 助手都是如此，主流的 AI 助手里，只有天工開物搞了一個音樂創(chuàng)作的功能，可惜體驗很一般。

信息搜索

回到騰訊元寶上來，按照騰訊官方說法，騰訊元寶接入了微信搜一搜、搜狗搜索、內(nèi)容涵蓋微信公眾號文章，主打一個內(nèi)容全面，信息準(zhǔn)確。

老狐試著用他們搜索近期關(guān)注的一個互聯(lián)網(wǎng)話題——抖音電商 2024 年的 GMV 還值得看好嗎？

元寶生成的回答，邏輯清晰，開頭說明了預(yù)測的 GMV 數(shù)據(jù)，以及關(guān)鍵的興趣電商與貨架電商增長對比，也提到了抖音電商的市場策略和外部環(huán)境的競爭。

可以注意到，文章一共引用了 8 篇文章作為參考，來源比較多樣，從公眾號到新浪新聞、網(wǎng)易新聞甚至還有《財富》雜志，在生成的結(jié)果里會標(biāo)注資料來源，重要數(shù)據(jù)能迅速找到出處。

在生成結(jié)果末尾，提供了更多相關(guān)文章，基本來自公眾號。

相比于引用資料來說，其實文末的文章質(zhì)量更高，其中也包含可引用的相關(guān)數(shù)據(jù)，但它們沒有被元寶收納到“引用資料”中。

為了見到自己的文章出現(xiàn)在引用資料里，老狐找了曾寫過的選題，結(jié)果第 7 條和第 8 條是科技狐發(fā)表在不同平臺的同一篇文章。

類似的情況在老狐測試時重復(fù)出現(xiàn)，優(yōu)化還不夠。

大模型這類涉及到問答形式，需要 AI 引用數(shù)據(jù)資料來生成回答的模式，回答的質(zhì)量取決于引用資料的質(zhì)量。

騰訊元寶背后有騰訊的整個生態(tài)，尤其是微信公眾號，后者有大量團(tuán)隊和個人在上面發(fā)布高質(zhì)量文章，僅就文字內(nèi)容來說，這是知乎、小紅書比不了的。

但是……沒錯，老狐要說但是。

元寶在生成答案的末尾，附上的內(nèi)容都是文字，沒有視頻內(nèi)容，形式上不夠豐富，尤其是在特定的問題上，視頻能呈現(xiàn)出更好的效果。

比如面對“佛跳墻怎么做”這個問題，文心一言會提供視頻內(nèi)容，其中還有“老飯骨”明星大廚制作的視頻，而元寶只有文字。

這需要騰訊后續(xù)升級優(yōu)化，比如引入視頻號的短視頻，或引入其他平臺如 B站、快手的視頻內(nèi)容。

文檔總結(jié)

文檔總結(jié)功能，現(xiàn)在成了大模型內(nèi)卷的方向之一，尤其是文字長度。

今年 3 月中旬，Kimi 宣布支持文檔最高字?jǐn)?shù)達(dá)到 200 萬字，沒過多久，通義千問就把字?jǐn)?shù)上限提升到 1000 萬字。

可能有人會質(zhì)疑上百萬字?jǐn)?shù)無用，然而，很多企業(yè)一份英文財報字?jǐn)?shù)就可能超過 100 萬。

騰訊說元寶能一次性解析最多 10 個 PDF/word/tet 文件，一次性閱讀一本書不成問題。

先來看看普通的文章總結(jié)，老狐拿公眾號的文章做了測試，結(jié)果讓人有些失望。

總結(jié)里提到 SU7 的銷量超出預(yù)期，以及雷軍設(shè)定新的銷售目標(biāo)，相關(guān)數(shù)據(jù)原文有提到，但總結(jié)卻沒有列出來。

我甩給它小米的財報 PDF 連接，讓它幫我找出關(guān)鍵數(shù)據(jù)，這一點，元寶完成得非常不錯。

繼續(xù)增加難度，我同時向它扔了蔚來、小鵬和理想三家車企的去年英文版年報的鏈接，讓它整理一些關(guān)鍵數(shù)據(jù)。

它變成了文檔提取失敗，多次嘗試依然無果。

于是我又特地下載三份年報到本地，上傳數(shù)據(jù)讓它讀取。

這回倒是不會提取失敗，生成了相關(guān)數(shù)據(jù)，并且用表格進(jìn)行對比，但三家車企數(shù)據(jù)雷同。

老狐猜測原因是三篇財報字?jǐn)?shù)接近 350 萬，超過了元寶的文字長度限制，于是默認(rèn)使用了最后上傳的小鵬財報數(shù)據(jù)。

用 Kimi 和通義千問來總結(jié)，也無法成功，Kimi 提示“超過對話長度”。

不過，改成只總結(jié)蔚來的年報時，元寶正確引用了蔚來的數(shù)據(jù)，但卻犯了一個致命錯誤，把 RMB 和 Dollar 弄混了。

*元寶總結(jié)的數(shù)據(jù)

*蔚來財報截圖

老狐圓不回來了，可能元寶的英文不佳吧。

值得一提的是，在微信里打開好友發(fā)過來的 word 或 PDF 文檔，可以選擇用元寶打開，通過元寶小程序總結(jié)文檔內(nèi)容。

而在企業(yè)微信里，暫時還不支持元寶打開文檔。

誰是真實的辦公軟件，誰是虛假的辦公軟件一目了然。

AI 寫作

AI 寫作也是如今大模型必提的功能之一，宣傳的文案、策劃等場景，大模型已經(jīng)能夠滿足。至于技術(shù)要求更高、代替老狐工作的長文寫作能力，大模型已經(jīng)很少提及。

先來看一個比較普通的寫作場景——寫周報，這是我給的 prompt：

“幫我寫一份上周的周報。我周一寫完了之前沒寫完的視頻稿，周二，周三，周四寫了兩篇公眾號稿子，并體驗了一款大模型產(chǎn)品，周五做了測評并寫了一部分文稿”

這是元寶生成的答案。

Prompt 里只有簡單的工作內(nèi)容，生成的周報豐富了細(xì)節(jié)，比如“與視頻團(tuán)隊溝通”、“撰寫過程中注重內(nèi)容的深度和廣度”。

整體來說，這份周報內(nèi)容寫得還不賴，完成了大部分框架，根據(jù)實際情況再做調(diào)整，便足夠應(yīng)付咱們工作中的需要。

另外我讓元寶完成一份策劃方案，比如公司團(tuán)建活動，給出 prompt 為：

“策劃一場公司團(tuán)建活動，參與人數(shù)為20人，地點就在公司，時間是下午一點半到六點半，活動內(nèi)容包括近期工作總結(jié)，互動游戲?！?/span>

生成的活動策劃案第一項是工作總結(jié)，安排的三個互動游戲適合室內(nèi)，游戲道具也有提及。

只不過第三條“心得分享與交流”，在我看來沒有必要，但這部分可能是大多企業(yè)結(jié)束團(tuán)建的儀式。

這份策劃方案大家認(rèn)為如何？老狐認(rèn)為還不錯。

邏輯計算和常識

在考驗大模型的邏輯能力時，最常用的題目類型是雞兔同籠求解，不過類似問題已經(jīng)難不倒普通的大模型，元寶同樣如此。

提高難度，老狐用一道高考模擬題來考驗它，原題是這樣的。

上傳圖片讓元寶識別題目，然而識別出現(xiàn)錯誤。

于是老狐又手動輸入題目，最終計算出一個……錯誤答案！

小伙伴也別覺得元寶計算能力差，事實上，這道題我之前用文心一言、Kimi、通義千問、豆包都計算過（且都無法直接用圖片提取題目文字）。

元寶，文心一言、Kimi、豆包利用不等式知識解題是正確的思路，但是原題需要變通，將 36=4（a+b）帶入進(jìn)去提取常數(shù)，大模型顯然沒有這個創(chuàng)造力，紛紛選擇硬解，集體翻車。

通義千問計算出了正確答案，不過沒用不等式，而是通過微積分知識，求導(dǎo)確定極值。

通義千問這波是拿宰牛刀殺雞。

我調(diào)整了 prompt，讓它用不等式知識計算，看著它輸出了 3 分鐘計算過程，中途還更改計算步驟，最后變成了系統(tǒng)超時。

能否制造并使用工具是人與動物的區(qū)別之一，而能否靈活運用知識，是人與機(jī)器的區(qū)別。

常識問題在去年大模型爆發(fā)初期常常見到，還鬧出了“林黛玉倒拔垂楊柳”的笑話。現(xiàn)如今，這個 Bug 已經(jīng)得到優(yōu)化，元寶在面對這類問題能輕松避開。

老狐用國外的文學(xué)知識對它測試，它也能正確指出其中的錯誤。

不過有些陷阱它還是無法避免，比如我在周五問元寶今年多特蒙德為何奪得歐冠冠軍，它說得頭頭是道，然而比賽是周日凌晨才進(jìn)行。

不過當(dāng)比賽結(jié)束，再問它多特奪冠，它已經(jīng)能指出其中問題所在。

大模型常識問題需要大量資料支撐，在事發(fā)前，沒有任何資料，它可能就會胡言亂語。

大模型就像是三體人，與人類的詭計多端比起來，還是單純了些。

AI 作圖

在騰訊的宣傳稿里，特意提到元寶作畫的能力。

實際上，如果給到的 prompt 提到的主角單一，并給到環(huán)境描寫，它能生成信息準(zhǔn)確的圖片。

一旦主角有兩位，包含不同的細(xì)節(jié)，元寶生成的圖片就對不上 prompt 了。

此外，在某些場景下，生成的人物面部會很恐怖。

這種情形下選擇重復(fù)輸出，能得到一張容貌姣好的美女照片，但眼神依舊怪異，而且傘骨歪斜。

老狐進(jìn)行了多次測試后發(fā)現(xiàn)，如果人物是正面，且臉部占據(jù)畫面較大的面積，元寶對人物面部刻畫會更準(zhǔn)確，一旦角度是斜側(cè)，或者人物面部較小時，面部就會出現(xiàn)比例失調(diào)，尤其是后一種情形。

這不是元寶一個大模型的問題，其他大模型也會如此。

不過有些大模型在處理這類問題時，要討巧得多，要么選擇展示人物背面，避免臉部的刻畫，要么就直接正臉，給側(cè)臉是死活不會給的。

在他們面前，元寶、豆包像個耿直 boy，畫人物面部幾率要比其他幾款大模型高得多。

反過來，耿直的元寶也更“聽話”，畫面與 prompt 更契合，用戶更容易得到自己想要的畫面。

總結(jié)

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：獨角戲jlahw6jw > 《Av2》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

獨角戲jlahw6jw

關(guān)注對話

TA的最新館藏

張捷財經(jīng)觀察 | 嚴(yán)厲打擊騙婚婚介與中國彩禮陋俗
張新穎：如此漫長，如此濃郁——《無愁河的浪蕩漢子》新版隨感
準(zhǔn)噶爾，俄羅斯近200年交戰(zhàn)史簡綱
侯乃峰：清華簡《赤鳩之集湯之屋》篇箋釋衍說
李學(xué)勤：由清華簡《系年》論《文侯之命》
黃德寬：清華簡《成后》《昭后》及其史料價值

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

百般刁難騰訊新產(chǎn)品，它的極限被我測出來了

百般刁難騰訊新產(chǎn)品，它的極限被我測出來了