黄页网站在线免费观看,日韩欧美一区二区在线观看,日韩视频在线观看一区

實(shí)測(cè)文心一言4.0，真的和GPT-4相差無(wú)幾了嗎？互聯(lián)網(wǎng)+

差評(píng) 2023-10-19 17:58

分享到：

導(dǎo)讀

。這一回要測(cè)一測(cè)，昨天才發(fā)布的文心一言大模型 4.0。

。這一回要測(cè)一測(cè)，昨天才發(fā)布的文心一言大模型 4.0。今天，咱們就開門見山啊。這一回要測(cè)一測(cè)，昨天才發(fā)布的文心一言大模型 4.0。之所以要測(cè)它，是因?yàn)槔顝┖曜蛱煸跁?huì)上說的那句：文心大模型 4.0 綜合水平與 GPT-4 相比已經(jīng)毫不遜色。

這話一出，很多人就沸騰了。據(jù)李彥宏這邊的說法，文心 4.0 在記憶、理解、邏輯和生成四塊，進(jìn)步神速。盡管他也在現(xiàn)場(chǎng)親自演示了很多案例，但很多用戶是壓根不買賬的。不少人調(diào)侃說： “ 騙騙兄弟就可以了，別把自己也騙了啊。 ” 那到底是毫不遜色，還是吹牛扯淡呢，咱們直接親自試試就知道了。

這回，憑借世超的人脈，也是很幸運(yùn)地拿到了搶先內(nèi)測(cè)的資格。既然他吹自己和 GPT-4 比毫不遜色，那我們就讓這倆互掐一下，比比斤兩。從拿到資格開始，世超試了一整天。這次也不跟大家賣關(guān)子了，直接說測(cè)試結(jié)論：總體來(lái)說， GPT-4 穩(wěn)定勝利，但文心一言 4.0 居然意外地某些方面壓過 GPT-4 一頭。

那么世超這次測(cè)試，還是從比較常見的幾個(gè)測(cè)評(píng)角度入手，這樣體現(xiàn)的更全面、真實(shí)。但是，測(cè)試難度我們是和之前的 GPT-4 測(cè)評(píng)難度對(duì)齊的。這比賽的第一輪，先測(cè)點(diǎn)大家喜聞樂見的吧。先從比較輕松的弱智吧和語(yǔ)義陷阱題入手，也正好可以考察一下邏輯和理解能力。不過，這塊很多大模型都有專門訓(xùn)練，問了很多題都沒把它們考倒。但是，經(jīng)過不懈努力，還是被世超抓到了漏洞。我問了一個(gè)非常經(jīng)典的弱智吧問題：世界上真的有 “ 龍 ” ，那我就在某地被 “ 一條龍 ” 服務(wù)過。沒想到，這題兩個(gè) AI 沒一個(gè)能做對(duì)的。。。先看 GPT-4 這邊，由于不知道這倆 “ 龍 ” 到底嘛意思，就開始亂編一些歷史典故。

文心這邊，也沒有聰明到哪去，也是亂編了一種 “ 幽默 ” 的說法。甚至，世超后面又給了它一次機(jī)會(huì)，追問它：兩個(gè)龍是同一個(gè)龍嗎？文心依然極其堅(jiān)定地給了我一個(gè)完全錯(cuò)誤的答案。

不過，到了第二題， GPT-4 就站起來(lái)了。當(dāng)我問：公司是個(gè)溫暖的大家庭，怪不得我總是當(dāng)孫子。文心這邊還在那 “ 溫暖的公司 ” 、 “ 沒有等級(jí)差別 ” 。

但再看人家 GPT-4 這個(gè)外國(guó) AI ，早就讀懂了中國(guó)人的話里有話，表面溫暖，實(shí)則冰冷。

不過，當(dāng)世超又追加了一道領(lǐng)導(dǎo)題。事態(tài)卻突然徹底反轉(zhuǎn)，反而是文心贏得很徹底。世超問了幾個(gè)流行的段子： “ 領(lǐng)導(dǎo)夾菜你轉(zhuǎn)桌，領(lǐng)導(dǎo)喝水你剎車 ” ，讓它們給仿寫幾個(gè)。其實(shí)這題要想做對(duì)，并不容易。不僅僅需要精準(zhǔn)地理解提問，并且要能夠推理出句子的規(guī)律和情感色彩。兩邊 AI 給我的句子，對(duì)仗都蠻工整的，就是 GPT-4 語(yǔ)義徹底理解反了。領(lǐng)導(dǎo)的馬屁拍的非常完美，可惜就是答案全錯(cuò)。

文心這邊給的這些答案，才真的符合當(dāng)代青年的領(lǐng)導(dǎo)文化。不過溫馨提示，實(shí)操的時(shí)候建議開始以 GPT-4 為準(zhǔn)。

這第一輪比拼結(jié)束，文心 VS GPT-4 不分高下， 1 比 1 打了平手。看來(lái)，文心一言說自己進(jìn)步神速，不是完全在吹牛啊。第二輪比賽，世超還想繼續(xù)玩點(diǎn)有意思的，試試 AI 解讀梗的能力。當(dāng)年， GPT-4 上線時(shí)能解梗圖，那是叱詫風(fēng)云了好長(zhǎng)一段時(shí)間。這一次，世超不僅僅讓它們讀梗圖，還要加碼測(cè)試一下，看他們聯(lián)網(wǎng)能力能不能應(yīng)對(duì)各種網(wǎng)絡(luò)上的新梗。因?yàn)榍懊娑际菧y(cè)中文語(yǔ)義，世超覺得對(duì) GPT-4 有點(diǎn)不公平，所以特地選了個(gè)中英注解都有的梗圖。就像我的人生一樣不知道在忙些什么

不知道是不是有英文輔助，這一次 GPT-4 梗圖解讀能力強(qiáng)的不是一星半點(diǎn)。不光能看懂 “ 狗狗” 是這張梗圖的關(guān)鍵角色，而且讀懂了笑點(diǎn)在于 “ 認(rèn)真幫忙 ” 和 “ 毫無(wú)效果 ” 的對(duì)比。

但是，文心這邊卻還在一板一眼地把梗圖，當(dāng)閱讀理解題來(lái)做。。。而且嘴還蠻硬，你說這張圖好笑，它堅(jiān)持：這沒啥讓人發(fā)笑的，搞不懂你在樂什么。

不過，文心雖然不擅長(zhǎng)解釋梗圖。但到了中文互聯(lián)網(wǎng)梗，又馬上扳回了一城。世超問了個(gè)關(guān)于最近互聯(lián)網(wǎng)上的新晉網(wǎng)紅完顏慧德老師的 lonely 梗。這如果不是十級(jí)沖浪選手，一看到這個(gè)句子，估計(jì)是一臉蒙圈的。

結(jié)果，文心不光點(diǎn)出了梗來(lái)源，而且正確解釋了這是個(gè)諧音梗。雖然最后很可惜，把 “ 倫理 ” 錯(cuò)誤理解成了 “ 理論 ” ，就差這臨門一腳，沒踢進(jìn)去。

但如果文心這邊是沒滿分，那 GPT-4 這邊恐怕屬于不及格了。。不光沒讀懂梗，連出處都找錯(cuò)了，讓你去大型紀(jì)錄片《完顏慧德傳奇》里面找一找答案。

這第二輪比賽的兩道小測(cè)試下來(lái)，雙方各有千秋，不分高下吧。文心的熱梗更新很快， GPT-4 圖片解讀更強(qiáng)。兩輪比賽下來(lái)，目前還沒分出個(gè)高低來(lái)，焦灼在了 2 比 2 。接下來(lái)，為了拉開比分的差距，咱們得上點(diǎn)狠貨了。前面兩輪語(yǔ)義理解都更偏基礎(chǔ)，我們?cè)贉y(cè)試一下專業(yè)能力。第三輪直接頂上 GPT-4 的超級(jí)強(qiáng)項(xiàng)—— 代碼題。不知道還有沒有人記得，當(dāng)年 GPT-4 花了 60 秒，做出一個(gè)完整的貪吃蛇小游戲，震撼了整個(gè)江湖。現(xiàn)在我們用同樣的測(cè)試，讓文心來(lái)試一下。因?yàn)榇a比較長(zhǎng)，所以這里就不完全展示了。咱們可以直接劃到下面，看最后的效果。

先來(lái)看 GPT-4 老大哥，依然是穩(wěn)定發(fā)揮。大概幾十秒，就做出一個(gè)完整的、可以玩的貪吃蛇游戲。包括蛇的移動(dòng)、點(diǎn)的隨機(jī)出現(xiàn)、吃完后體積增大這些效果。但是，來(lái)到文心這一邊，就是徹底不及格了。不說別的，這貪吃蛇根本就沒動(dòng)起來(lái)，而且后面試著讓文心自己修正代買，結(jié)果也是越改越錯(cuò)。這不是動(dòng)圖沒動(dòng) 是文心就沒做出動(dòng)的效果來(lái)

不過，也不代表文心就很拉，這樣懸殊的實(shí)力差距，其實(shí)是因?yàn)?GPT-4 的代碼能力太變態(tài)了。如果我們稍微降低一點(diǎn)難度，讓它們根據(jù)草圖，來(lái)做網(wǎng)站，那文心也是能自如應(yīng)對(duì)的。

但是，盡管這樣，從下面兩個(gè)網(wǎng)站的效果比較來(lái)看， GPT-4 還是更精美、更完整。文心一言

GPT-4

這第三輪的比賽， GPT-4 是毫無(wú)疑問地全面吊打了。現(xiàn)在比分也被拉開了，文心 VS GPT-4 = 2:3 。為了避免不公平，既然前面試了一個(gè) GPT-4 的強(qiáng)項(xiàng)，那接下倆也測(cè)一個(gè)文心說自己比較厲害的能力—— 記憶。世超找了一份曾經(jīng)采訪導(dǎo)盲犬相關(guān)人士的采訪文件，全采訪資料總共有一萬(wàn)三千多個(gè)字。把這一大份文件丟給這倆 AI 之后，我問了一個(gè)最簡(jiǎn)單的問題：為什么說導(dǎo)盲犬是騙局？讓人有點(diǎn)意外的是， GPT-4 雖然答案是對(duì)的，可是分析得牛頭不對(duì)馬嘴。我問騙局的原因，他和我說訓(xùn)練難度和導(dǎo)盲犬的導(dǎo)盲能力。。

反倒是文心這一邊理解的很準(zhǔn)確，它回答的成本高、夸大宣傳、不如導(dǎo)盲設(shè)備前景好等等，這些才是關(guān)鍵信息。

文心在記憶和理解方面，確實(shí)挺扎實(shí)。算是成功扳回一城，把比分重新拉回到平局 3 ：3 。既然事態(tài)這么膠著，那這最后一輪，我們就再試一個(gè)比較有意思的題。之前 GPT-4 Vision 版提過，這一代的 GPT-4 圖片識(shí)別能力很強(qiáng)，可以給合照里的單人進(jìn)行標(biāo)注、給圖片排序等等。

前面好幾道試題，已經(jīng)證明了文心的圖片識(shí)別能力也完全不弱。所以，這最后一題，咱們就用圖片來(lái)一決高下。世超丟了一張牙齒的 X 光片進(jìn)去，讓雙方給我當(dāng)醫(yī)生，診斷診斷病情。倆 AI 都診斷出了存在的智齒阻生問題，而且 GPT-4 甚至看出了上排牙齒存在不整齊的問題，有三顆牙齒是重疊狀態(tài)。

雖然文心一言也發(fā)現(xiàn)了智齒阻生的問題，也指出了可能存在的其他問題。但還是 GPT-4 的答案更準(zhǔn)確，更貼切。

這五輪比賽結(jié)束，文心一言還是 4 ：3 輸給了 GPT-4 ，在代碼這方面，更是被狠狠吊打了。。但在文心的中文語(yǔ)義理解和記憶這些方面，也確實(shí)如百度所說，提升了不少。除了上面我們這些基礎(chǔ)測(cè)試，這次文心一言還上線了好幾個(gè)插件功能。比如一鏡流影（視頻生成）、說圖解畫（圖片解讀）、 E 言易圖（可視化數(shù)據(jù)分析）

比如說一句話做一個(gè)金毛爬樓梯的視頻，幾分鐘之后一條配好音的視頻就做好了。不過，目前也不是非常完善，經(jīng)常出現(xiàn)素材不夠，無(wú)法生成視頻的情況。作為一個(gè)玩具體驗(yàn)一下，還是挺有意思的，真當(dāng)生產(chǎn)力工具，多少有點(diǎn)夠嗆。

雖然如此，但文心 4.0 的表現(xiàn)已經(jīng)讓我眼前一亮了。說實(shí)話，原本世超并不對(duì)文心抱有太大的希望。因?yàn)?GPT-4 的強(qiáng)悍，大家都有目共睹。在這么強(qiáng)的對(duì)手面前，很容易顯得你的努力都白費(fèi)了。。。這回盡管還是輸了，但起碼你能感受到進(jìn)步的地方，更擅長(zhǎng)的領(lǐng)域。不過，最后還是要強(qiáng)調(diào)一下，世超的測(cè)試只能從常規(guī)的角度來(lái)簡(jiǎn)單對(duì)比兩個(gè)大模型。只能算帶大家嘗個(gè)鮮，搶先體驗(yàn)一下，并沒有辦法，完全代表大模型的實(shí)力情況。到底幾斤幾兩，還需要等徹底開放之后。大家親自上手體驗(yàn)，才會(huì)有更深的感受。撰文：四大編輯：面線 & 江江封面：萱萱圖片、資料來(lái)源：文心一言、GPT-4

GPT- 文心理解世超能力

分享到：

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范，任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源；
2.TMT觀察網(wǎng)的原創(chuàng)文章，請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源：TMT觀察網(wǎng)"，不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任；
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。

麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

實(shí)測(cè)文心一言4.0，真的和GPT-4相差無(wú)幾了嗎？互聯(lián)網(wǎng)+