脸国产精品自产拍在线观看,99久久免费国产精品,欧洲亚洲色图无码

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

不會中英互譯，百度文心一言變“中文差生”

2023-03-27 14:17

橡果商業(yè)評論

關(guān)注

作者趙翔姜睿盈

編輯覃拓近期，文心一言“套皮”爭議愈演愈烈。

一名業(yè)內(nèi)人士告訴《橡果商業(yè)評論》，所謂“套皮”，應(yīng)該是指文心一言采用中英互譯方式套用開源模型、采用開源數(shù)據(jù)加入訓(xùn)練的行為。據(jù)百度發(fā)布的相關(guān)論文顯示，文心一言“文生圖”功能在訓(xùn)練時，使用百度翻譯進行中英互譯。

事實上，百度翻譯目前在行業(yè)早已掉隊，機器翻譯效果相比其他人工智能公司差距很大。

《橡果商業(yè)評論》將百度翻譯與訊飛翻譯、騰訊翻譯、網(wǎng)易翻譯對比發(fā)現(xiàn)，百度翻譯對名詞短語的翻譯，存在多義、歧義等問題。上述業(yè)內(nèi)人士表示：如果翻譯錯誤，也會直接影響生成模型的效果。但翻譯是中國AI的必經(jīng)之路。

截至2021年，全球排名前1000萬個網(wǎng)站中，英文內(nèi)容占比60.4%，中文內(nèi)容占比僅為1.4%。中國AI需要依賴大量的英文數(shù)據(jù)集訓(xùn)練。

翻譯成為文心一言面前的一座“大山”。面對技術(shù)問題，百度不僅從未正面回應(yīng)，還不斷公開強調(diào)“國貨”需要時間。如此發(fā)言，似乎是在維護李彥宏“文心一言中文優(yōu)等生”的自尊心。文心一言受困于中英互譯，中國AI未來在哪里？

1

文心一言“套皮”疑云自畫像竟是“白種男性”？

3月22日，博主@劉大可先生爆料，文心一言“套皮、畫皮、造假”。@劉大可先生表示，若使用文心一言做圖，它會將中文翻譯為英文，再使用國外開源的AI文生圖模型Stable Diffusion生成圖畫。Stable Diffusion與OpenAI的Dall-E 2相似，都是AI文生圖模型，由英國公司Stability AI在2022年8月發(fā)布。

以“一可以豆子”為例，這句話在漢語中不是完整語言；若使用“百度翻譯”直翻英語，結(jié)果為“One can beans”。

“可以”被翻譯成“can”，根據(jù)上下文，“can”被理解為量詞，整句意為“一罐豆子”。

所以，讓文心一言制圖“一可以豆子”，就會得到“一罐豆子”的圖片。

這并非個例：1. “牛肉可以”使用“百度翻譯”會得到“Beef can”;

2. “一冰箱可以”為“A refrigerator can ”。

3. “牛奶路”對應(yīng)翻譯“Milk Road”；相應(yīng)的，文心一言也會分別生成“一罐牛肉”“裝滿罐頭的冰箱”“銀河”的圖片。

“直翻”導(dǎo)致錯誤之外，一詞多義的單詞們也會讓文心一言制圖“抓瞎”：

1.“起重機”“百度翻譯”為“Crane”；

2.“土耳其”為“Turkey”。

“Crane”更常用的意思為“鶴”，“Turkey”也有“火雞”之意，所以文心一言會生成“鶴頭”“火雞”的圖片。

此外，若讓文心一言生成“人像”，不加“中國”關(guān)鍵字，畫出的都是“白種人”。

3月16日，《橡果商業(yè)評論》讓文心一言畫“自畫像”，卻得到一個“白人男性”的圖片。

3月23日，百度發(fā)聲明稱“不傳謠不信謠”，文心一言“文生圖”能力來自文心跨模態(tài)大模型ERNIE-ViLG。

2

“豬隊友”百度翻譯讓文心一言卷入“套皮”風(fēng)波

文心一言有不一樣的答案。3月23日，據(jù)《澎湃新聞》報道，在對話文心一言，詢問其是否采用Stable Diffusion時，文心一言不僅承認使用Stable Diffusion，還承認使用Transformer、GRU等深度學(xué)習(xí)模型來生成圖像。

事實上，這并不代表文心一言“文生圖”存在所謂“套皮”。百度官方介紹，文心一言“文生圖”功能來自ERNIE-ViLG 2.0。

據(jù)百度發(fā)布論文《ERNIE-ViLG 2.0：用知識增強型混合去噪專家改進文本到圖像的擴散模型》顯示，ERNIE-ViLG 2.0的訓(xùn)練數(shù)據(jù)由1.7億圖文對組成，包括網(wǎng)絡(luò)公開的英文數(shù)據(jù)集和百度內(nèi)部中文數(shù)據(jù)集。

然而，ERNIE-ViLG 2.0訓(xùn)練階段，部分訓(xùn)練數(shù)據(jù)里的中、英文翻譯由百度翻譯自動翻譯。

業(yè)內(nèi)人士唐喆（化名）告訴《橡果商業(yè)評論》，百度翻譯目前已經(jīng)掉隊，機器翻譯效果相比其他人工智能公司存在很大差距。

特別是名詞短語翻譯，存在多義、歧義等問題，如果翻譯錯誤，也會直接影響生成模型的結(jié)果。

以上述“牛肉可以”為例。

《橡果商業(yè)評論》用百度翻譯結(jié)果為“Beef can”（牛肉罐頭）；騰訊翻譯為“Beef is fine”（牛肉不錯）；網(wǎng)易翻譯為“Beef can”（牛肉罐頭）；訊飛翻譯結(jié)果為“Beef is OK”（牛肉不錯）。

不同翻譯軟件中，只有騰訊翻譯、訊飛翻譯回答正確。唐喆則舉例近期最火的“虎頭虎腦的胖小子”。

百度翻譯為“Big fat kid with a tiger's head and brain”（長虎頭的胖子），網(wǎng)易翻譯、騰訊翻譯也類似。

訊飛翻譯結(jié)果相對接近，為“A tiger-headed fat boy”（虎頭虎腦胖小子）；唐喆解釋，文心一言作畫能力強調(diào)輸入文本內(nèi)容的實體信息，例如“虎頭虎腦的胖小子”，會把“虎頭”當(dāng)做單獨的實體。

這不僅忽略了整體句子級別的語義理解，也與文心一言發(fā)布時提到“中文理解能力強”完全不符。

3

“差生”偽裝“優(yōu)等生”李彥宏的自尊心游戲？

在3月16日的文心一言發(fā)布會上，百度CEO李彥宏用提前錄制好的文心一言演示視頻，解釋其中文理解能力。

例如向文心一言提出“洛陽紙貴”“藏頭詩”等問題。

最終李彥宏的結(jié)論是，文心一言是扎根中國市場的大語言模型，具備中文領(lǐng)域最先進的自然語言處理能力。

目前看來，文心一言距離李彥宏所言“中文優(yōu)等生”相差甚遠。

唐喆認為，百度采用中英互譯方式，無論是套用開源模型還是采用開源數(shù)據(jù)加入訓(xùn)練，都應(yīng)該在中文語言理解和中英互譯上多加注意。

令人遺憾的是，文心一言技術(shù)出現(xiàn)問題，面對質(zhì)疑，百度并未就此問題進行公開的專業(yè)解答。

還以“需要時間學(xué)習(xí)和成長”“給自研產(chǎn)品信息、時間”為由，消耗著國內(nèi)用戶的耐心與信心。

另一方面，當(dāng)文心一言答案被指出現(xiàn)問題，答案就會“消失”。

3月23日下午，《橡果商業(yè)評論》使用文心一言發(fā)現(xiàn)，與“牛肉可以”類似的“XX可以”問題，文心一言答案疑被“屏蔽”。

直到當(dāng)日晚間，答案才再次恢復(fù)，面對“牛肉可以”的指令，文心一言畫出的不再是“牛肉罐頭”，而是“一盤牛肉”。

這似乎是“升級迭代”？但繼續(xù)提問“牛奶路”（Milk Road），生成的圖片依然是“銀河”（the Milky Way）。

如此操作，并不像是百度口中“學(xué)習(xí)能力提升”，更像是真人進行的屏蔽、修正。即便如此，李彥宏在媒體專訪時也認為，文心一言能在兩個月后追趕到今年一月份的ChatGPT。

唐喆認為，從用戶視角來看，文心一言和ChatGPT差距不小。

ChatGPT基本可以滿足用戶的訴求，反觀文心一言，作圖能力理解能力雙雙“喪失”，“從畫圖結(jié)果來看，文心一言更適合玩看圖猜成語的游戲。”

4

文心一言受困于中英互譯中國難有ChatGPT？

文心一言距離ChatGPT還有多遠？

唐喆認為，文心一言在知識問答、詞典、文獻檢索等方面回答基本過關(guān)，這是發(fā)揮百度自有搜索引擎的優(yōu)勢。

但在數(shù)學(xué)、代碼、歸納推理、翻譯等方面，被ChatGPT甩在身后。

唐喆曾多次詢問中國特有的農(nóng)歷，即便百度對文心一言進行過多次修正，文心一言也依然沒有給出正確答案。

對于一些常見的親屬關(guān)系、推理選擇，文心一言展示的推理邏輯看似很有道理，實際是在一本正經(jīng)地胡說。

唐喆總結(jié):

1.文心一言在中文寫作、語法分析上，分析精度和準(zhǔn)確性均不高；2.文本生成、改寫、作文等，雖然會有基本格式框架在，但不能仔細閱讀內(nèi)容，內(nèi)容精細度不如GPT詳實和細膩。3.文心一言在海量信息的參數(shù)化全量記憶類型問題，及一些復(fù)雜的邏輯思維推理類問題的回復(fù)上，不符合用戶原始意圖的表現(xiàn)居多。

其次，對于安全類敏感類話題，文心一言控制的十分謹慎。

唐喆表示，文心一言的敏感詞范圍較寬泛，處理邏輯也略顯粗暴。

例如，若用戶A問出帶有敏感詞的問題，文心一言為防止A繼續(xù)發(fā)文，會強制關(guān)閉A的對話框。在此類問題上，ChatGPT相對更加客觀，會增加正向引導(dǎo)和安撫。

唐喆認為，通過上述例子可見，百度內(nèi)部細化、分層不夠，處理不靈活。

事實上，對文心一言來說，現(xiàn)階段最重要的事，是尋找百度翻譯替代品。

有業(yè)內(nèi)人士表示，雖然簡體中文互聯(lián)網(wǎng)用戶和英文互聯(lián)網(wǎng)用戶規(guī)模相當(dāng)，但截至2021年，全球排名前1000萬的網(wǎng)站中，英文內(nèi)容占比60.4%，中文內(nèi)容占比僅為1.4%。中國AI需要依賴大量的英文數(shù)據(jù)集訓(xùn)練，否則會吃虧。

文心一言若想成為“中國版”ChatGPT，需做好第一步中英互譯。

在文心一言“文生圖”還在“看圖猜成語”之時，據(jù)最新消息，OpenAI宣布ChatGPT支持接入第三方插件，并上架11個插件。

其中Browsing插件支持ChatGPT實時搜索互聯(lián)網(wǎng)內(nèi)容。

解除“封印”的ChatGPT將涌現(xiàn)無數(shù)可能性。

毫無疑問，全能AI助理時代即將到來。

中國的ChatGPT在哪？

原文標(biāo)題 : 不會中英互譯，百度文心一言變“中文差生”