ChatGPT

Gemini是否真的“优于”ChatGPT-4?

当我首次目睹谷歌的Gemini演示视频时,我和众多观众一样,被其所震撼。然而,随着我进一步的深入研究,一些关键问题浮现。

Gemini是否真的“优于”ChatGPT-4?

以下是一些问题:

1:Gemini是否“优于”GPT-4?

该议题的核心在于评估方法的选择。谷歌采用了CoT@32作为新的评价标准来主张其优于GPT-4。但这一标准只在加入“不确定性路由”机制时才显现优势。具体来说,在CoT@32的MMLU(涵盖57个专业和学术领域的多项选择问题)评测中,Gemini确实占优。然而,在常规的5-shot测试中,GPT-4以86.4%对83.7%的成绩保持领先。这种5-shot方法,即在提示前置入五个样例,是当前评估此类基准的行业标准。

2:视频中部分示例的展示存在误导性改编.

其次,对于视频中部分示例的展示,存在明显的误导性改编。经过对开发者博客的深入分析,我发现实际使用的提示与视频中的表述有所偏差。这种不必要的改动削弱了Gemini的真实性能展示,从而使其在特定上下文中看似更加强大。

例如,在“boxcar”示例中,视频的叙述与实际用于Gemini的提示存在差异。视频中的简化问题与开发者博客中提及的更为详细、具体的问题相比,显得较为表面化。

在boxcar视频中,叙述者对Gemini说: “基于它们的设计,哪辆车会跑得更快?”甚至没有指明那些是汽车!它认识到汽车是在下坡,并能推断在这种情况下,空气动力学很重要。但开发者博客帖子暗示实际的提示是这样的:

“这些汽车中哪辆更具空气动力学特性?左边的还是右边的?请用具体的视觉细节来解释。”

3谷歌已发布Gemini的三个版本:Nano、Pro和Ultra。然而,Ultra版本的发布日期尚未确定,这在理论上为OpenAI提供了赶超的时间窗口。

结论:面对新技术的营销材料,我们应保持谨慎,深入研究并全面分析,以获得对这些先进技术的准确理解。

相关推荐

Gemini超越GPT-4,超乎想象的多模态表现  (2023-12-20 10:1:53)

ChatGPT-4未通过图灵测试  (2023-12-19 10:55:37)

Gemini在处理文本方面的能力,略逊于 ChatGPT4  (2023-12-18 17:30:52)

打开OpenAI网站直接与ChatGPT互动,有什么新玩法?  (2023-12-15 12:48:54)

ChatGPT引领职场老人踏上学习新征程  (2023-12-9 19:13:53)

好消息!ChatGPT语音功能全免费啦!  (2023-12-5 15:40:1)

chatGPT人工智能技术一定会打破教育不平衡!  (2023-12-4 9:12:20)

如何在几分钟内用ChatGPT生成个性化AI应用?  (2023-11-29 8:52:15)

美国小型核电站停工,ChatGpt可能面临问题  (2023-11-28 16:28:27)

]以下几类人能从ChatGPT这个趋势中获益  (2023-11-27 9:35:10)

发表评论:

验证码

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。