Gemini是否真的“优于”ChatGPT-4？

chatgpt 2023-12-19 15:34:12 ChatGPT教程资讯次浏览

当我首次目睹谷歌的Gemini演示视频时，我和众多观众一样，被其所震撼。然而，随着我进一步的深入研究，一些关键问题浮现。

以下是一些问题：

1：Gemini是否“优于”GPT-4？

该议题的核心在于评估方法的选择。谷歌采用了CoT@32作为新的评价标准来主张其优于GPT-4。但这一标准只在加入“不确定性路由”机制时才显现优势。具体来说，在CoT@32的MMLU（涵盖57个专业和学术领域的多项选择问题）评测中，Gemini确实占优。然而，在常规的5-shot测试中，GPT-4以86.4%对83.7%的成绩保持领先。这种5-shot方法，即在提示前置入五个样例，是当前评估此类基准的行业标准。

2:视频中部分示例的展示存在误导性改编.

其次，对于视频中部分示例的展示，存在明显的误导性改编。经过对开发者博客的深入分析，我发现实际使用的提示与视频中的表述有所偏差。这种不必要的改动削弱了Gemini的真实性能展示，从而使其在特定上下文中看似更加强大。

例如，在“boxcar”示例中，视频的叙述与实际用于Gemini的提示存在差异。视频中的简化问题与开发者博客中提及的更为详细、具体的问题相比，显得较为表面化。

在boxcar视频中，叙述者对Gemini说： “基于它们的设计，哪辆车会跑得更快？”甚至没有指明那些是汽车！它认识到汽车是在下坡，并能推断在这种情况下，空气动力学很重要。但开发者博客帖子暗示实际的提示是这样的：

“这些汽车中哪辆更具空气动力学特性？左边的还是右边的？请用具体的视觉细节来解释。”

3谷歌已发布Gemini的三个版本：Nano、Pro和Ultra。然而，Ultra版本的发布日期尚未确定，这在理论上为OpenAI提供了赶超的时间窗口。

结论：面对新技术的营销材料，我们应保持谨慎，深入研究并全面分析，以获得对这些先进技术的准确理解。

ChatGPT