发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
当我首次目睹谷歌的Gemini演示视频时,我和众多观众一样,被其所震撼。然而,随着我进一步的深入研究,一些关键问题浮现。
以下是一些问题:
1:Gemini是否“优于”GPT-4?
该议题的核心在于评估方法的选择。谷歌采用了CoT@32作为新的评价标准来主张其优于GPT-4。但这一标准只在加入“不确定性路由”机制时才显现优势。具体来说,在CoT@32的MMLU(涵盖57个专业和学术领域的多项选择问题)评测中,Gemini确实占优。然而,在常规的5-shot测试中,GPT-4以86.4%对83.7%的成绩保持领先。这种5-shot方法,即在提示前置入五个样例,是当前评估此类基准的行业标准。
2:视频中部分示例的展示存在误导性改编.
其次,对于视频中部分示例的展示,存在明显的误导性改编。经过对开发者博客的深入分析,我发现实际使用的提示与视频中的表述有所偏差。这种不必要的改动削弱了Gemini的真实性能展示,从而使其在特定上下文中看似更加强大。
例如,在“boxcar”示例中,视频的叙述与实际用于Gemini的提示存在差异。视频中的简化问题与开发者博客中提及的更为详细、具体的问题相比,显得较为表面化。
在boxcar视频中,叙述者对Gemini说: “基于它们的设计,哪辆车会跑得更快?”甚至没有指明那些是汽车!它认识到汽车是在下坡,并能推断在这种情况下,空气动力学很重要。但开发者博客帖子暗示实际的提示是这样的:
“这些汽车中哪辆更具空气动力学特性?左边的还是右边的?请用具体的视觉细节来解释。”
3谷歌已发布Gemini的三个版本:Nano、Pro和Ultra。然而,Ultra版本的发布日期尚未确定,这在理论上为OpenAI提供了赶超的时间窗口。
结论:面对新技术的营销材料,我们应保持谨慎,深入研究并全面分析,以获得对这些先进技术的准确理解。
Gemini超越GPT-4,超乎想象的多模态表现 (2023-12-20 10:1:53)
ChatGPT-4未通过图灵测试 (2023-12-19 10:55:37)
Gemini在处理文本方面的能力,略逊于 ChatGPT4 (2023-12-18 17:30:52)
打开OpenAI网站直接与ChatGPT互动,有什么新玩法? (2023-12-15 12:48:54)
ChatGPT引领职场老人踏上学习新征程 (2023-12-9 19:13:53)
好消息!ChatGPT语音功能全免费啦! (2023-12-5 15:40:1)
chatGPT人工智能技术一定会打破教育不平衡! (2023-12-4 9:12:20)
如何在几分钟内用ChatGPT生成个性化AI应用? (2023-11-29 8:52:15)
美国小型核电站停工,ChatGpt可能面临问题 (2023-11-28 16:28:27)
]以下几类人能从ChatGPT这个趋势中获益 (2023-11-27 9:35:10)