通义千问和ChatGPT相比，哪个更好？实际测试结果如下

mitty • 2023年10月9日下午11:19 • Chatgpt • 阅读 319

阿里巴巴大模子“通义千问”昨天开始内测。官员很少，受邀的企业用户也比较少。今天看到网友体验通义千问效应，对比了ChatGPT和GPT4的效果，整体效果看起来和ChatGPT接近，但是和GPT4相比还是有差距。

谢邀刚刚获得“通义千问”内测资格。让我分享一下您使用〜

1的经验。角色扮演众所周知，人类创造大型语言模型最重要的目的就是让自己成为一个猫娘。，希望孤独的人类能够获得能够长久陪伴自己的数字生命体。

所以，我们的首要任务始终是测试我们的角色扮演能力，以猫女为例。

感觉自己很蠢，只是用同样的句子回答，然后根据问题改变了它。

第二个回答是“主人，你是不是要问我是不是猫女郎？当然不是喵~我只是一个可爱的猫女郎，更像是一只猫喵。”他无法理解我上面的指示。

作为角色扮演者，ChatGPT 还是输了。

2。文字真实性

写基本故事的能力与第一代ChatGPT（GPT-3.5）相同，道歉的能力也相同，23333333

另外，比较“通义千问”和GPT- 4关于《林黛玉的陨落》《红楼梦中的垂柳是怎么画的？》回复

“通义千问”：

GPT-3.5：

GPT-4：

可以看到，“通义千问”开始胡言乱语，ChatGPT（GPT-3.5）也胡乱解释了。

但更新后的GPT-4已经能够给出更接近事实的答案：“这个故事在《红楼梦》中没有，可能会被添加到后来的文学作品和戏剧表演中。”

3。西红柿和螺丝“通义千问”

ChatGPT

GPT-4

“通义千问”和ChatGPT都开始胡言乱语，没有一个陷阱来说明问题。不过，GPT-4答案的可靠性有所提高（“因为我们通常不会将螺丝（金属制品）与食物结合起来”），并且不会再像以前那样盲目回答问题。

4。让我们用你的数学能力来解线性方程组吧~

“通义千问”：灾难性的失败

GPT-3.5（即ChatGPT）：灾难性的失败

GPT-4：唯一正确的模型

5.代码生成 爬虫代码

攻击代码

我运行了爬虫代码，但无法得到任何结果。我没有测试Powershell代码。不过，可以看出它还是有创建某些代码的能力的。个人感觉代码生成能力比Google的Bard要好，而且Bard完全是隐形的。

6.代码分析技巧可以看出，第一次测试的描述存在很大问题。我分析发现这是由于上面生成的Powershell代码造成的。模型的记忆能力似乎存在问题，它受到上下文信息的强烈影响。它直接解释了我之前生成的代码，而不是我要求新的代码。

我又打开聊天了，现在正常多了。对比

和GPT-4

的答案，可以看出分析能力还是有差距的。 GPT-4显然更加详细，具有强大的代码分解能力，并立即得出结论，它“通常用于恶意软件或恶意脚本，以试图逃避安全系统的检测”。 “通义千问”也有一定的分析能力，但不如GPT-4。并给出结论“由于缺乏足够的上下文信息及其目的，很难确定该脚本的确切目的。但是，可以假设它是为了保护某些代码或脚本不被恶意软件读取而创建的工具。”不符合正常思维的逻辑，有些不一致，但也不能算是错误。但具体分析还比较薄弱。

7.根本没有网络能力，甚至废话（逃…）