一款面向程序员群体的AI问答产品火了！主打专业、正确率保障，消灭AI回答不可靠的问题

日期：2025-02-24 作者：caijiyuan caijiyuan 评论：0 移动：http://sicmodule.glev.cn/mobile/news/19800.html

核心提示：一直以来，无论是GPT、Claude还有国内的AI对话产品，都一直被诟病“AI回答不可靠”，尤其是在程序员这类对AI

一直以来，无论是GPT、Claude还有国内的AI对话产品，都一直被诟病“AI回答不可靠”，尤其是在程序员这类对AI回答的可靠性要求极高的场景（毕竟AI给代码里埋个bug，背锅的还是程序员）。

而且当AI给的代码不可靠的时候，程序员发现跑不通或效果不对的时候，这时候再通过后续的prompt工程、追问等，大概率还是不行，对话次数多了之后AI甚至会发生遗忘，反而浪费了程序员的编程时间。

最近，一款名为AskManyAI的产品注意到了程序员群体的这个痛点，并且成功找到了一个简单、优雅的解决方法——

当单个AI对你提问的问题理解不到位、回答错误的时候，不要做prompt工程，也不要试图纠正它，而是选择直接抛弃它，直接换AI！

没错，AskManyAI的研发团队在日常的使用中做了详细的统计，发现无论是GPT-4还是Claude3.5，对于AI编程类的对准确性要求高的复杂问题上，其日常回答的正确率、可靠性都只能做到70%~80%。

这意味着，你提10个问题，有2、3个问题就得不到正确的回答，浪费程序员的时间。

但AskManyAI研发团队发现，由于各个AI在训练时存在较大的差异，导致他们的能力短板长板各自有所不同，形成了明显的互补效应。这意味着，当一个AI对某个问题回答错误的时候，这个问题很可能另一个AI能回答正确。但具体是哪个AI能回答对，这无法预测。

于是，AskManyAI想到，如果提问的时候一次性同时问GPT-4o、GPT-4、Claude-3.5、Claude-3 Opus的话，是不是回答的正确率能得到直线飙升？

带着这个疑问，AskManyAI研发团队在经过长达一个月的“人肉测试”后，惊喜的发现通过对主流6个AI模型的同时提问，在程序员编程、debug场景的问题满足率/回答正确性上直线飙升了接近20个百分点，错误率从单个AI的20%~30%下降到了不足5%。

这就是AskManyAI产品研发的初衷。

这个需求，笔者光写就写了500字。

笔者先是将这个问题同时抛给了Claude-3.5、GPT-4o、GPT-4和Claude-3 Opus。然后发现——

笔者忘记在问题中加一个限定条件了，咳咳。。。

（你们别打我

所以我又同时告诉所有的4个AI，我再加一个补充条件。。。

这次，所有的AI根据我的补充条件，写了他们的代码。

我认真审查后发现，果然！！

只有Claude-3.5的回答靠谱！

GPT系列的模型没有正确的理解我的需求，写出的代码不对。而Claude-3 Opus写的虽然对，但是代码很不优雅。

于是我选择了采纳Claude-3.5的回答，然后继续追加需求

果然，Claude-3.5对我的新需求理解也到位，给到了正确的代码。

你们可以通过左边的目录，清晰的看到我的对话过程。

第一次提问，提问给了4个AI——GPT-4o、GPT-4、Claude3.5、Claude3Opus。

第二次提问，补充条件，给了全部4个AI。

第三次，发现只有Claude3.5回答正确，于是采纳它，深入的修改需求、增加新需求等。

至此，我的一个复杂的编程需求完美得到了解决。

若没有AskManyAI，我一定还深陷在调教GPT-4的痛苦中。。。

最后附传送门：

https://askmanyai.chat

一句话总结吧，未来AI产品一定会向着不断细分前进。

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行

• 微博怎么绑定手机号（怎样在微博绑定手机号）	• 手机7z（手机7z文件用什么打开）
• 手机不能安装软件（手机不能安装软件是什么原因	• 手机为什么连不上wifi（手机突然连接不上wifi什
• vo手机价格（vo手机价格及图片）	• 手机的家（手机的家贴膜）
• 延吉手机（延吉手机维修店地址）	• 如何做手机壁纸（如何做手机壁纸的图片）
• 怎么调节手机字体大小（咋样调节手机字体大小）	• 手机号码软件（轰炸手机号码软件）