推广 热搜:   中国  参数  设备  公司  服务  未来  行业  企业  教师 

一款面向程序员群体的AI问答产品火了!主打专业、正确率保障,消灭AI回答不可靠的问题

   日期:2025-02-24     作者:caijiyuan    caijiyuan   评论:0    移动:http://sicmodule.glev.cn/mobile/news/19800.html
核心提示:一直以来,无论是GPT、Claude还有国内的AI对话产品,都一直被诟病“AI回答不可靠”,尤其是在程序员这类对AI

一直以来,无论是GPT、Claude还有国内的AI对话产品,都一直被诟病“AI回答不可靠”,尤其是在程序员这类对AI回答的可靠性要求极高的场景(毕竟AI给代码里埋个bug,背锅的还是程序员)。

一款面向程序员群体的AI问答产品火了!主打专业、正确率保障,消灭AI回答不可靠的问题

而且当AI给的代码不可靠的时候,程序员发现跑不通或效果不对的时候,这时候再通过后续的prompt工程、追问等,大概率还是不行,对话次数多了之后AI甚至会发生遗忘,反而浪费了程序员的编程时间。

最近,一款名为AskManyAI的产品注意到了程序员群体的这个痛点,并且成功找到了一个简单、优雅的解决方法——

当单个AI对你提问的问题理解不到位、回答错误的时候,不要做prompt工程,也不要试图纠正它,而是选择直接抛弃它,直接换AI

没错,AskManyAI的研发团队在日常的使用中做了详细的统计,发现无论是GPT-4还是Claude3.5,对于AI编程类的对准确性要求高的复杂问题上,其日常回答的正确率、可靠性都只能做到70%~80%。

这意味着,你提10个问题,有2、3个问题就得不到正确的回答,浪费程序员的时间。

但AskManyAI研发团队发现,由于各个AI在训练时存在较大的差异,导致他们的能力短板长板各自有所不同,形成了明显的互补效应。这意味着,当一个AI对某个问题回答错误的时候,这个问题很可能另一个AI能回答正确。但具体是哪个AI能回答对,这无法预测。

于是,AskManyAI想到,如果提问的时候一次性同时问GPT-4o、GPT-4、Claude-3.5、Claude-3 Opus的话,是不是回答的正确率能得到直线飙升

带着这个疑问,AskManyAI研发团队在经过长达一个月的“人肉测试”后,惊喜的发现通过对主流6个AI模型的同时提问在程序员编程、debug场景的问题满足率/回答正确性上直线飙升了接近20个百分点,错误率从单个AI的20%~30%下降到了不足5%

这就是AskManyAI产品研发的初衷。

这个需求,笔者光写就写了500字。

笔者先是将这个问题同时抛给了Claude-3.5、GPT-4o、GPT-4和Claude-3 Opus。然后发现——

笔者忘记在问题中加一个限定条件了,咳咳。。。

(你们别打我

所以我又同时告诉所有的4个AI,我再加一个补充条件。。。

这次,所有的AI根据我的补充条件,写了他们的代码。

我认真审查后发现,果然

只有Claude-3.5的回答靠谱

GPT系列的模型没有正确的理解我的需求,写出的代码不对。而Claude-3 Opus写的虽然对,但是代码很不优雅。

于是我选择了采纳Claude-3.5的回答,然后继续追加需求

果然,Claude-3.5对我的新需求理解也到位,给到了正确的代码。

你们可以通过左边的目录,清晰的看到我的对话过程。

第一次提问,提问给了4个AI——GPT-4o、GPT-4、Claude3.5、Claude3Opus。

第二次提问,补充条件,给了全部4个AI。

第三次,发现只有Claude3.5回答正确,于是采纳它,深入的修改需求、增加新需求等。

至此,我的一个复杂的编程需求完美得到了解决。

若没有AskManyAI,我一定还深陷在调教GPT-4的痛苦中。。。

最后附传送门

https://askmanyai.chat

一句话总结吧,未来AI产品一定会向着不断细分前进。

本文地址:http://sicmodule.glev.cn/news/19800.html    歌乐夫 http://sicmodule.glev.cn/ , 查看更多
 
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号