业界动态
一款面向程序员群体的AI问答产品火了!主打专业、正确率保障,消灭AI回答不可靠的问题
2025-02-24 12:23

一直以来,无论是GPT、Claude还有国内的AI对话产品,都一直被诟病“AI回答不可靠”,尤其是在程序员这类对AI回答的可靠性要求极高的场景(毕竟AI给代码里埋个bug,背锅的还是程序员)。

一款面向程序员群体的AI问答产品火了!主打专业、正确率保障,消灭AI回答不可靠的问题

而且当AI给的代码不可靠的时候,程序员发现跑不通或效果不对的时候,这时候再通过后续的prompt工程、追问等,大概率还是不行,对话次数多了之后AI甚至会发生遗忘,反而浪费了程序员的编程时间。

最近,一款名为AskManyAI的产品注意到了程序员群体的这个痛点,并且成功找到了一个简单、优雅的解决方法——

当单个AI对你提问的问题理解不到位、回答错误的时候,不要做prompt工程,也不要试图纠正它,而是选择直接抛弃它,直接换AI

没错,AskManyAI的研发团队在日常的使用中做了详细的统计,发现无论是GPT-4还是Claude3.5,对于AI编程类的对准确性要求高的复杂问题上,其日常回答的正确率、可靠性都只能做到70%~80%。

这意味着,你提10个问题,有2、3个问题就得不到正确的回答,浪费程序员的时间。

但AskManyAI研发团队发现,由于各个AI在训练时存在较大的差异,导致他们的能力短板长板各自有所不同,形成了明显的互补效应。这意味着,当一个AI对某个问题回答错误的时候,这个问题很可能另一个AI能回答正确。但具体是哪个AI能回答对,这无法预测。

于是,AskManyAI想到,如果提问的时候一次性同时问GPT-4o、GPT-4、Claude-3.5、Claude-3 Opus的话,是不是回答的正确率能得到直线飙升

带着这个疑问,AskManyAI研发团队在经过长达一个月的“人肉测试”后,惊喜的发现通过对主流6个AI模型的同时提问在程序员编程、debug场景的问题满足率/回答正确性上直线飙升了接近20个百分点,错误率从单个AI的20%~30%下降到了不足5%

这就是AskManyAI产品研发的初衷。

这个需求,笔者光写就写了500字。

笔者先是将这个问题同时抛给了Claude-3.5、GPT-4o、GPT-4和Claude-3 Opus。然后发现——

笔者忘记在问题中加一个限定条件了,咳咳。。。

(你们别打我

所以我又同时告诉所有的4个AI,我再加一个补充条件。。。

这次,所有的AI根据我的补充条件,写了他们的代码。

我认真审查后发现,果然

只有Claude-3.5的回答靠谱

GPT系列的模型没有正确的理解我的需求,写出的代码不对。而Claude-3 Opus写的虽然对,但是代码很不优雅。

于是我选择了采纳Claude-3.5的回答,然后继续追加需求

果然,Claude-3.5对我的新需求理解也到位,给到了正确的代码。

你们可以通过左边的目录,清晰的看到我的对话过程。

第一次提问,提问给了4个AI——GPT-4o、GPT-4、Claude3.5、Claude3Opus。

第二次提问,补充条件,给了全部4个AI。

第三次,发现只有Claude3.5回答正确,于是采纳它,深入的修改需求、增加新需求等。

至此,我的一个复杂的编程需求完美得到了解决。

若没有AskManyAI,我一定还深陷在调教GPT-4的痛苦中。。。

最后附传送门

https://askmanyai.chat

一句话总结吧,未来AI产品一定会向着不断细分前进。

    以上就是本篇文章【一款面向程序员群体的AI问答产品火了!主打专业、正确率保障,消灭AI回答不可靠的问题】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.glev.cn/news/19800.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 歌乐夫资讯移动站 http://sicmodule.glev.cn/mobile/ , 查看更多   
最新新闻
6月下旬,容颜未改,姻缘重来,3星座疯狂倒追,从此比翼双飞
  双子座  双子座聪明的,思维敏捷,他们总是有很多稀奇古怪的想法,遇到问题时,他们就会展出过人的智商,由此看出他们能力
如何运用AI打造高效的推广智能营销系统
在当今数字化时代,智能营销已成为企业提升市场竞争力的关键手段。通过运用人工智能技术(AI),企业能够构建高效的推广智能营销系
AI天际智能获客系统,全域大数据技术智能获客,同城线下引流到店AI获客新方案
#智能获客##AI获客##大数据获客##同城获客# AI天际智能获客系统,全域大数据技术智能获客,同城线下引流到店AI获客新方案。天际
当DeepSeek学会撒谎后,人类真的束手无策吗
“人无完人,金无足赤”这句话,哪怕是对DeepSeek也同样适用。2月10日,原人民日报海外版总编辑詹国枢发表了一篇名为《DeepSeek
实操!40万汽服店必须要保存的一份DeepSeek使用说明
作者|陈琳来源|汽车服务世界(ID:asworld168)“不同时代有不同时代的工具:黄页、百度、淘宝、抖音……但永远不变的是利他之心
AI写作工具在线:自由创作,高效生成
作为一个助手,我可以你进行写作。你只需要告诉我你的想法和,我就可以为你一篇符合你要求的。写作是一项需要耐心和技巧的任务。
外贸极客智能量化营销:让B2B企业业绩飙升的秘密武器!
【免费福利】全球81国海关数据开启免费使用限量名额啦!10亿+采购商交易信息,含精准联系方式,点击立即免费使用,即可免费查询
深度解析:AI语音功能在日常应用中的多样化用途与优势
随着人工智能技术的飞速发展语音功能已经逐渐渗透到咱们生活的方方面面。从智能助手到智能家居语音功能的应用场景越来越广泛。本
天才还是赌徒?Deepseek创始人被福布斯曝净资产!他有多少钱
大众都比较了解的一句话,天才在左边,疯子在右边。一点点细微的差别造就的却是完全不一样的结局,那么同理,天才还是赌徒?所有
浪漫韩剧《恋爱不可抗力》:路云、宝儿复杂四角恋7大看点总整理
  2023年有许多炙手可热的韩剧正热播中!包括《驱魔面馆2》、《无用的谎言》、《灾后调查日志2》、《恋人》、《MOVING异能》、