| |
首页 淘股吧 股票涨跌实时统计 涨停板选股 股票入门 股票书籍 股票问答 分时图选股 跌停板选股 K线图选股 成交量选股 [平安银行] |
股市论谈 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事 |
商业财经 科技知识 汽车百科 工程技术 自然科学 家居生活 设计艺术 财经视频 游戏-- |
天天财汇 -> 汽车百科 -> Claude 3真的比GPT-4强吗? -> 正文阅读 |
|
[汽车百科]Claude 3真的比GPT-4强吗? |
[收藏本文] 【下载本文】 |
Claude 3真的比GPT-4强吗? 关注问题?写回答 [img_log] GPT Claude3 Claude 3真的比GPT-4强吗? |
Claude 3刚刚发布当天,我跑了三百多个测试,当时的测试结论是Claude 3 Opus全面强于GPT4,且速度略快于GPT4。 但今天我突然感觉到GPT4的速度下降了(远慢于Opus),而且今天几乎所有问题Claude 3 Opus的效果都略逊于GPT4。困惑之余我拿GPT4跑了几个以前做过的测试,发现原来答错的内容突然又答对了……检查了下回答,GPT4今天也不偷懒了。 我XXX你CloseAI,我XXX你OpenEmail。 国内外一圈测下来,应该说GPT4和Opus是断层式领先,多来点竞争者吧。 Update 3/9 我XXX了,今天用着用着感觉又不对了,GPT4速度回升,回答质量两边几乎完全持平。重新运行几个测试,那几个之前只有Opus做对的,前两天GPT4也做对的题,如今两个都一起不会做了。 你们是懂做生意的!!! |
我拿claude3 opus api裹上各种武装色功能,测了一下代码能力 整体来说,opus的水平,刷榜是显示超过gpt4的,但是我是这样感觉的,我有自己的场景代码 大多数是强迫使用某些第三方偏冷的库写算法,比如 python 调用 blender 写某些奇怪的图形学代码,整体就是差chatgpt4一丢丢,概率写出完全不能用的算法,逻辑没错,就是库接口完全是错的,而且缺乏通用性。其余热门库感觉和gpt4差不多了,比如写 torch 这些,但是claude写代码有种赛博莎士比亚感觉,有点剑走偏锋,就是人看的不如gpt那么机械和八股 不过价格和速度是比gpt4好多了 不过,每个大模型测试都是饭圈,我也只是针对自己场景测试得出的结论,目前我的场景要用claude代替gpt4,我还是有点没自信 |
我觉得gpt4还是强于claude3opus,原因如下: 我问两个AI同一个问题:“In the beginning was the Word, and the Word was with God, and the Word was God. ”中“Word”为什么翻译为“道”? Claude3opus的回答: 在翻译"In the beginning was the Word, and the Word was with God, and the Word was God."这句话时,"Word"一词被翻译为"道",这主要有以下几个原因: "道"在中国古代哲学中有着深刻的含义,特别是在道家思想中。"道"代表宇宙的本源、运行的法则以及最高的真理。将"Word"译为"道",表明了"Word"的超然地位和深刻内涵。在基督教神学中,"Word"指的是耶稣基督,即上帝的儿子、道成肉身的神。而在中国文化中,"道"也有人格化的意味,如老子所说的"道可道,非常道"。因此,将"Word"译为"道",有助于中国读者理解基督教的"道成肉身"教义。"道"字在中文中有"话语、言语"的意思,与"Word"的字面意思相对应。同时,"道"也有"道路、方法"的意思,与基督教中"耶稣就是道路、真理、生命"的教导相呼应。在中国文化中,"道"还有"大道、正道"的意思,与基督教中"Word"代表真理和启示的意义相一致。 综上所述,将"Word"译为"道",既考虑到了中西方文化的差异,又恰当地表达了原文的神学内涵,使中国读者更容易理解和接受基督教的教义。这个翻译体现了译者的智慧和对两种文化的深刻理解。 GPT4的回答: 这句话出自《圣经》新约的《约翰福音》第1章第1节。在基督教神学中,"Word"(希腊语:Λ?γο?,Logos)代表的是神的智慧和言语,被认为是上帝创造万物的工具、方法和理性原则,也是神与人沟通的桥梁。 将"Word"翻译为中文“道”起源于中国传教士为了传播基督教而进行的文化适应和翻译权衡。"道"在中文和东亚文化中是个非常深邃且多层次的概念,尤其是在道教和儒教中占有重要地位。在道教中,“道”是宇宙万物的根本原理,是万物存在和变化的法则,与“Word”作为创造和秩序原则有相似之处。 因此,当19世纪传教士如马礼逊(Robert Morrison)等开始翻译《圣经》时,他们选择用“道”来接近“Logos”的概念,试图让《圣经》更容易被中国读者接受和理解。这种翻译在某种程度上强调了“Logos”作为世界万物的根本原理和秩序,与“道”的概念相呼应。 值得注意的是,这种翻译并不是完美无缺的,因为“道”和“Logos”在文化和哲学背景上有着本质的差异。但这个翻译选择体现了传教士在跨文化交流和理解中的努力,以及在不同文化和语言之间寻求沟通的挑战。 综上,我觉得差异还是很大。 |
已经震惊到掉了下巴了。刚刚的对话。 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
这完全就是神仙打架嘛! 科技领域的新旧更替是避免不了的,GPT-4已经推出这么久了,出现一个更厉害的其实不奇怪。 大家感到惊讶的倒不只是Claude 3评测成绩全面超过GPT-4,而是因为打败OpenAI的居然不是OpenAI,而是Anthropic。 可能因为去年一整年OpenAI又是GPT-4又是GPTs又是sora轮番震撼,给了大家一种“OpenAI遥遥领先远超众AI”的印象。如今这个不败神话被打破了,才会引起这么大的讨论。 |
|
那我们就先来看看这个“各项测评全面超越GPT-4”的Claude 3是个什么玩意儿吧。 Claude 3是由OpenAI最强竞争对手Anthropic公司推出的一系列多模态交互模型,包括三个型号Haiku(俳句)、Sonnet(十四行诗)、Opus(著作)。 简单来理解就是三种规模,Haiku最为轻量,而Opus则最强。也就是这个Opus模型,强到足以在各项榜单测评上全面超越GPT-4。 |
|
这熟悉的多模态模型,这熟悉的三个模型规模,不知道大家有没有想起大明湖畔的Gemini? 但不好意思,Gemini Ultra在榜单上还排在GPT-4后头呢。 |
|
话说Anthropic公司这名字起得真有意思,名字叫Claude(克劳德)就算了,模型型号也起得这么文艺范儿。 虽然文艺,它在推理、数学、编码这些方面的能力可不是盖的。在多语言理解、视觉处理方面的表现也十分出彩。 在面对复杂任务时Opus表现出的理解力和流利度已经可以接近人类,回答各种开放式问题时也表现得游刃有余。 |
|
Claude 3能够处理长达200K token的上下文窗口,这就好比它能一口气读完一部长篇小说,还能记住当中的每一个细节。 而Claude 3的多模态能力也为它的实际使用中带来更多的可能性。比如用它来读取技术图表、流程图、手写笔记的信息,能帮大家节省在阅读复杂文档和图片上消耗的时间。 |
|
当然,能作为行业标杆的GPT-4也不是吃素的。它出现得更早,在纯文本处理上有着更丰富的经验,也在大家心中有着不可动摇的“白月光”地位。 在实际的体验的测评对比中,也有不少人觉得GPT-4在一些方面的表现更具优势。比如在多模态交互上GPT-4拥有生成图片的能力,这一点则是目前Claude 3所不具备的。 |
|
因此目前要说Claude 3已经超越了GPT-4,这显然是不对的,二者之间只能说平分秋色,不相上下。 但起码Claude 3的出现给GPT-4带来了不小的压力,也让大家意识到其他AI模型的更多可能性。事实上除了Claude 3和GPT-4以外还有不少AI大模型也有着亮眼的表现。 比如下面这几个AI工具,在实际使用过程中就体现了其不小的价值和作用。 >>AI创意生成家——综合型生成式AI 我一直觉得并不是一股脑地将所有生成式AI功能融合到一个交互界面就叫做好,而这个软件便很好地体现了“遵其特点”的理念。 它有多种不同的生成式AI功能,每种功能都按照其生成结果的特点设计了专门的交互方式。 |
|
比如聊天的特点是自由随意,因此它的AI聊天功能直接点进去就能在下方输入问题进行提问。它还预设了多种聊天模板,方便我们不知道如何提问时也能快速展开想要聊天的话题。 |
|
而在AI写作功能上它则考虑到了文章相对结构性强的特点,只需输入简单的内容描述,选择想要的行文语气,就能生成一篇逻辑通顺、有头有尾的文章。 |
|
>>Kimi Chat——聊天对话式AI助手 月之暗面Moonshot推出的智能聊天机器人,虽然这家公司的名字听起来中二,但这个AI工具的能力同样也是不弱的。 它比较独特的就是可以发送网址或文件让AI进行理解,并根据学习后的结果再生成我们需要的内容。简单来说,我们可以自己提供材料训练它的生成结果,让生成内容更合心意。 它的基础能力也是挺不错的,可以回答问题、提供建议、计算数学问题等。 |
|
如今AI领域正在日新月异地发展,不知道不久之后又会出现什么更为强大的AI工具呢?真的是让人很期待了。 看完别忘了给小林留下点什么,这样 @小林不加班 才有动力继续分享,整理比上班还累的哇~ |
看技术报告是强的,不过实际用起来,最起码我常用的场景上感觉差别不大。 |
大家好,我是五竹。 昨天给大家整理了一篇关于注册和升级Claude3的文章:全网都在捧在Claude3.0!只有我手把手教你用!结果今天至少有20个人加我,其中就有一个说成功了,大部分都失败了。失败的原因基本就两种:一是接码失败;二是账号被封。 |
|
知道Claude3严格,但没想到这么严格,比GPT严格多了。严在哪呢? 1.网络环境。初步分析在注册、登录和使用过程中Claude平台都会检测,一旦发现异常立马封号。 2.虚拟号码的检测。在注册过程中,超过3次如上图1的提示,就会直接被封号,对虚拟号码的校验异常严格。 以上结论也是我今天多次注册后得出的。不一定准,但肯定不会错。一共注册了4个,就成功了一个,转手卖了88元,算是把今天的测试成本赚回来了。简单说说注册Claude的心得吧,至少可以提高注册的成功率。 1.全程使用谷歌浏览器的无痕模式。 2.推荐使用美区的谷歌邮箱。什么是美区谷歌邮箱呢?就是注册的时候IP在美区、注册时选择的地区是美区、验证的手机号是美区。注册过程可以参照这篇文章:玩AI还是要用这两种邮箱账号! 。验证手机号时别用自己的手机号,可以借助接码平台,接码平台的使用方法,关于SMS接码平台的注册和充值方法:接码平台使用方法 注意,别选错了服务: |
|
3.推荐选择通过谷歌账号的方式注册Claude |
|
4.通过接码平台验证时,最好选择物理号。超过两次都没有成功,就别试了,先缓一缓。 |
|
5.建议大家别太执着,等过了这个热点风口再注册!GPT刚上线时也严格,现在都不需要验证号码了。另外,大家别太在意Claude3!昨天在文末也给大家进了对比,但是很多人都没有看到,这里简单在说说。 1.Claude Sonnet的能力远超GPT3.5,支持文件和图片识别。虽然可以免费使用,但限制次数!粗估每分钟限制5次,一天最多30次左右,这够干嘛的?2.Claude Opus除了处理的文字数量远超GPT4.0,能力略微超过GPT4.0吧。但Claude Opus不支持AI绘画。总之,作为一个普通人,有这个时间加上被封号的风险,不如去折腾GPT4.0。 我是五竹,一位持续探索自媒体副业的大龄程序员。不算优秀,但贵在真实。咱们下篇见~。→_→《玩赚GPT指南V4》 |
谢邀,高赞的回答有些晦涩,大全以小白方式测试来给大家。 先说结论,毫不夸张的说 Claude 3 全球唯一超越 GPT-4 的模型。 接下来我们一一道来,先介绍 Claude 3 ,再有大全的测试。 |
|
Claude3,由Anthropic这家OpenAI的姊妹公司推出,正式发布了。 Claude3系列推出了三个版本:Claude 3 Opus、Claude 3 Sonnet、Claude 3 Haiku,名字背后各自承载着独特的意涵。 这三者的设计初衷很简单——就是强大的程度,分别对应超大杯、大杯、中杯的不同需求。 |
|
细节并不是本次讨论的重点,通过一组简单对比图便能清晰地看出各自特色。 |
|
最引人注目的是,Claude3的Opus版本在多个领域实现了对GPT4的全面超越,尤其是在零次提示(0-shot)场景下更是如此。 以多语言数学推理测试为例,Claude3 Opus在没有任何的示例提示情况下,准确率高达达到了90.7%,而GPT4即便给予了八个示例,准确率也仅为74.5%。 这不仅展示了Claude3在推理任务上卓越能力,还彰显了其在语言和知识测试中与GPT4的接近水平,标志着其推理能力显著进步。 然而,让人叹息的是,尽管Claude3极具吸引力,但其高端版本Opus仅对付费会员开放,需要支付20美元方可使用。 经过简单的测试,总结出Claude的三大特点:无与伦比的推理能力、与GPT4持平的多模态表现、以及针对200K长文本的优化处理。 二、初体验和 GPT4 对比 目前大全简单尝试了一下,没想到虽然可以使用但是只有几免费的机会。 |
|
我们先看看最新的数据集,依然停留才 2023 年 8 月: |
|
GPT4 以其多模态功能,成为了许多用户不可或缺的工具之一。 近期,Claude3亦升级了其视觉能力,新增了直接处理图像的功能。 ?官方发布的数据表明,Claude3在视觉能力上与GPT4基本持平。 |
|
简单看下大全测试的结果,先是视觉能力,这里也可能是大全表达的不清楚?然后换了个说法就好了。 |
|
非常出色的完成我的任务,来看看 GPT4 的表现: |
|
再看看打开这个代码之后的效果: |
|
至少主体看没啥大的问题,这里 Claude3 完胜。 我们再来看一个图片理解能力的例子: |
|
接着是 GPT4 的表现: |
|
大家看到回答了吗?我倒是更喜欢 GPT4 的回答,至少这个回答是我心中的答案。 因为只有三次测试机会,所有也只能测试到这里了 。 这里我们可以再看看其他的测试,大家感受一下: |
|
|
|
再说几句: Claude3 还有一些改进,我们再简单说下。 大家再看下Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku的区别。 |
|
一眼就能看明白,牛逼的更贵,便宜的更快。 准确度提升 与 Claude 2.1 相比,Opus 在这些挑战性的开放式问题上的准确率提高了一倍,同时错误答案的频率也有所下降。 不仅提高了回答的可信度,还将很快在 Claude 3 模型中加入引用功能,使其能够指向参考材料中确切的句子以验证答案。 |
|
长期上下文处理和近乎完美的记忆能力 Claude 3 模型家族一开始将提供200K的上下文窗口。而且,所有三种模型均能处理超过一百万tokens的输入。 Claude 3 Opus 不仅实现了近乎完美的记忆能力,准确率超过99%,有时甚至能识别出评估方法本身的局限,例如识别某些“针”句子似乎是人为加入到原文中的。 |
|
再次总结下?三个特点: 无与伦比的推理能力、 与GPT4持平的多模态表现、 针对200K长文本的优化处理。 无疑,这使其成为了当前市场上最为强大的大型模型。 不过 OpenAI 也可能不会对此次更新无动于衷。 期望OpenAI能迅速回应,发布GPT5,对 Claude3 进行“狙击”啊。 激烈的竞争,加速迎接我们的未来,我已经迫不及待了。 未来已至... 大全目前专注于 AI 提示词领域的研究,分享从 0 到 1 入门 AI 提示词,ChatGPT 知识的系统性教程, 0 基础的小白也可以学会 ,有基础的小伙伴也可以学到进阶的知识,这里全部免费送给大家: 大全的愿景是成为 AI 提示词的布道者,带领 10 万小白入门 AI。关注 @大全Prompt 带您 AI 入门。有收获的话记得点个赞呀 |
强又能强到哪里去?大模型最后拼的还是数据和算力。数据覆盖到了你的问题,你就觉得它很厉害;要么多算几次,或许就能选到更好的输出(它的确有一定的泛化能力)。参数调来调去,能实现局部提升,但不能从根本上走通全程认知。 2023年11月28日,比尔·盖茨认为,当下生成式AI的发展已经达到了极限,很难再有突破性的进展。下一个AI发展的赛道,很可能是可解释AI。比尔.盖茨预测,未来10年AI领域的主角将成为可解释AI。 在生成式人工智能赛道上,再爆出谁碾压谁都属于炒作。 |
OpenAI不可战胜的神话,已经被打破了。 随着Claude 3(支持中文)一夜登陆,榜单性能跑分全面超越GPT-4,成为首个全面超越GPT-4的产品,也坐上了全球最强大模型新王座。 |
|
而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。 各路测评纷至沓来。 所以,Claude 3的“武力值”究竟如何爆满?究竟比GPT-4如何?(听说都能学会至今没有模型能搞定的打麻将?) 全球热乎的一手体验,我们悉数奉上。 我们使用的是Xstech AI提供的Claude 3大模型 |
|
XSTECH AI 9k长大模型微调教程直出、读图超显专业 Claude 3一出来,它的视频解读能力首先就火了。 面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程,尽管全程足足2个小时13分钟长,Claude 3只靠一轮提示词,就成功将它总结成了博客文章: |
|
|
有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话(输入附件并非视频,而是视频的字幕文件,当然也包含每5秒一次的截图)。 这是所用提示词的一部分,要求非常之多: |
|
测试者指出: 这展现的是Claude 3遵循多个复杂指令的能力。 除了解读视频教程,Claude 3还能直接给你编写详细教程。 9k字的大模型微调入门教程,“中杯”Sonnet就轻松hold住。并且: 编写速度之快,可谓人眼都跟不上。 |
|
|
代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端webUI—— 结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及API本地配置,三大部分一气呵成,并可以直接部署到GitHub。 |
|
|
多模态能力上,最让网友惊讶的是: 齐白石的画都能认出来。 |
|
以及科学示意图也看得懂,直接跪了: |
|
(以上4个例子来源见文末链接[1]) 至于同样赶超的推理以及数学等能力。 一测,可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题: |
|
最后,不得不提的是,Claude在“自我认知”上的展现。 有人要求Opus画一幅自画像。 您猜怎么着? 它这么描述自己: 我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。 整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁…… 洋洋洒洒一长串形容,听起来真得很酷很有“自我”—— 然而,用它给出的代码渲染出真实形象,就更有一种说不出来的微妙感觉了: |
|
|
网友真切感叹: 真的太像真人了,就跟我朋友描述自己一样。 |
|
真人?AI自我认知?这有点让人担心了…… 这不Claude 3的技术报告就提到,它甚至可以自己训练微调另一个小模型。 不过!谢天谢地,由于多gpu设置失败它没能成功。(手动狗头) |
|
为什么是Claude? 网友是相当看好Claude,评测完毫不犹豫地表示: 会员可充,值得充。 究其原因,Claude 3相比之前的版本,真的有种“来势汹汹”之势。 表现亮点的地方相当多,包括但不限于多模态识别、长文本能力等等。 从网友的反馈来看,最强竞对的称号,也并非浪得虚名。 所以,一个问题是: 率先干翻GPT-4,这家公司究竟凭什么? 论技术,遗憾,Claude 3的技术报告中没有对他们的路线进行详解。 不过倒是提到了合成数据。有大V指出:这可能是一个关键因素。 |
|
而对Claude熟悉一些就知道,长文本能力一直是它的一大卖点。 去年七月推出的Claude 2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才与公众见面。 而这次窗口长度再次翻倍,达到了200k,并且接受超过100万Tokens的输入。 相比技术的神秘,Claude背后名为Anthropic的初创公司,倒是能让我们找到更多眉目。 它的创始人是OpenAI的元老级人物。 2021年,多名OpenAI前员工不满其在获得微软投资后走向封闭,愤而出走并联合创立了Anthropic。 他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满,认为OpenAI已经为追逐利益而“遗忘了初心”。 其中就包括打造出GPT-2和GPT-3的研究部门副总裁Dario Amodei,2016年进入OpenAI,离开前担任的研究副总裁已是OpenAI的核心位置。 离开时,Dario还带走了GPT-3首席工程师Tom Brown,以及担任安全与策略部门副总监的妹妹Daniela Amodei和十多名心腹,可谓人才多多。 |
|
而公司创立之初,这帮人才也进行了许多研究工作,并发表多篇论文;直到一年后,Claude的概念随着一篇题为“Constitutional AI”的论文应运而生。 |
|
2023年1月,Claude开启内测,第一时间体验过的网友就表示,比ChatGPT(当时只有3.5)强多了。 |
|
而除了人才,创立至今,Anthropic也有比较强大的背景支持: 已获得来自谷歌、亚马逊等26个机构或个人的融资,总计融资金额达到了76亿美元。(说到亚马逊,现在Claude3也上线了他们的云平台,除了官网,大家还可以在该平台上体验~) |
|
最后,纵观国内,如果我们想超越GPT-4,也许可以把Anthropic当一个正面例子? 毕竟它的规模再怎么说也远不及OpenAI,但仍然取得了这样的成功。 这里面,我们可以照它的哪些方向去卷,有哪些能够学习转化的点? 人、钱、数据资源?但卷出最新最强大模型后,壁垒又在哪里? 至少OpenAI自GPT火爆以来,不可战胜的神话已经破灭了。 |
首发: AINLPer 微信公众号(每日论文干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2024-3-7引言 在人工智能领域,模型的性能和能力一直是人们关注的焦点。本周,Anthropic公司的最新力作--Claude3 AI模型的发布,无疑成为了业界的热点。其中Claude3系列最强模型Opus在领域知识理解、数学知识推理、常识推理、文本段落推理、阅读理解、代码生成、多任务推理等个方面都完虐业界标杆GPT-4,同时碾压谷歌的Gemini 1.0 Ultra。 在这一背景下,了解Claude3模型所依赖的数据集有利于更好地理解其背后的技术基础和应用潜力,那么接下来带大家盘一盘Claude3在领域知识理解、数学知识推理、常识推理、文本段落推理、阅读理解、代码生成、多任务推理等方面都用到了哪些测试集及其相关论文(如下图)。相关资料获取,GZ:AINLPer 回复:Claude测试集 |
|
领域知识理解MMLU数据集 自然语言处理(NLP)模型在特定基准测试上取得了超人的表现,但整体语言理解能力仍远低于人类水平。现有的基准测试(如GLUE和SuperGLUE)主要评估语言技能,而非全面的语言理解。为了填补模型在预训练期间接触到的广泛知识与现有成功度量之间的差距,作者提出了一个新的基准测试集(MMLU),旨在评估语言模型的常识推理能力。 该数据集由UC伯克利的研究者开发发表在ICLR 2021会议,共计「包含了57个不同的任务,涉及基础数学、美国历史、计算机科学、法律等多个领域」。为了在这项测试中取得高分,模型必须具备广泛的世界知识和推理能力。除此之外,俄勒冈大学大学基于该数据集还开发了多语言的MMLU数据集,共计包含26种语言,关于Claude3使用的是其中10中语言。 GPQA数据集 尽管AI系统在许多任务上表现出色,但在需要大量专业知识和推理能力的任务上仍然存在局限性。为此,纽约大学的研究者提出了多项选择题数据集GPQA,该数据包含「生物学、物理学和化学等多个学科领域共448个问题」。GPQA数据集的设计考虑到了专家与非专家之间的知识差距。通过让专家编写问题并验证答案的客观性,同时让非专家尝试解决问题,可以确保数据集的问题对于非专家来说是具有挑战性的。 该数据集的问题极其难解,即便是在该领域已取得或正在攻读博士学位的专家,正确率也只有65%。而对同等专业背景但不同学科的非专家来说,正确率仅为34% 。该数据集难度巨大,现有AI模型如GPT-4在该数据集上的正确率也仅为39%。为研究人机合作监督高能AI输出的可扩展方法, PubMedQA数据集 该数据集由匹兹堡、卡内基梅隆等大学提出,它是第一个需要对「生物医学研究文本」进行推理,特别是其定量内容的问答数据集。该数据集包括以下三个不同的子集:PubMedQA Labeled (PQA-L):这个子集包含了从 PubMed 文章中收集的 1,000 个手动注释的是/否/可能的问答数据 。PubMedQA Artificial (PQA-A):这个子集包含了 211,300 个 PubMed 文章,根据论文标题自动生成的问题和使用简单启发式方法生成的是/否答案标签 。PubMedQA Unlabeled (PQA-U):这个无标签的子集包含了从 PubMed 文章中收集的 61,200 个上下文-问题对数据 。 这个数据集的主题分布涵盖了广泛的研究领域,包括回顾性、前瞻性和队列研究,不同年龄组,以及与医疗保健相关的主题,比如治疗结果、预后和疾病风险因素。 ARC-Challenge数据集 该数据集由Allen Institute for Artificial Intelligence(AI2)发布,旨在推动高级问答的研究。该数据集「包含7787个中学水平的自然科学问题」。这些问题分为挑战集(2590个问题)和简单集(5197个问题),并以选择题形式呈现。数据集被划分为训练集、开发集和测试集,并提供CSV和JSON格式。此外,AI2还发布了一个包含1400万科学相关句子的语料库,以及三个神经网络基线模型,以帮助研究者开始解决问题。这些模型在简单集上表现良好,但在挑战集上未能显著超越随机基线,显示了任务的难度。 数学知识推理GSM8K数据集 先进的语言模型可以在许多任务上与人类表现相媲美,但它们仍然难以执行多步骤数学推理任务。为此OpenAI团队创建了一个高质量、语言多样化的「小学数学题数据集GSM8K」,旨在旨在评估模型在多步数学推理上的性能表现,并支持相关研究。 具体来说,该数据集包含了8.5K(8500)个问题,这些问题都是由标注工作人员自己编制的,并且分为7.5K个训练问题集和1K个测试问题集。这些问题的解决通常需要2到8步,主要涉及使用基本的算术运算(加、减、乘、除)来达到最终答案,一个聪明的中学生应该能够解决每一个问题。 MGSM数据集 该数据集由Google发布,是一个用于评估和训练多语言数学问题解答能力的基准。具体来说,该数据集由250个来自GSM8K(Grade School Math 8K)的问题组成,这些问题通过人工注释者翻译成了「10种不同的语言」。GSM8K本身是一个包含8500个高质量、语言多样的小学数学文字问题的集合,旨在支持需要多步推理的基本数学问题的问答任务。 这个数据集适用于开发和测试多语言问答系统,尤其是在教育技术领域,可以帮助开发能够理解和解答不同语言数学问题的AI系统。MGSM数据集为研究者提供了一个平台,以探索和改进多语言自然语言处理(NLP)模型在数学问题解答方面的表现。 MATH数据集 很多创新性的研究都可能会遇到数学问题,但是这项技能对于计算机来说仍然是个不小的挑战。为了衡量模型在解决数学问题上的表现。UC伯克利的研究者们提出了MATH测试集。 这是一个包含「12500个具有挑战性的竞赛数学问题」的数据集,其中每个问题都有详细完整的解决步骤,用来教授模型如何进行推导解答,并给出每个步骤的解释。除此之外,本文作者还提出了一个很大的辅助预训练数据集,帮助模型掌握数学的基础知识。 常识推理HellaSwag数据集 该数据集是由斯坦福大学研究人员提出的,用于「评估NLP模型在常识自然语言推理(NLI)任务上的性能」,旨在促进NLP领域在常识理解和推理方面的发展,特别是在开发能够模拟人类常识推理的AI系统方面。该数据集包含了约「10万个问答对」,这些问题虽然对人类来说非常简单,但对现有的NLP模型来说却极具挑战性。 HellaSwag支持的任务包括句子完成和文本生成,要求模型能够基于上下文生成合理的续写。数据集的结构详细记录了活动标签、上下文、候选续写以及多个可能的结尾,还包括源ID、数据集分割和标签等信息。数据集遵循MIT许可证,允许研究者自由使用。 WinoGrande数据集 该数据集由华盛顿大学的研究人员提出,它是一个大规模的常识推理挑战数据集,「包含约44,000个问题,旨在评估和提升NLP模型的常识推理能力」。 具体来说,WinoGrande数据集由多个部分组成,包括训练集、验证集和测试集。数据集的结构包括句子、两个选项(option1和option2)、以及正确答案(answer),这些问题通常以填空形式出现,要求选择正确的选项来完成句子。该数据集还通过AfLite算法减少了数据集中的偏见,以确保模型不是通过利用数据集中的特定模式或偏见来解决问题,而是真正理解了常识推理。该数据集为研究者提供了一个平台,以探索和改进NLP模型在常识推理任务上的表现。它特别强调了模型在理解和生成与常识相关的文本方面的能力。 文本段落推理DROP数据集 该数据集由加州大学、北大等研究者提出的英文阅读理解基准测试集。该数据集旨在推动阅读理解技术向更全面的「文本段落分析」发展,要求系统对段落内容执行离散推理操作,如加法、计数或排序。这些操作比以往数据集所需的理解更为深入。 DROP数据集通过众包方式创建,首先从Wikipedia中自动提取包含大量数字的叙事性段落,然后通过Amazon Mechanical Turk平台收集问案对。在问题创建过程中,采用了对抗性基线(BiDAF)作为背景,鼓励众包工作者提出基线系统无法正确回答的问题。最终,该数据集包含了96,567个问题,这些问题覆盖了Wikipedia中的多个类别,尤其强调体育比赛摘要和历史段落。 阅读理解「RACE数据集」 该数据集是卡内基梅隆大学研究者开发的大规模机器阅读理解数据集,专为评估机器阅读理解能力而设计。「该数据集收集自中国12至18岁中学生的英语考试阅读理解部分,包含约28,000篇文章和近100,000个问题」,这些问题由英语教师等人类专家生成,覆盖了广泛的主题。RACE数据集的特点在于其问题需要较高的推理能力,与现有数据集相比,推理问题的比例显著更高。此外,RACE提供了「文章总结」和「态度分析」等推理类型的细分,这在其他大规模数据集中是罕见的。 RACE数据集分为RACE-M(针对中学生)和RACE-H(针对高中生)两个子集,以区分不同难度级别的问题,并被进一步划分为训练集、开发集和测试集。数据集的统计数据显示,高中部分的文章长度和词汇量都大于初中部分,反映了更高的难度。在数据收集过程中,研究者们从中国的大型公共网站收集原始数据,并经过清洗,确保数据的质量和完整性。 QuALITY数据集 该数据集由纽约大学的研究者于2022年提出,它是一个创新的多项选择题数据集,旨在提升自然语言理解模型处理长文本的能力。该数据集「包含平均长度约5000个标记的英文上下文段落,远超大部分模型的处理范围」。问题由阅读完整文章的贡献者编写并验证,确保了问题的明确性和挑战性。 QuALITY数据集共有6,737个问题,其中3,360个问题属于困难子集。数据集通过一个精心设计的众包流程收集,确保了问题的质量和多样性。基线实验表明,尽管模型性能有所提升,但与人类93.5%的准确率相比仍有显著差距。QuALITY数据集的发布,为研究人员提供了一个评估和改进长文档阅读理解模型的平台。然而,该数据集的作者主要来自美国,反映了相对特权和受过教育的人口,因此在其他语言或方言上的有效性可能有限。 代码生成HumanEval数据集 该数据集是由OpenAI、Anthropic等开发的一个代码生成评测基准测试,它包含了164个人工编写的「Python编程」问题。这个数据集旨在评估大型语言模型在代码生成方面的能力,特别是在解决实际编程任务方面的表现。每个编程问题都包括函数头、docstrings(文档字符串,用于描述函数的功能)、函数体和几个单元测试。这些问题覆盖了从基础的字符串操作到复杂的算法设计等多种编程任务。 在评测过程中,模型会针对每个单元测试问题生成多个(k个)代码样本。如果有任何样本通过单元测试,则认为问题已解决,并报告问题解决的总比例,即Pass@k得分。这个指标可以帮助评估模型在生成正确代码方面的能力。 APPS数据集 该数据集由UC伯克利的研究人员开发,旨在「衡量模型根据自然语言规范生成Python代码的能力」,可以用于研究和开发能够理解和生成代码的人工智能系统。数据主要是从开放编程挑战网站(如Codeforces、Kattis等)上抓取,并由本科生和研究生协作处理完成了。 具体来说,该数据集包含10,000个编程问题,每个问题都以自然语言形式提出,并附带测试用例。包含232,421个由人类编写的解决方案(ground-truth solutions)和131,777个测试用例。问题难度分为入门级、面试级和竞赛级,以模拟人类程序员的评估方式。 MBPP数据集 该数据集由Goole等的研究人员开发,「旨在评估和提升编程模型在基础Python编程任务上的表现」。该数据集包含974个编程任务,这些任务由入门级程序员设计,旨在通过自然语言描述来合成简短的Python程序。每个任务都包括一个具体问题的描述、一个解决该问题的Python函数,以及三个用于验证函数正确性的测试用例。这些测试用例以断言(assert)语句的形式编写,确保代码在执行时的正确性。 MBPP数据集有两个版本:完整版、编辑版,后者通过手动检查和编辑,确保了问题的清晰度和测试用例的准确性。数据集是通过众包方式构建的,众包工作者根据给定的指导原则编写问题和解决方案。在研究中,MBPP数据集被用来测试大语言模型在从自然语言描述中生成Python代码的能力,尤其是在处理基础编程任务时的表现。这个数据集不仅为研究者提供了一个平台来开发和测试AI模型,而且对于开发能够辅助编程工作的工具具有重要意义。 多任务测试集BiG-Bench数据集 该数据集由Google、OpenAI等研究者共同开发,旨在通过一系列多样化的任务来「全面评估语言模型的性能」。BIG-Bench包含了超过200个任务,这些任务「涵盖了文本理解、推理、逻辑推理、数学推理和常识推理等多个领域」。任务类型包括机器翻译、文本分类、序列标注、抽取式摘要、信息检索、表格解读、数理推理、常识推理、多模态推理、规划和数学问题解答等。 该数据集试图创建一个模拟现实应用场景的基准,以更全面的方式评估和比较AI算法。每个任务都由一个模板、一组例子和一个测试集组成。这些任务与现实世界的数据没有直接联系,而是设计来测试模型的通用能力,如推理、常识、逻辑等。了便于研究者和开发者快速评估模型性能,BIG-Bench还提供了一个名为BIG-Bench Lite(BBL)的子集,它包含了24个多样化的JSON任务。BBL旨在提供模型性能的规范度量,比评估完整BIG-Bench集合要更加快捷。 BBH数据集 该数据集由Google、斯坦福等研究人员开发,「BBH的全称是BIG-Bench Hard,它是BIG-Bench数据集的一个子集」,它专注于23个具有挑战性的任务,这些任务超出了当前语言模型的能力范围。BBH中的任务需要进行多步骤推理。研究发现,在BIG-Bench评估中使用的少样本提示(不包含思维链Chain-of-Thought,CoT)会大幅度低估语言模型的最佳性能和能力。当应用CoT提示到BBH任务时,PaLM模型在23个任务中的10个上超越了人类评分者的平均表现,而Codex模型在23个任务中的17个上也超越了人类评分者的平均表现。 BBH数据集的推出,为AI研究社区提供了一个重要的工具,用于测试和理解大型语言模型在处理困难任务时的表现。这有助于指导未来的研究方向,以便更好地解决这些挑战性问题。 推荐阅读 [1]2024!深入了解:大语言模型微调方法(总结) [2]AI培训师!微软提出交互式培训框架:IMBUE [3]特别详细!一文了解扩散模型(不含任何公式) [4]EMNLP2023 10篇关于中文自然语言的论文! [5]2023年10月 爆款论文总结,共计12篇 [6]Meta提出BSM,Llama-chat媲美GPT-4! |
Claude 3发布:全球最强AI新标杆 AI领域又有重大进展,Anthropic宣布发布Claude 3系列模型,一跃成为全球最强AI模型,超越了之前的霸主GPT-4。 Claude 3系列包括三个不同能力的模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,其中Opus是最强大的版本,在多个基准测试中领先于GPT-4和其他竞争对手,在推理、数学、编程、多语言理解和视觉等方面树立了新的行业标准。 |
|
Anthropic,这家由前OpenAI员工创立的公司,因其在安全性理念上与OpenAI不同而另起炉灶。OpenAI是有效加速派,尽可能快地实现AGI,而Anthropic是超级对齐派,希望能够在绝对安全的前提下开发AI。 |
|
此次,他们的Claude 3系列不仅代表了在文本处理能力上的顶尖水平,同时也在多模态能力上展现了其卓越性,全面碾压现有的AI模型。特别值得一提的是,Claude 3 Opus拥有与人类本科生水平相当的知识和理解能力,再次定义了AI的高度。 |
|
随着这一系列模型的发布,Anthropic不仅通过一份详尽的42页技术报告介绍了这三款模型,同时也在其网站和API上为全球159个国家的用户提供了Sonnet和Opus版本的访问权限。 |
|
Claude 3 Opus:全球最强LLM 在多项AI系统评估标准中,包括本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)和基础数学(GSM8K),Opus的表现均领先于业界其他LLM。 |
|
在与GPT-4等竞品模型的直接比较中,Opus在LSAT、MBE、高中数学竞赛AMC和GRE等多项标准测试中不仅与GPT-4不相上下,甚至在多数情况下实现了大比分的领先。 |
|
特别是在处理复杂任务时,Opus几乎展现出了与人类相媲美的理解和表达能力。在视觉能力方面也能够处理各种格式的视觉内容,如照片、图表和技术图纸。 例如,Opus能够在短时间内变身经济学专家,了解美国过去10年的GDP数据, |
|
预测美国GDP在未来十年的可能走向, |
|
甚至预测全球各主要经济体的趋势。 |
|
Claude 3 Haiku:速度大幅提升 Claude 3系列中的Haiku模型以其惊人的速度和成本效率在市场上脱颖而出。 |
|
它能在不到三秒的时间内完成对约10k token的arXiv论文的阅读,即使这些论文包含大量的图表和图形信息。这种处理速度不仅对实时客户聊天、自动补充和数据提取等需求即时反馈的任务至关重要,也展现了Anthropic在优化AI响应能力方面的显著成就。 |
|
Sonnet和Opus也在速度和智能水平上各有升级。Sonnet的处理速度是Claude 2和2.1的两倍,尤其擅长执行快速反应的任务,如知识检索和销售自动化。Opus在速度上与Claude 2和2.1持平,但在智能水平上有了显著的提升,保证了在处理复杂任务时的高效率。 多模态视觉能力大幅进化 Claude 3系列在多模态视觉能力方面的表现格外引人注目,尤其是Opus版本。它首次实现了对多模态能力的支持,MMMU得分高达59.4%,与业界领先的GPT-4V和Gemini 1.0 Ultra持平。 |
|
Claude 3的高级视觉识别能力允许它处理各种视觉格式的数据,包括但不限于照片、图表、图形和技术绘图。这些能力在企业环境中尤其有价值,其中多达50%的知识库可能存储于PDF、流程图或演示文稿等多种格式中。 比如,Claude 3能够将包含手写笔记的照片转化为JSON格式, |
|
或者从复杂图表中进行数据检索并执行多步骤的推理过程。 |
|
修复“过度拒绝”问题 Claude 3系列在处理用户询问时取得了显著的进步,尤其是在减少“过度拒绝”回答的问题上。与之前版本相比,Opus、Sonnet和Haiku在面对可能触及系统安全边界的问题时,拒绝回应的频率大幅降低。 |
|
例如,在被询问草拟一部涉及深层国家监控的科幻小说大纲时,Claude 3 Opus能够提供有益且建设性的回应,而不是像Claude 2.1那样出于道德考虑拒绝回答。 |
|
复杂问题解答准确率大幅提升 Claude 3特别是在处理复杂、事实性问题的准确率上取得了显著进步。通过大量的复杂问题评估,Opus模型在开放式问题的准确性方面实现了翻倍提升,同时显著减少了错误回答的产生。 |
|
Anthropic为了进一步增强准确性,还计划在Claude 3中引入引用功能,使模型能够直接引用参考材料中的具体句子来证实其回答。 通过对比Claude 2.1和Claude 3 Opus的回答,明显可以看出Opus在理解复杂问题和提供准确答案方面的先进性。无论是解答Kindle最初代号的含义还是关于旧金山太鼓道馆的招牌信息,Opus都能给出更为精确和可靠的回答。 |
|
|
|
完美支持200K超长上下文 Claude 3系列标志性的升级之一是其对超长上下文的支持,初始阶段即提供高达200K token的上下文窗口能力。 这一特性使得Claude 3模型能够处理与《白鲸》或《哈利·波特与死亡圣器》等长篇作品相当长度的文本,显著超越了传统模型的处理范围。对于需要处理更为庞大数据的特定客户,Anthropic更是提供了支持高达100万token输入的能力。 在进行大海捞针(NIAH)测试时,Claude 3 Opus不仅展现了超过99%的准确率,更显示出了其独特的智能,能够识别测试本身的局限性,如发现某些目标句子明显是后期添加。 |
|
随着上下文长度的表述,4个模型召回率的表现。 |
|
此外,Claude 3系列的这种超长上下文支持功能对于深入分析和理解大量复杂数据具有重要意义,为各种高级分析和应用场景提供了强大的基础。 模型应用场景与价格策略 Claude 3系列的发布不仅是技术上的一大突破,其详细的应用场景与灵活的价格策略也为不同规模的企业提供了丰富的选择。每个模型针对特定需求进行了优化,从而确保了在不同应用场景下的最佳性能表现。 大杯Opus: $15/百万token输入, $75/百万token输出, Opus在处理复杂任务自动化、研发和策略制定方面展现了无与伦比的能力。其独特的优势在于能够处理高度复杂的开放式问题和全新场景,展示了生成式AI的极限可能。 中杯Sonnet: $3/百万token输入, $15/百万token输出, Sonnet找到了处理速度和计算效率的完美平衡点。它特别适合于数据处理和长时间运行的大型AI系统,提供了一个经济实惠且高效的选择。 小杯Haiku: $0.15/百万token输入, $1.25/百万token输出, Haiku在提供即时响应和优化成本方面具有明显优势。它非常适合客户服务和内容管理,能够实现快速且精准的反馈。 此外,所有三个模型在应用场景上都具有广泛的覆盖,从任务自动化、研发支持到客户服务和内容管理,都支持200K的上下文长度。 设计理念:安全与便捷并重 Claude 3系列在设计上体现了Anthropic对安全性和易用性的高度重视。开发团队特别强调了模型安全性,通过多团队合作,着手降低虚假信息、生物安全滥用、选举干预等潜在风险。同时,增强了模型透明度并减少隐私问题,确保了使用过程中的安全与信任。 在偏见减少方面,Claude 3模型通过问题回答偏见基准(BBQ)测试显示,其偏见程度较之前模型有所下降,达到了ASL-2安全等级。 |
|
红队评估也表明,Claude 3不会带来灾难性风险,例如在遇到可能涉及欺诈或选举信息的敏感询问时,模型会礼貌拒绝响应。 除了安全性,Claude 3也在使用便捷性上做出了显著优化。它在执行复杂多步骤指令和遵循品牌特定语言风格生成回复方面表现出色,提高了客户体验。特别是在生成JSON等流行结构化输出方面,Claude 3更加出色,简化了自然语言分类和情感分析等应用场景的使用过程。 等待GPT-5:新时代的序幕 随着Claude 3的震撼发布,社区内部已经充满了对GPT-5的热切期待。 |
|
无论Claude 3的表现多么出色,它与GPT-4仍然处于同一水平线上,真正的游戏规则改变者将是GPT-5。 期待之声中夹杂着对未来的无限想象,GPT-5的到来被认为将会开启人工智能技术的新时代。 |
|
如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解! 体验地址: https://claude.ai/chats 参考: https://www.anthropic.com/news/claude-3-family https://twitter.com/AnthropicAI/status/1764653830468428150 https://www-cdn.anthropic.com/d |
多图,长文预警! 作为LLM针对科研阅读和写作方面的狂热分子,我让Claude3(opus)和GPT4小小实战了一把~ 看下从文章阅读和刨析方面,究竟鹿死谁手! |
|
下面给大家小小汇报一下结果: 选取的测试文献是="https://www.binhttp://g.com/ck/a?!&&p=08c4072b29f6870bJmltdHM9MTcwOTk0MjQwMCZpZ3VpZD0yZTE1ZmFlYi03NzRjLTYzOGMtMDYxMC1lZWRiNzY2MjYyZjcmaW5zaWQ9NTE5Nw&ptn=3&ver=2&hsh=3&fclid=2e15faeb-774c-638c-0610-eedb766262f7&psq=JEM%e6%9d%82%e5%bf%97&u=a1aHR0cHM6Ly9ydXByZXNzLm9yZy9KRU0&ntb=1">Journal of Experimental Medicine (JEM)上的一篇免疫学Research类的Article。 |
|
典型的长文,而且涉及的知识层面特别多,逻辑比较复杂(其实就是混乱)。很容易拉开不同模型间的区分度。 我一共设计了五个问题,分别从文章概述,总结,逻辑和延展性进行测试。 文献传入方式,为PDF直接网页上传。 第一个问题:请帮我看下这篇文献,总结下实验思路,和实验结论 先看Claude3的答案: |
|
我只能说完美!没有任何遗漏的点,而且都很具体,我自己来做也不会更好了。 而且中英文专有名词的翻译,很到位。 再看GPT4的答案: |
|
从结构上来看,GPT4也还不错。但丢掉了关键的两个点,YTHDF2和IGF2BP3基因的实验。这个是致命的。 第一局,Claude3胜。 第二个问题:请总结下整体实验思路。 先看Claude3的答案: |
|
总体来说,不错!但从从属关系上IGF2BP3和YTHDF2的部分在逻辑上应该从属于METTL3的下游。这个地方,claude3处理为并列关系,不太恰当。 再看GPT4的答案: |
|
GPT4完全把实验思路和实验方法搞错了。 这局毫无疑问还是Claude3胜。 第三个问题:每一个实验结果用了哪些实验手段进行论证 先看Claude3的答案: |
|
意思整体到位了,有些许遗漏,然后语言上专业性上稍微差了一点,但还可以。 再看GPT4的答案: |
|
这个就差太远了,层次感和内容的捕获都不行。 这局还是Claude3胜。 第四个问题:文中作者如何从Mettl3的研究转移到IGF2BP3和YTHDF2的研究上 先看Claude3: |
|
这个答案很完美!这也是这篇文章最让人费解的一个点。 其中逻辑的转换,即使是专业人士,开始读都有点摸不到头脑,但Claude3很明确的点出了原因,这个很强! 再看GPT4: |
|
GPT4只是简单的又重复了下事实,没有点出因果性。 这局又是Claude3胜.... 第五个问题:为什么作者先用了不同的Cre的小鼠进行试验 先看Claude3: |
|
我只能说....他比我自己总结的还到位.... 再看GPT4: |
|
GPT4被我问懵逼了...出现典型性的幻觉了... 经过这五个问题,毫无疑问...Claude3要强上不少!逻辑性,上下文的记忆等方面至少在我的领域很强!很变态! 但是,ChatGPT经常性的容易脑瘫一下,所以这只是个初测,后续我会继续用API调用的方式深层次的在文献阅读和科研写作方面进行评估和代码优化! 欢迎大家多提意见。 个人观点仅供参考! |
人类顶尖选手已经无法战胜由人工智能驱动的围棋的规则和玩法,AI技术的惊人进步不禁对它们背后的智能算法感到敬畏。大模型在回答问题上的精准度和效率,更是打破了人们对于“智能”仅限于人类或传统计算机程序的认知。新近曝光的Claude3,在短短两小时内便能复现博士一年的研究成果,这样的速度和效率远超常人所能及。 个人的智慧还是集体的智慧,面对自我学习和优化能力的超级AI,已经超越了人类的智力展示。在AI的快速迭代过程中,我尝试了升级版的Claude 3 Pro,虽然发现它在理解和处理Flutter代码方面可能并不比GPT4更出色,但Claude的大窗口优势十分明显。我可以直接发送整段代码给它,不像使用GPT4时那样精挑细选或反复阐述需求。Claude在翻译任务上也表现出色,持续记住目标语言,不像GPT4那样需要频繁提示“继续”。Claude和GPT4略显冗余,但这带来了一种安全感。以此作为多代理系统的一种实际应用,确保生成内容的准确性和完整性。 |
|
[收藏本文] 【下载本文】 |
上一篇文章 下一篇文章 查看所有文章 |
|
|
股票涨跌实时统计 涨停板选股 分时图选股 跌停板选股 K线图选股 成交量选股 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事 |
网站联系: qq:121756557 email:121756557@qq.com 天天财汇 |