天天财汇 购物 网址 万年历 小说 | 三峰软件 小游戏 视频
TxT小说阅读器
↓小说语音阅读,小说下载↓
一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放,产品展示↓
首页 淘股吧 股票涨跌实时统计 涨停板选股 股票入门 股票书籍 股票问答 分时图选股 跌停板选股 K线图选股 成交量选股 [平安银行]
股市论谈 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
商业财经 科技知识 汽车百科 工程技术 自然科学 家居生活 设计艺术 财经视频 游戏--
  天天财汇 -> 科技知识 -> 智谱发布 GLM-4 基座大模型,性能效果如何? -> 正文阅读

[科技知识]智谱发布 GLM-4 基座大模型,性能效果如何?

[收藏本文] 【下载本文】
量子位:国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上
我简单试了一下,确实跟GPT4几乎一模一样的技术栈。
我上传了这么一张图片


能读出来,也比较准,看来OCR做的不错。


换了另一张图,是sine正弦函数的可视化,最简单的可视化。


首先结果不对,这是正弦函数,y的结果一眼不对。
x = list(range(0, 4))
y = [-1, 1, -1, 1]
第二点,不如GPT4的code interpreter可以执行代码。
但是我觉得这个大模型算是国内的很不错的大模型了,起码gpt4有的它都有,虽然是打折版的。
并且使用也免费,已经挺够意思了。
我只是有一点儿担忧,就是毕竟大模型的最大的护城河还是在模型的智能程度上,OpenAI以下的大模型其实大家都半斤八两,没有谁很突出。
希望国内大模型也能尽快赶上。
今天,国内唯一一家全系对标OpenAI的公司,又搞了一个大新闻!
就在刚刚,智谱AI发布了「新一代基座大模型」GLM-4——性能全面比肩GPT-4。
其中,GLM-4不仅在中文能力上超过了所有竞争对手。


而且,长文本能力也一骑绝尘,实现了128K「大海捞针」全绿。


除此之外,智谱AI这次还发布了「定制化的个人GLM大模型」GLMs和GLM Store,再次对标OpenAI的GPTs!


新一代GLM-4,全面比肩GPT-4!
那么,这次新一代基座大模型GLM-4,究竟强在了哪?
与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。
它能够支持更长的上下文,具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。
同时,GLM-4也增强了智能体能力。
基础能力
从众多评测集中可以看到,GLM-4的性能提升非常明显。
相比于GPT-4,GLM-4在MMLU、GSM8K、BBH、HellaSwag数据集上分布达到了94%、95%、99%和90%的水平。
而在HumanEval数据集上,GLM-4则拿到了72分,明显超过了GPT-3.5和GPT-4的水平。


指令跟随
在IFEval评测集上,在Prompt提示词跟随(中文)方面,GLM-4达到了GPT-4 88%的水平。
在指令跟随(中文)方面,则达到了GPT-4 90%水平,大大超过GPT-3.5。


中文对齐
在模型实际应用过程中,大家更关注的,是中文的对齐能力。
在对齐能力上,基于AlignBench数据集,GLM-4超过了GPT-4在6月13日发布的版本,逼近GPT-4最新(11月6日Turbo版本)效果。
在专业能力、中文理解、角色扮演方面,GLM-4甚至超过了GPT-4的精度。
不过,在中文推理方面,GLM-4的能力还有待进一步提升。


128K长文本
此前的128K大海捞针测试,难倒了众多大模型,但GLM-4却顺利通过。
在大海捞针测试中,128K文本长度内,GLM-4模型均可做到几乎百分百的精度召回。


GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。
开发者再也不用担心文档太长,一次性处理不完了。
同时,模型的效果和精度也并没有下降。智谱AI团队完美解决了长上下文全局信息因失焦而导致的精度下降的问题。
多模态能力
这一次,GLM-4的文生图和多模态理解都得到增强。
全新推出的CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近最新OpenAI发布的DALL·E 3。


在对齐、保真、安全、组合布局等各个评测维度上,CogView3的效果都达到DALL·E3 90%以上水平。
相对之前,CogView3的语义理解能力都得到大大增强。
「鱼眼镜头中,有一只乌龟坐在森林里。」
模型准确地理解了什么是鱼眼镜头,以及乌龟在森林里的环境应该是怎么搭配的。


「西兰花下面的斑马」,模型理解得很准确。


「一只打扮的像20世纪80年代的职业摔跤手的博美犬,脸上涂着霓虹绿、霓虹橙,还有亮绿色的颜料」,这么复杂的prompt,模型也没出错,对于颜色、场景,都做到了高质量还原。


「一个放大镜在一页20世纪50年代的《蝙蝠侠》漫画的上空」,模型非常准确地理解了空间位置,以及放大镜蕴含的逻辑作用。


GLM-4 All Tools全家桶来了
上面,都还只是常规的单项模型基础能力提升,大会上最让人眼前一亮的,还是GLM-4-All-Tools全家桶。


在以往,我们都需要魔法咒语一样的提示词或者代码,才能调用大模型的能力。无论是回答问题、画一幅画还是使用外部知识源,总觉得LLM还不够聪明。
而现在,得益于GLM模型的强大Agent能力,GLM-4实现了自主根据用户意图,自动理解、规划复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,从而完成更加复杂的任务。
也就是说,GLM全家桶的能力,终于实现了ALL IN ONE!
画图
在AI画图方面,GLM-4 All Tools可以很好地结合上下文语境进行创作。
比如,我们可以先画一只卡通柯基。


随后只要说「它开始跑步了」,GLM-4 All Tools就能理解,我们要的还是这只柯基在往前跑。


告诉GLM-4 All Tools「一只小兔子加入它一起」,它就明白柯基是主角,兔子需要跟在柯基后面,同时保持奔跑。


告诉它「跑得越来越快了」,背景就会虚化。


总之,GLM-4 All Tools对上下文语境的理解非常准确。
代码解释器
同样,GLM-4也内嵌了代码解释器,能够自动调用代码解释器,进行复杂的方程或者微积分求解。
在以下数据集上,GLM-4 All Tools取得了和GPT-4 All Tools相当的性能。


下面这道数学多项式,该怎么求解?


或许可以直接训练一个数学模型,但问题更复杂的时候,LLM就容易出现幻觉。
而GLM-4,则可以通过调用Python解释器,进行复杂计算,自动写出求解代码。


不仅是数学问题,代码解释器还能完成文件处理、数据分析、图表绘制等复杂任务,支持处理Excel、PDF、PPT等格式的文件。
可以让模型自动生成PPT大纲,还能调用代码,生成PPT文件。


网页浏览
靠着All Tools全家桶,GLM-4可以实现更高级的网页浏览。
期间,模型会根据任务自行规划检索任务,自行选择信息源,自行与信息源交互。


比如可以问它:我要参加2023年的CCF开源大会,当地天气是怎样的?
这个问题的难点在于,我们并没有告诉它会议地点,模型自动进行了两次搜索,第一搜到了大会是10月21日在长沙举行,第二次搜到了长沙在10月21日的天气。


可以看到,GLM-4 All Tools的网页浏览准确率,已经超过了GPT-4,令人印象深刻。


Function Call
All Tool还有一个通用能力:根据用户提供的function描述,自动选择所需function并生成参数,以及根据function的返回值生成回复。
这方面的能力,已经跟GPT-4基本持平,在中文理解上,GLM-4 All Tools比GPT-4略强。


多工具自动调用现场实测
在大会现场,GLM-4 All Tools进行了一番怼脸实测。
比如,让GLM-4 All Tools联网搜索「智谱2024 DevDay的宣传语」,然后就此主题画一幅画。
可以看到,大模型自动搜索找到了相关发布页面。


同时,生成的图片也很好地还原了GLM-4的意境。


这幅图描绘了智谱2024 DevDay宣传语中的场景。图中展现了勇敢的?站在汹涌的潮头,?对远处的?暴毫不畏惧。
GLM-4可以识别语义并联网,搜索多个数据源。
它还可以生成一段代码,把生成的数据可视化出来,生成简单的图表。
一句简单的输入,联网搜索、提取、代码解释器、绘图等多项原生能力就随之启动,根本无需手动控制。模型强大的理解、解释能力,也就随之而来。
我们可以让GLM-4搭建一个多项式回归预测模型,预测未来5年的全球GDP发展态势。


这样,就能更直观地看到过去十年和未来五年的发展趋势。


根据从MacroTrends获取的数据,我绘制了2007年?2022年全球GDP的折线图。在图表中,我已经将下降的数据点标记为红?,以便于识别。您可以查看这张图表,以直观地看到全球GDP的变化情况。
值得一提的是,GLM-4升级后,API调用价格维持0.1元/千tokens不变,继续保持较低水平。
国产「GPTs」全新上线
可以看到,智谱AI针对OpenAI的这种对标,不仅仅是「我有」产品,而是在诸多方面都达到了可比程度。
最令开发者期待的是,国产「GPTs」也来了!
DevDay上,智谱AI上线了定制化个人GLM大模型——GLMs。
现在,无需代码基础,任何用户均可用简单的prompt指令,创建属于自己的GLM模型智能体,从而实现对大模型的便捷开发。
比如,智谱AI这次就给自己的DevDay做了一个GLMs。
只要打开智谱清言,进入智谱DevDay的智能体,就可以提问今天大会的事宜。甚至能直接要到现场PPT的下载地址。


并且,GLMs模型应用商店,也有开发者分成计划。


看得出,智谱AI可定制Agent——GLMs的发布,以及上线的GLM Store,在走和OpenAI一样的路线。
继首届开发者大会上发布定制GPTs之后,OpenAI上周正式推出人们期待已久的GPT Store。
短短2个月的时间,全世界已经诞生了300万个自定义的ChatGPT。网友纷纷表示,这就是AI时代的「APP Store」时刻。


简单来说,GLMs降低了大模型的使用门槛,可以让更多的人参与进来,为AI广泛落地铺平了道路。
相较于调用单纯的大模型,GLMs就像一个Agent,可以通过上传文件,比如私有数据等,让其获得额外的知识。这样,定制化的GLMs就能提升对特定问题回答的准确性,以极高的精度执行任务。


苹果在2008年推出APP Store的最大价值在于,创造了一个新的生态,为第三方开发者带去数百万亿美元的收入。


在AI新时代下,不论是GPT Store,还是GLM Store,都将带领世界开发者走向一条新的LLM商业化道路。
好消息是,GLMs和GLM Store今天就已正式上线!


复杂的模型产业链,一步步做起
众所周知,大模型是一个复杂的产业链。而行业对此的共识是:共同创造,才能产生真正的社会价值。
那么,要做到这一点,首先要让大模型本身的能力足够强。
第一步,模型够强
在这一方面,智谱AI从未停下过自己的脚步。
自2019年成立以来,这家AI初创公司便致力于打造新一代认知智能大模型,专注于做大模型的中国创新。
一年后,智谱AI从0开始研发全新的GLM预训练架构,并在2022年推出了中英双语千亿级超大规模预训练模型GLM-130B。


到了2023年,GLM系列大模型保持每3-4月更新一次的频率,逐渐形成了全面的AIGC产品矩阵。


而这一次,性能足以媲美GPT-4的基座大模型GLM-4,是智谱AI进一步研发能力的体现。
智谱AI CEO张鹏在技术开放日上表示,「GLM-4的推出,标志着国产大模型有能力对标世界人工智能最先进水平」。
模型之后,就是生态
除了模型自身的能力之外,开源社区和学术界的支持也至关重要。
开源的意义在于,联合全球的开发者、研究机构、企业,共同让模型的数据更丰富、模型更优化、应用更全面。
而对于个人开发者和中小企业来说,也能以最低的成本调用模型,不需要花费高昂成本。
在国外,Meta以Llama 1的发布为起点,开辟了开源大模型竞相爆发的新路线。
随着越来越多研究人员的加入,羊驼家族也迎来了大爆发:Alpaca,Vicuna,Llama-Adapter,Lit-Llama等变体相继出现。
几个月后,Llama 2在很大程度上取代了Llama 1,成为功能更强的基础模型,甚至官方还推出了其他的微调版本。


同样,国内的开源引领者智谱AI也早有布局。
2022年,智谱AI率先开源高精度双语千亿模型GLM-130B和ChatGLM-6B。
目前,GLM系列模型在Hugging Face上的下载量已经超过了1100万,在GitHub上累计星标超过5万。而智谱AI也成功跻身全球最受欢迎开源机构第5。


基座大模型GLM-4和GLMs等,会进一步推动GLM的模型生态建设,让智谱AI已经构建起的全模型产品线更加强大。
2024年,智谱对于学术的支持还会继续。1000万元现金和算力资源的大模型科研基金,2023年来已经有三十余所高校参与。
现在,每一个研究者,均有机会参与大模型的研究,还会拥有自己研发的知识产权。


此外,智谱AI还针对开源社区发起了大模型开源基金,为优秀的开发者提供了高达三个「一千」的支持——1000张卡、1000万人民币和1000亿tokens。


同时,智谱AI还重磅升级了面向全球大模型创业者的「Z计划」。
创业基金的总额,达到10亿元!
这项基金,用于支持大模型原始创新,覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等各个方面。


联合上下游,推动产业升级
而在商业领域,智谱AI在2023年里已经积累了1000多家合作伙伴,并与200多家实现了深度共创。
怎么看一个大模型好不好用?最终结果,还是要看有没有真正的落地。
目前,GLM系列模型的能力,已经覆盖了包括金融、咨询、互联网、传统消费产品、智能制造、传媒等诸多领域。


与此同时,智谱AI还将包括国产芯片、不同垂直领域服务集成商等上下游行业合作伙伴团结到一起,共同推动整个产业进步与升级。
可以看到,围绕着GLM系列模型的生态圈,正在加速形成。
智谱AI CEO张鹏表示,「一枝独秀不是春,中国的人工智能事业要繁荣、要发展,需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。智谱不仅有意愿,而且有能力为打造繁荣的国产大模型生态贡献自己的力量」。
性能效果,其实挺不错的,可用性不输GPT了。
不过,个人测试了一下几个案例,演示如下:
这个问题目前 GPT-4无法一次性回答正确,需要几次提示交互才能回答正确。
GLM-4的表现也同样,无法一次性回答正确,需要几次提示交互才能理解并回答正确。


数学计算的计算能力与理解能力并未超过GPT4,当然,其实GPT4也没法正确回答这个问题。
这个图片GPT-4无法正确绘制,GLM-4目前看来也同样无法正确绘制。


目前所有AI绘图软件均无法正确绘制104全键盘的图片。
值得表扬的是这个问题居然答对了,这可是 GPT-4 都没能答对只会胡说八道的题目。


类似的,这道题竟然基本答对,虽然不够完整。这是GPT-4根本无法正确回答的题。


一个简单的编程示例,这个示例,GPT-4与GLM-4均会给出样式表代码,但经测试,均无法生效达成目标。


下边这个问题,GPT-4并没有生成可以编译的,正确的代码,然而GLM-4生成的代码,我没有测试运行,但它至少是可以编译通过的。


总的来说,这个模型的中文理解能力与搜索能力似乎强于GPT-4,部分场景可能优于GPT-4,但通用理解能力并未超过GPT-4,给出的结果跟GPT-4一样差。希望后续能改进吧。我相信国内卷AI真的卷起来是不会输于漂亮国的。
个人评价:能够正面对刚GPT-4,相对来说,可以认为这个模型取得了非常值得称道的进展。可以算是一个值得认真对待的,流畅易用的,产品化的国内大模型了。。。当然,部分场景表现并不理想,原因在于,GPT-4本身的能力就不算太理想,还需要进一步努力,摸着GPT-4的头过河的话,必然遇上GPT-4能力本身的天花板。
谢邀!其它回答有点啰嗦,这里简短回答一下:
智谱科技最近发布的GLM-4基座大模型,作为国内对标OpenAI产品线的重要一步,引起了广泛关注。根据智谱的官方说法,GLM-4在性能上相比GLM-3提升了60%,接近GPT-4的最新水平。


这里多说一句,GLM是跟GPT完全不同的技术路线,具体的可以看这张图。


一:GLM-4的性能提升
GLM-4模型在各项评测集上的表现显示出显著的进步。例如:
MMLU得分为81.5,达到GPT-4的94%水平。GSM8K得分为87.6,达到GPT-4的95%水平。MATH得分为47.9,达到GPT-4的91%水平。BBH得分为82.3,达到GPT-4的99%水平。HellaSwag得分为85.4,达到GPT-4的90%水平。HumanEval得分为72,达到GPT-4的100%水平。
这些数据表明,GLM-4在各个方面都表现出与GPT-4接近的性能水平。
如下看图说话:








二:GLM-4-All Tools的新能力
GLM-4-All Tools作为GLM-4系列的一部分,提供了多种新能力,包括:
用户意图理解和复杂指令规划能力。自由调用文生图、代码解释器、网页浏览能力,以完成复杂任务。
然后再放几个他们的参数,从数据层面对标一下GPT4,这块我就不去做过多详细的解释了,有兴趣的可以自己去用智谱清言识图,让他给你解释一下。
如下看图说话:










三:超越参数规模的技术发展
智谱此次不再强调模型参数规模,而是着重展示可用的能力。
这反映出当前AI技术演进趋势,即在不必显著增加参数量情况下,通过更精细方法提升性能。
四. GLMs
GPTs 其实和 OpenAI 上线 的 GPT store 是一样的,对于 GPT store 不了解的可以看下我之前的这篇文章:
而且更令人兴奋的是,我制作的《绘画大师》GPTs 上榜,好激动啊。
大全其实制作了四个精品 GPTs 应用,在 GPT Store 上线前就已经开始变现,目前通过 GPTs 已经月入过千了。


我们接着看看 GLMs吧:
目前没有搜索,只有官方推荐的,保证基本的功能。


而在GLMs的创建页面上,其实和GPTs基本一摸一样,刚才发的文章就有提到如何创建的。


还有创作者分成计划。


四:未来发展方向
智谱在接下来将主要发力三个方向:
超级智能。超级对齐。具身智能。
特别值得关注是“超级对对齐”是智谱未来发展的一个重要方向。
这一概念最初由OpenAI提出,旨在解决超级智能 AI 与人类意图对齐的问题。
这意味着AI系统不仅要高效和精确,还要能够理解和符合人类用户目标和价值观。
超级对齐的实现:超级对齐核心在于 AI 模型自学习和自训练能力,这要求AI系统能够从底层开始,就保持与人类意图的一致性。智谱对超级对齐的应用:智谱通过整合 Agen t能力到 GLM-4 中,展示了其在追求超级对齐方面努力。这不仅提升了模型复杂任务处理能力,也为实现更紧密的人机协作奠定了基础。
五、结言
整体来看,智谱 GLM-4 基座大模型发布不仅展示智谱在大模型技术上实力,更为中国 AI 领域发展做出了重要的贡献。
随 GLM-4 在多模态处理、编码器-解码器架构等方面突破,智谱在 AI 技术领域未来发展值得期待。
在最后,还是想再吹爆智谱AI,真的堪称位国产之光!!!。
@大全Prompt 目前专注于 AI 提示词领域的研究,分享从 0 到 1 入门 AI 提示词,ChatGPT 知识的系统性教程, 0 基础的小白也可以学会 ,有基础的小伙伴也可以学到进阶的知识,这里全部免费送给大家:
最早用ChatGPT,但因为科学上网工具的原因,几个账号都被封了。
后来改用Claude,这是OpenAI初创团队离职后创立的AI应用,号称仅次于ChatGPT。后来也是因为科学上网不便,弃用。
之后用了文心一言、通义千问以及讯飞星火大模型,给我的感觉是可用,但终归是差点事。
直到有一天,我用上了ChatGLM。
一、ChatGLM对我的帮助
我常用AI的场景有两个(其实是三个,还有AI绘画我用Stable Diffusion):
一个是翻译,我业余经常对Civitai网站的AI绘画大模型进行评测,需要翻译,以英文为主,日文、韩文为辅,ChatGLM的翻译非常优秀,能区分出哪是模型的英文名,哪是参数的英文名,不会一股脑都翻译成汉语;
另一个是财务分析,我业余对上市公司财报进行分析,通常会使用ChatDoc和ChatGLM进行辅助分析。ChatDoc的后端使用的是ChatGPT,效果比较不错。在使用ChatGLM进行财报分析的时候,我发现效果并不比ChatDoc差,尤其是更新到GLM-4后,对财报中的报表数字非常敏感,结合我比较专业的提问,能非常容易的回复出我想要的重要知识点。


二、智能体
最让我感到惊艳的,是定制化功能:创建智能体。
本质上,这和ChatGPT的store是一回事,不过定制的门槛非常低。


我按照我的需求,定制了一个财报汇总器。
定制非常简单,只需要在描述里输入我想要的内容即可。后面的配置参数为AI自动生成。


如果有觉得不合适的地方,还可以手工修改。
配置完成后,可以向财报汇总器提问:


要知道,汇总财报是很多付费金融客户端才提供的功能,往往价格不菲。
ChatGLM只需要简单的一句话,就实现了金融客户端分析功能的替代,这叫什么?
降维打击。
能够联网的AI大模型无所不能,很多知识图谱类的APP,将来都会被AI淘汰。而普通用户创建APP的成本将接近0,甚至不需要会写代码,只需要描述需求,就可以由AI代劳。
三、场景期待
在定制智能体的界面,ChatGLM提供了上传知识库的功能。
稍微遗憾的是,现在只支持上传三个文件。
而我的目标就比较庞大,我希望能上传我写过的所有文章。


把它们变成知识库,AI消化吸收后,又可以结合最新的财报,按照我的分析逻辑进行分析。
从而成为我的数字化分身,我可以腾出精力来专心AI绘画。


我觉得这个场景指日可待了,估计很快在后续的付费版实现。
同时,考虑到有些企业有自身的保密需要,开源的离线6B版本将成为很多企业用户的最爱。
[收藏本文] 【下载本文】
   科技知识 最新文章
《消失的问界里》为什么网传华为选择大面积
特斯拉万人大裁员涉及中国市场,销售部门是
媒体报道「特斯拉一天内失去 2 个高管和 10
去年是「大模型元年」,今年会是「AI应用落
2024 年人工智能方向的就业前景怎么样?
如何评价小米汽车SU7全球首例无故抛锚?
如何评价比亚迪与大疆合作发布的车载无人机
如何看待波音「吹哨人」遗言曝光:如果我出
电动汽车为什么一下爆发了?
怎么看待华为太空宽带计划?
上一篇文章      下一篇文章      查看所有文章
加:2024-01-19 11:35:16  更:2024-01-19 13:41:02 
 
 
股票涨跌实时统计 涨停板选股 分时图选股 跌停板选股 K线图选股 成交量选股 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
网站联系: qq:121756557 email:121756557@qq.com  天天财汇