[科技知识] 智谱发布 GLM-4 基座大模型，性能效果如何？

天天财汇购物网址万年历小说 | 三峰软件小游戏视频

TxT小说阅读器
↓小说语音阅读,小说下载↓

一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放,产品展示↓

首页淘股吧股票涨跌实时统计涨停板选股股票入门股票书籍股票问答分时图选股跌停板选股 K线图选股成交量选股 [平安银行]

股市论谈均线选股趋势线选股筹码理论波浪理论缠论 MACD指标 KDJ指标 BOLL指标 RSI指标炒股基础知识炒股故事

商业财经科技知识汽车百科工程技术自然科学家居生活设计艺术财经视频游戏--

天天财汇 -> 科技知识 -> 智谱发布 GLM-4 基座大模型，性能效果如何？ -> 正文阅读

[科技知识]智谱发布 GLM-4 基座大模型，性能效果如何？

[收藏本文] 【下载本文】

量子位：国产GPTs来了，基于智谱第4代大模型！模型性能均达GPT-4九成以上

我简单试了一下，确实跟GPT4几乎一模一样的技术栈。
我上传了这么一张图片

能读出来，也比较准，看来OCR做的不错。

换了另一张图，是sine正弦函数的可视化，最简单的可视化。

首先结果不对，这是正弦函数，y的结果一眼不对。
x = list(range(0, 4))
y = [-1, 1, -1, 1]
第二点，不如GPT4的code interpreter可以执行代码。
但是我觉得这个大模型算是国内的很不错的大模型了，起码gpt4有的它都有，虽然是打折版的。
并且使用也免费，已经挺够意思了。
我只是有一点儿担忧，就是毕竟大模型的最大的护城河还是在模型的智能程度上，OpenAI以下的大模型其实大家都半斤八两，没有谁很突出。
希望国内大模型也能尽快赶上。

今天，国内唯一一家全系对标OpenAI的公司，又搞了一个大新闻！
就在刚刚，智谱AI发布了「新一代基座大模型」GLM-4——性能全面比肩GPT-4。
其中，GLM-4不仅在中文能力上超过了所有竞争对手。

而且，长文本能力也一骑绝尘，实现了128K「大海捞针」全绿。

除此之外，智谱AI这次还发布了「定制化的个人GLM大模型」GLMs和GLM Store，再次对标OpenAI的GPTs！

新一代GLM-4，全面比肩GPT-4！
那么，这次新一代基座大模型GLM-4，究竟强在了哪？
与上一代ChatGLM3相比，GLM-4在综合能力上实现了全面跃升，性能提升了60%，已经逼近GPT-4。
它能够支持更长的上下文，具备更强的多模态功能，支持更快的推理，更多并发，推理成本大大降低。
同时，GLM-4也增强了智能体能力。
基础能力
从众多评测集中可以看到，GLM-4的性能提升非常明显。
相比于GPT-4，GLM-4在MMLU、GSM8K、BBH、HellaSwag数据集上分布达到了94%、95%、99%和90%的水平。
而在HumanEval数据集上，GLM-4则拿到了72分，明显超过了GPT-3.5和GPT-4的水平。

指令跟随
在IFEval评测集上，在Prompt提示词跟随（中文）方面，GLM-4达到了GPT-4 88%的水平。
在指令跟随（中文）方面，则达到了GPT-4 90%水平，大大超过GPT-3.5。

中文对齐
在模型实际应用过程中，大家更关注的，是中文的对齐能力。
在对齐能力上，基于AlignBench数据集，GLM-4超过了GPT-4在6月13日发布的版本，逼近GPT-4最新（11月6日Turbo版本）效果。
在专业能力、中文理解、角色扮演方面，GLM-4甚至超过了GPT-4的精度。
不过，在中文推理方面，GLM-4的能力还有待进一步提升。

128K长文本
此前的128K大海捞针测试，难倒了众多大模型，但GLM-4却顺利通过。
在大海捞针测试中，128K文本长度内，GLM-4模型均可做到几乎百分百的精度召回。

GLM-4带来128K的上下文窗口长度，也就意味着，在单次提示词中，可处理文本达到了300页。
开发者再也不用担心文档太长，一次性处理不完了。
同时，模型的效果和精度也并没有下降。智谱AI团队完美解决了长上下文全局信息因失焦而导致的精度下降的问题。
多模态能力
这一次，GLM-4的文生图和多模态理解都得到增强。
全新推出的CogView3，效果明显超过开源最佳的Stable Diffusion XL，逼近最新OpenAI发布的DALL·E 3。

在对齐、保真、安全、组合布局等各个评测维度上，CogView3的效果都达到DALL·E3 90%以上水平。
相对之前，CogView3的语义理解能力都得到大大增强。
「鱼眼镜头中，有一只乌龟坐在森林里。」
模型准确地理解了什么是鱼眼镜头，以及乌龟在森林里的环境应该是怎么搭配的。

「西兰花下面的斑马」，模型理解得很准确。

「一只打扮的像20世纪80年代的职业摔跤手的博美犬，脸上涂着霓虹绿、霓虹橙，还有亮绿色的颜料」，这么复杂的prompt，模型也没出错，对于颜色、场景，都做到了高质量还原。

「一个放大镜在一页20世纪50年代的《蝙蝠侠》漫画的上空」，模型非常准确地理解了空间位置，以及放大镜蕴含的逻辑作用。

GLM-4 All Tools全家桶来了
上面，都还只是常规的单项模型基础能力提升，大会上最让人眼前一亮的，还是GLM-4-All-Tools全家桶。

在以往，我们都需要魔法咒语一样的提示词或者代码，才能调用大模型的能力。无论是回答问题、画一幅画还是使用外部知识源，总觉得LLM还不够聪明。
而现在，得益于GLM模型的强大Agent能力，GLM-4实现了自主根据用户意图，自动理解、规划复杂指令，自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力，从而完成更加复杂的任务。
也就是说，GLM全家桶的能力，终于实现了ALL IN ONE！
画图
在AI画图方面，GLM-4 All Tools可以很好地结合上下文语境进行创作。
比如，我们可以先画一只卡通柯基。

随后只要说「它开始跑步了」，GLM-4 All Tools就能理解，我们要的还是这只柯基在往前跑。

告诉GLM-4 All Tools「一只小兔子加入它一起」，它就明白柯基是主角，兔子需要跟在柯基后面，同时保持奔跑。

告诉它「跑得越来越快了」，背景就会虚化。

总之，GLM-4 All Tools对上下文语境的理解非常准确。
代码解释器
同样，GLM-4也内嵌了代码解释器，能够自动调用代码解释器，进行复杂的方程或者微积分求解。
在以下数据集上，GLM-4 All Tools取得了和GPT-4 All Tools相当的性能。

下面这道数学多项式，该怎么求解？

或许可以直接训练一个数学模型，但问题更复杂的时候，LLM就容易出现幻觉。
而GLM-4，则可以通过调用Python解释器，进行复杂计算，自动写出求解代码。

不仅是数学问题，代码解释器还能完成文件处理、数据分析、图表绘制等复杂任务，支持处理Excel、PDF、PPT等格式的文件。
可以让模型自动生成PPT大纲，还能调用代码，生成PPT文件。

网页浏览
靠着All Tools全家桶，GLM-4可以实现更高级的网页浏览。
期间，模型会根据任务自行规划检索任务，自行选择信息源，自行与信息源交互。

比如可以问它：我要参加2023年的CCF开源大会，当地天气是怎样的？
这个问题的难点在于，我们并没有告诉它会议地点，模型自动进行了两次搜索，第一搜到了大会是10月21日在长沙举行，第二次搜到了长沙在10月21日的天气。

可以看到，GLM-4 All Tools的网页浏览准确率，已经超过了GPT-4，令人印象深刻。

Function Call
All Tool还有一个通用能力：根据用户提供的function描述，自动选择所需function并生成参数，以及根据function的返回值生成回复。
这方面的能力，已经跟GPT-4基本持平，在中文理解上，GLM-4 All Tools比GPT-4略强。

多工具自动调用现场实测
在大会现场，GLM-4 All Tools进行了一番怼脸实测。
比如，让GLM-4 All Tools联网搜索「智谱2024 DevDay的宣传语」，然后就此主题画一幅画。
可以看到，大模型自动搜索找到了相关发布页面。

同时，生成的图片也很好地还原了GLM-4的意境。

这幅图描绘了智谱2024 DevDay宣传语中的场景。图中展现了勇敢的?站在汹涌的潮头，?对远处的?暴毫不畏惧。
GLM-4可以识别语义并联网，搜索多个数据源。
它还可以生成一段代码，把生成的数据可视化出来，生成简单的图表。
一句简单的输入，联网搜索、提取、代码解释器、绘图等多项原生能力就随之启动，根本无需手动控制。模型强大的理解、解释能力，也就随之而来。
我们可以让GLM-4搭建一个多项式回归预测模型，预测未来5年的全球GDP发展态势。

这样，就能更直观地看到过去十年和未来五年的发展趋势。

根据从MacroTrends获取的数据，我绘制了2007年?2022年全球GDP的折线图。在图表中，我已经将下降的数据点标记为红?，以便于识别。您可以查看这张图表，以直观地看到全球GDP的变化情况。
值得一提的是，GLM-4升级后，API调用价格维持0.1元/千tokens不变，继续保持较低水平。
国产「GPTs」全新上线
可以看到，智谱AI针对OpenAI的这种对标，不仅仅是「我有」产品，而是在诸多方面都达到了可比程度。
最令开发者期待的是，国产「GPTs」也来了！
DevDay上，智谱AI上线了定制化个人GLM大模型——GLMs。
现在，无需代码基础，任何用户均可用简单的prompt指令，创建属于自己的GLM模型智能体，从而实现对大模型的便捷开发。
比如，智谱AI这次就给自己的DevDay做了一个GLMs。
只要打开智谱清言，进入智谱DevDay的智能体，就可以提问今天大会的事宜。甚至能直接要到现场PPT的下载地址。

并且，GLMs模型应用商店，也有开发者分成计划。

看得出，智谱AI可定制Agent——GLMs的发布，以及上线的GLM Store，在走和OpenAI一样的路线。
继首届开发者大会上发布定制GPTs之后，OpenAI上周正式推出人们期待已久的GPT Store。
短短2个月的时间，全世界已经诞生了300万个自定义的ChatGPT。网友纷纷表示，这就是AI时代的「APP Store」时刻。

简单来说，GLMs降低了大模型的使用门槛，可以让更多的人参与进来，为AI广泛落地铺平了道路。
相较于调用单纯的大模型，GLMs就像一个Agent，可以通过上传文件，比如私有数据等，让其获得额外的知识。这样，定制化的GLMs就能提升对特定问题回答的准确性，以极高的精度执行任务。

苹果在2008年推出APP Store的最大价值在于，创造了一个新的生态，为第三方开发者带去数百万亿美元的收入。

在AI新时代下，不论是GPT Store，还是GLM Store，都将带领世界开发者走向一条新的LLM商业化道路。
好消息是，GLMs和GLM Store今天就已正式上线！

复杂的模型产业链，一步步做起
众所周知，大模型是一个复杂的产业链。而行业对此的共识是：共同创造，才能产生真正的社会价值。
那么，要做到这一点，首先要让大模型本身的能力足够强。
第一步，模型够强
在这一方面，智谱AI从未停下过自己的脚步。
自2019年成立以来，这家AI初创公司便致力于打造新一代认知智能大模型，专注于做大模型的中国创新。
一年后，智谱AI从0开始研发全新的GLM预训练架构，并在2022年推出了中英双语千亿级超大规模预训练模型GLM-130B。

到了2023年，GLM系列大模型保持每3-4月更新一次的频率，逐渐形成了全面的AIGC产品矩阵。

而这一次，性能足以媲美GPT-4的基座大模型GLM-4，是智谱AI进一步研发能力的体现。
智谱AI CEO张鹏在技术开放日上表示，「GLM-4的推出，标志着国产大模型有能力对标世界人工智能最先进水平」。
模型之后，就是生态
除了模型自身的能力之外，开源社区和学术界的支持也至关重要。
开源的意义在于，联合全球的开发者、研究机构、企业，共同让模型的数据更丰富、模型更优化、应用更全面。
而对于个人开发者和中小企业来说，也能以最低的成本调用模型，不需要花费高昂成本。
在国外，Meta以Llama 1的发布为起点，开辟了开源大模型竞相爆发的新路线。
随着越来越多研究人员的加入，羊驼家族也迎来了大爆发：Alpaca，Vicuna，Llama-Adapter，Lit-Llama等变体相继出现。
几个月后，Llama 2在很大程度上取代了Llama 1，成为功能更强的基础模型，甚至官方还推出了其他的微调版本。

同样，国内的开源引领者智谱AI也早有布局。
2022年，智谱AI率先开源高精度双语千亿模型GLM-130B和ChatGLM-6B。
目前，GLM系列模型在Hugging Face上的下载量已经超过了1100万，在GitHub上累计星标超过5万。而智谱AI也成功跻身全球最受欢迎开源机构第5。

基座大模型GLM-4和GLMs等，会进一步推动GLM的模型生态建设，让智谱AI已经构建起的全模型产品线更加强大。
2024年，智谱对于学术的支持还会继续。1000万元现金和算力资源的大模型科研基金，2023年来已经有三十余所高校参与。
现在，每一个研究者，均有机会参与大模型的研究，还会拥有自己研发的知识产权。

此外，智谱AI还针对开源社区发起了大模型开源基金，为优秀的开发者提供了高达三个「一千」的支持——1000张卡、1000万人民币和1000亿tokens。

同时，智谱AI还重磅升级了面向全球大模型创业者的「Z计划」。
创业基金的总额，达到10亿元！
这项基金，用于支持大模型原始创新，覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等各个方面。

联合上下游，推动产业升级
而在商业领域，智谱AI在2023年里已经积累了1000多家合作伙伴，并与200多家实现了深度共创。
怎么看一个大模型好不好用？最终结果，还是要看有没有真正的落地。
目前，GLM系列模型的能力，已经覆盖了包括金融、咨询、互联网、传统消费产品、智能制造、传媒等诸多领域。

与此同时，智谱AI还将包括国产芯片、不同垂直领域服务集成商等上下游行业合作伙伴团结到一起，共同推动整个产业进步与升级。
可以看到，围绕着GLM系列模型的生态圈，正在加速形成。
智谱AI CEO张鹏表示，「一枝独秀不是春，中国的人工智能事业要繁荣、要发展，需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。智谱不仅有意愿，而且有能力为打造繁荣的国产大模型生态贡献自己的力量」。

性能效果，其实挺不错的，可用性不输GPT了。
不过，个人测试了一下几个案例，演示如下：
这个问题目前 GPT-4无法一次性回答正确，需要几次提示交互才能回答正确。
GLM-4的表现也同样，无法一次性回答正确，需要几次提示交互才能理解并回答正确。

数学计算的计算能力与理解能力并未超过GPT4，当然，其实GPT4也没法正确回答这个问题。
这个图片GPT-4无法正确绘制，GLM-4目前看来也同样无法正确绘制。

目前所有AI绘图软件均无法正确绘制104全键盘的图片。
值得表扬的是这个问题居然答对了，这可是 GPT-4 都没能答对只会胡说八道的题目。

类似的，这道题竟然基本答对，虽然不够完整。这是GPT-4根本无法正确回答的题。

一个简单的编程示例，这个示例，GPT-4与GLM-4均会给出样式表代码，但经测试，均无法生效达成目标。

下边这个问题，GPT-4并没有生成可以编译的，正确的代码，然而GLM-4生成的代码，我没有测试运行，但它至少是可以编译通过的。

总的来说，这个模型的中文理解能力与搜索能力似乎强于GPT-4，部分场景可能优于GPT-4，但通用理解能力并未超过GPT-4，给出的结果跟GPT-4一样差。希望后续能改进吧。我相信国内卷AI真的卷起来是不会输于漂亮国的。
个人评价：能够正面对刚GPT-4，相对来说，可以认为这个模型取得了非常值得称道的进展。可以算是一个值得认真对待的，流畅易用的，产品化的国内大模型了。。。当然，部分场景表现并不理想，原因在于，GPT-4本身的能力就不算太理想，还需要进一步努力，摸着GPT-4的头过河的话，必然遇上GPT-4能力本身的天花板。

谢邀！其它回答有点啰嗦，这里简短回答一下：
智谱科技最近发布的GLM-4基座大模型，作为国内对标OpenAI产品线的重要一步，引起了广泛关注。根据智谱的官方说法，GLM-4在性能上相比GLM-3提升了60%，接近GPT-4的最新水平。

这里多说一句，GLM是跟GPT完全不同的技术路线，具体的可以看这张图。

一：GLM-4的性能提升
GLM-4模型在各项评测集上的表现显示出显著的进步。例如：
MMLU得分为81.5，达到GPT-4的94%水平。GSM8K得分为87.6，达到GPT-4的95%水平。MATH得分为47.9，达到GPT-4的91%水平。BBH得分为82.3，达到GPT-4的99%水平。HellaSwag得分为85.4，达到GPT-4的90%水平。HumanEval得分为72，达到GPT-4的100%水平。
这些数据表明，GLM-4在各个方面都表现出与GPT-4接近的性能水平。
如下看图说话：

二：GLM-4-All Tools的新能力
GLM-4-All Tools作为GLM-4系列的一部分，提供了多种新能力，包括：
用户意图理解和复杂指令规划能力。自由调用文生图、代码解释器、网页浏览能力，以完成复杂任务。
然后再放几个他们的参数，从数据层面对标一下GPT4，这块我就不去做过多详细的解释了，有兴趣的可以自己去用智谱清言识图，让他给你解释一下。
如下看图说话：

三：超越参数规模的技术发展
智谱此次不再强调模型参数规模，而是着重展示可用的能力。
这反映出当前AI技术演进趋势，即在不必显著增加参数量情况下，通过更精细方法提升性能。
四. GLMs
GPTs 其实和 OpenAI 上线的 GPT store 是一样的，对于 GPT store 不了解的可以看下我之前的这篇文章：
而且更令人兴奋的是，我制作的《绘画大师》GPTs 上榜，好激动啊。
大全其实制作了四个精品 GPTs 应用，在 GPT Store 上线前就已经开始变现，目前通过 GPTs 已经月入过千了。

我们接着看看 GLMs吧：
目前没有搜索，只有官方推荐的，保证基本的功能。

而在GLMs的创建页面上，其实和GPTs基本一摸一样，刚才发的文章就有提到如何创建的。

还有创作者分成计划。

四：未来发展方向
智谱在接下来将主要发力三个方向：
超级智能。超级对齐。具身智能。
特别值得关注是“超级对对齐”是智谱未来发展的一个重要方向。
这一概念最初由OpenAI提出，旨在解决超级智能 AI 与人类意图对齐的问题。
这意味着AI系统不仅要高效和精确，还要能够理解和符合人类用户目标和价值观。
超级对齐的实现：超级对齐核心在于 AI 模型自学习和自训练能力，这要求AI系统能够从底层开始，就保持与人类意图的一致性。智谱对超级对齐的应用：智谱通过整合 Agen t能力到 GLM-4 中，展示了其在追求超级对齐方面努力。这不仅提升了模型复杂任务处理能力，也为实现更紧密的人机协作奠定了基础。
五、结言
整体来看，智谱 GLM-4 基座大模型发布不仅展示智谱在大模型技术上实力，更为中国 AI 领域发展做出了重要的贡献。
随 GLM-4 在多模态处理、编码器-解码器架构等方面突破，智谱在 AI 技术领域未来发展值得期待。
在最后，还是想再吹爆智谱AI，真的堪称位国产之光！！！。
@大全Prompt 目前专注于 AI 提示词领域的研究，分享从 0 到 1 入门 AI 提示词，ChatGPT 知识的系统性教程， 0 基础的小白也可以学会，有基础的小伙伴也可以学到进阶的知识，这里全部免费送给大家：

最早用ChatGPT，但因为科学上网工具的原因，几个账号都被封了。
后来改用Claude，这是OpenAI初创团队离职后创立的AI应用，号称仅次于ChatGPT。后来也是因为科学上网不便，弃用。
之后用了文心一言、通义千问以及讯飞星火大模型，给我的感觉是可用，但终归是差点事。
直到有一天，我用上了ChatGLM。
一、ChatGLM对我的帮助
我常用AI的场景有两个（其实是三个，还有AI绘画我用Stable Diffusion）：
一个是翻译，我业余经常对Civitai网站的AI绘画大模型进行评测，需要翻译，以英文为主，日文、韩文为辅，ChatGLM的翻译非常优秀，能区分出哪是模型的英文名，哪是参数的英文名，不会一股脑都翻译成汉语；
另一个是财务分析，我业余对上市公司财报进行分析，通常会使用ChatDoc和ChatGLM进行辅助分析。ChatDoc的后端使用的是ChatGPT，效果比较不错。在使用ChatGLM进行财报分析的时候，我发现效果并不比ChatDoc差，尤其是更新到GLM-4后，对财报中的报表数字非常敏感，结合我比较专业的提问，能非常容易的回复出我想要的重要知识点。

二、智能体
最让我感到惊艳的，是定制化功能：创建智能体。
本质上，这和ChatGPT的store是一回事，不过定制的门槛非常低。

我按照我的需求，定制了一个财报汇总器。
定制非常简单，只需要在描述里输入我想要的内容即可。后面的配置参数为AI自动生成。

如果有觉得不合适的地方，还可以手工修改。
配置完成后，可以向财报汇总器提问：

要知道，汇总财报是很多付费金融客户端才提供的功能，往往价格不菲。
ChatGLM只需要简单的一句话，就实现了金融客户端分析功能的替代，这叫什么？
降维打击。
能够联网的AI大模型无所不能，很多知识图谱类的APP，将来都会被AI淘汰。而普通用户创建APP的成本将接近0，甚至不需要会写代码，只需要描述需求，就可以由AI代劳。
三、场景期待
在定制智能体的界面，ChatGLM提供了上传知识库的功能。
稍微遗憾的是，现在只支持上传三个文件。
而我的目标就比较庞大，我希望能上传我写过的所有文章。

把它们变成知识库，AI消化吸收后，又可以结合最新的财报，按照我的分析逻辑进行分析。
从而成为我的数字化分身，我可以腾出精力来专心AI绘画。

我觉得这个场景指日可待了，估计很快在后续的付费版实现。
同时，考虑到有些企业有自身的保密需要，开源的离线6B版本将成为很多企业用户的最爱。

[收藏本文] 【下载本文】

科技知识最新文章

百度为什么越来越垃圾了?

为什么程序员总是发现不了自己的Bug?

出现在抖音评论区里边的算命真不真？

你认为 C++ 最不应该存在的特性是什么？

为什么 Windows 的兼容性这么强大，到底用了

如何看待Nvidia禁止使用翻译工具将cuda运行

为何苹果搞了十年的汽车还是难产，小米很快

该不该和AI说谢谢?

为什么突破性的技术总是最先发生在西方？

加:2024-01-19 11:35:16 更:2024-01-19 13:41:02

股票涨跌实时统计涨停板选股分时图选股跌停板选股 K线图选股成交量选股均线选股趋势线选股筹码理论波浪理论缠论 MACD指标 KDJ指标 BOLL指标 RSI指标炒股基础知识炒股故事

网站联系: qq:121756557 email:121756557@qq.com 天天财汇