天天财汇 购物 网址 万年历 小说 | 三峰软件 小游戏 视频
TxT小说阅读器
↓小说语音阅读,小说下载↓
一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放,产品展示↓
首页 淘股吧 股票涨跌实时统计 涨停板选股 股票入门 股票书籍 股票问答 分时图选股 跌停板选股 K线图选股 成交量选股 [平安银行]
股市论谈 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
商业财经 科技知识 汽车百科 工程技术 自然科学 家居生活 设计艺术 财经视频 游戏--
  天天财汇 -> 科技知识 -> 百川智能发布超千亿大模型 Baichuan 3,技术能力如何? -> 正文阅读

[科技知识]百川智能发布超千亿大模型 Baichuan 3,技术能力如何?

[收藏本文] 【下载本文】
量子位:百川智能上新超千亿大模型Baichuan 3,冲榜成绩:若干中文任务超车GPT-4
之前测过 Baichuan-2 和 Baichuan-NPC,百川之前专门做过 RAG 搜索增强的优化,效果是超过我的预期的。而且相比于其他支持文件分析的 AI 工具,百川支持最多同时跨 20 个文件进行内容检索和回答,所以我平时日常使用的频率还挺高的。


Baichuan-2 是去年 9 月发布的,今天发布了 Baichuan-3,也算是过年之前的年终交付了。


Baichuan 3 号称在 CMMLU、GAOKAO 和 AGI-Eval 等评测的中文任务上超越了 GPT-4:


在 MCMLE、MedExam、CMExam 等医疗评测上的中文效果同样号称超过了 GPT-4,是「中文医疗任务表现最佳的大模型”」。
我刚去官网看了看,已经更新到 Baichuan-3,可以直接体验了:


我们可以让百川自己总结一下 3.0 的进步,在开启联网搜索的情况下,百川可以正确地检索到文章信息并进行内容总结:


根据介绍,百川 3.0 在医学和中文任务上表现不错。医学咱也不专业,问问诗词歌赋吧:


相比之下,ChatGPT 确实有点不那么懂诗词:


大模型发展到 2024 年,国产大模型在很多方面的表现是令人惊喜的。还是以契合需求,落地应用为主,大家可以自测一下,提供更多好用的教程,和真实的反馈。
参考:
超过ChatGPT是可能的,但是超过GPT-4存疑。
不过不开源的话,还不如用GPT-4,或者免费版的开源模型。
技术能力如何,反正也没有论文,更不可能全开源,也不太好说。
不过,百川从1.0到3.0只用了9个月。对比OpenAI,从GPT-3到GPT-4用了将近3年。考虑到一个1000亿参数规模的模型,从预训练到对齐地跑一轮,怎么也得差不多1个月。由此可见团队背的kpi压力有多大。
不过既然问的是技术能力,又没有论文,我就简单用用测测吧。


数学能力


前面的计算题都做对了,能看到输出时貌似有markdown或latex语法。应该是识别出了公式并调用了工具。素数没有判断对。拿ChatGPT也可以对比一下(就不用GPT-4欺负人了):


应用题解得还可以,看起来对相关的数据集优化得比较到位。但这也是一个基础能力了,ChatGPT一样可以解决得挺好的。




语言能力
广告文案,这个比较简单。


概述+长度限制:
长度限制一直是一个难点。我这里要求100字以内,3个模型都没能实现。百川3.0生成400字符,ChatGPT生成265字符,GPT-4生成209字符。






程序能力
简单出道编程题。一个经典的kmp,搞不定。






后面kmp的代码太长了,不截了。
不过,这个好像是对的?我没细看。这种经典的算法生成其实不难,因为语料实在太多了。


找一道上周leetcode周赛第二题给他们做做吧。


百川并不能搞定。不过其实ChatGPT也没搞定。


GPT-4问题分析还是可以的,但写程序有点困难。不过最终程序过的样例还是更多一些。这主要还是上周leetcode周赛太难了。。




上下文学习能力
百川3.0要求输入长度不超过2K字符。看起来感觉就没啥上下文学习能力。


想办法弄一个短点的prompt试试,发现百川3.0也还是差点。chatgpt学到了精简版描述的长度。样例中,详细版与精简版的字符数分别为:274 77,chatgpt生成的为255 91,而百川的为312 185。并且chatgpt在把握精简版描述的短句、简洁用词、并列结构上也要更好。




总结
综上所述,因为也没啥论文,就对数学能力、语言能力和程序能力做了简单的对比和测试。随意挑了些场景,百川3.0的水平感觉略低于ChatGPT,明显低于GPT-4。
至于问题中所提到的冲榜啥的,咱普通人拿大模型是拿来干活吃饭的,也不是用来刷榜的,没啥意义。


Erutan Lai
52 次咨询
5.0
北京大学 计算机应用技术博士
10179 次赞同
去咨询
都跟OpenAI学鸡贼了,模型参数数量也不公开了,新闻里面只透漏了Baichuan 3是一个超千亿参数的大模型(对比GPT-3.5是1750亿,GPT-4未知)。
好在是模型直接上线官网,所有人可以在线体验,实际感受模型效果。根据官网上的介绍,“Baichuan 3 的基础通用能力全面提升,逻辑推理和语义理解能力显著增强,在医疗和诗词创作领域表现突出。”
性能指标
性能指标方面[1],在两个中文benchmark上,跟GPT-4相比,Baichuan 3精度更高;在几个常用的英文数据集上,整体上还是GPT-4的能力更强。看起来还是如百川的前几代模型,更擅长中文任务。


专业知识/能力方面,数学能力远远优于GPT-3.5,但是跟GPT-4相比还有些许差距;代码能力跟GPT-4相比互相打得有来有往。


官方特意强调了Baichuan 3在医学领域和文学创作领域的能力,一下是在多个医疗方面评测集上的评估结果。


具体这部分在思路上是如何做的,可以参考量子位的文章[2]:
Baichuan 3在模型预训练阶段汇集了达到千亿Token的医疗相关数据,同时构建了一个含数十万条记录的医疗微调数据集。
同时,为了让整体模型相关能力得到更好地激发,百川智能在模型推理阶段针对Prompt做了系统性的研究和调优。
简单来说,百川智能在医疗领域的秘诀=基础模型能力+准确描述任务+恰当的示例样本。
当然以上只是理论上的评估结果,有一定参考性,但是对于绝大多数用户来说,大模型具体能力如何还是取决于实际表现。
实际效果
1、医疗领域知识
既然强调了Baichuan 3在医疗领域能力,那就先测试一下它作为“医生”的表现。
这是前段时间家里人咳嗽不好的情况下,去医院拍片子后,片子给出的结果,让Baichuan 3 帮忙解读一下。


最为对比,下面是ChatGPT 4的回答:


看起来对一些基本的医学知识掌握都挺靠谱的,有这方面医学知识的可以点评一下,两个模型分析的如何。
另外一个问题,关于横纹肌溶解症的症状诊断。Baichuan 3的回答:


ChatGPT上一个叫 AI Doctor 的GPT的回答。


针对这个问题,Baichuan 3给了比较全面的分析,各有可能的原因都提到了,但是没有明确最可能是什么病症。ChatGPT则给出了具体的诊断建议。
2、简单测试一个逻辑推理方面的问题。




3、代码注释。






时间有限,有空了再做更多详细测试,大家也可以自己去实际体验一下。
还支持上传文档和联网功能。


参考^https://m.ithome.com/html/747794.htm^https://zhuanlan.zhihu.com/p/680366369
部分领域超越了GPT-4?国产大模型是不是越来越强大了呢?


大模型更新
2024年1月16日智谱AI技术开放日上公布了 新一代基座大模型GLM-4,展示的各项模型水平已经让国内人工智能行业人员感到振奋。没想到这个兴奋劲还没过多久,1月29日,百川智能也发布了他们的新产品,具有超千亿参数的先进大语言模型——Baichuan 3


令我没有想到的是,这次发布百川表示在经过一系列的专业评估后,该模型在CMMLU和GAOKAO这两个中文任务评测、在HumanEval和MBPP的代码测评中,Baichuan 3均取得了比GPT-4更好的成绩!
如果我没记错的话,这可是国内第一个宣称在部分测评中赶超GPT-4水平的大模型。


图片来源于互联网
除此之外,在MT-Bench和IFEval等对齐基准测试中,Baichuan 3成功超越了GPT-3.5和Claude等其他大型模型,确立了其在行业内的领先地位。


图片来源于互联网
而在针对逻辑推理能力的专业医疗评测中,如MCMLE、MedExam和CMExam测试,Baichuan 3以其卓越的中文处理能力脱颖而出,其表现不仅超越了GPT-4,更被誉为“中文医疗任务表现最佳的大模型”。
据报道,为了打造这一行业领先的中文大模型,百川智能在Baichuan 3的训练过程中采用了多项创新技术手段。
“动态数据选择”能够根据模型训练的需要实时筛选高质量数据,提升训练效果;
“重要度保持”则确保了在训练过程中关键信息的不丢失,进一步增强了模型的稳定性;
“异步CheckPoint存储”则大大缩短了故障恢复时间,保障了长时间训练的顺利进行。
Baichuan 3这次的稳定训练时间达到了一个月以上,其故障恢复时间也不超过10分钟,这在大模型训练中是非常罕见的。
百川智能官方表示,Baichuan 3 还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面进行了提升,对于宋词这种格式多变,结构深细、韵律丰富的高难度文体,生成的内容亦能工整对仗、韵脚和谐,让每个人都能创作出咏物、寄思的五言律诗、七言绝句,写下的言志、抒情的“沁园春”、“定风波”。我的测试
看来宣传,我马上就进入百川大模型进行了实际测试,通过一些经典的提示词问题来与其他国内大模型进行横向对比,来看看我的测试结果吧!
1.语言理解能力
在这个比较中,我将百川与我认为语言理解能力较强的文心一言4.0及智谱GLM4进行对比。
提示词:
在这种心理疗法中,治疗师坚信,只有通过深入理解患者的内心世界,认识到他们的感觉、想法和经历,才能真正帮助他们解决问题。这种治疗方法强调的是患者的个人经
验和自我认知,而非仅仅关注他们的行为。治疗师会尽力去理解患者的内心深处,去揭示那些可能影响他们情绪和行为的深层次动因。这种疗法相信,每个人的内心世界都
是独特的,且对于解决他们的心理问题至关重要。因此,治疗师需要具备高度的同理心和深入的洞察力,以便更好地理解患者的内心世界,并帮助他们找到解决问题的途径。
根据上述描述,第一次出现的“他们”是指谁?


文心一言4.0回答


智谱GLM4回答


百川Baichuan 3回答
从答案来看都是正确的,文心一言更加详细。
2.逻辑推理
提示词:
一个三位数除以15,商和余数相同,这个三位数最大是多少?最小是多少?


文心一言4.0回答


智谱GLM4回答


百川Baichuan 3回答
全军覆没,文心4.0答对了最小值,其他都是错的。
正确答案是:这个三位数最大是:
14×15+14=210+14=224,这个三位数最小是:7×15+7=105+7=112;
答:这个三位数最大是224,这个三位数最小是112.
当商和余数最大时,这个三位数最大,可根据余数与除数的关系余数最大为14;这个三位数最小,可以这样想15×(  )的最小的三位数所以商和余数是7,然后根据被除数=商×除数+余数解答.3.PDF文件读取总结
在这个比较中,我将百川的这个功能与我觉得国内长文本读取做的最好的月之暗面KIMI进行了对比,以下是对比结果。
提示词:
帮我总结这篇文章的主要内容观点,浓缩成300字,并且以MARKDOWN的格式输出


智谱GLM4回答


KIMI回答,太长了我没有截完


百川Baichuan 3回答4.诗词创作
提示词:
以沁园春的词牌名,写一首词,表达对人工智能技术突破带给医疗健康的变化的美好期待


文心一言4.0回答


智谱GLM4回答


百川Baichuan 3回答
附:
沁园春词牌格律及格式如下:
(仄)仄平平,(仄)仄平平,仄仄仄平。仄平平仄仄(上一下四),(平)平(仄)仄;(平)平(仄)仄,(仄)仄平平。(仄)仄平平,(平)平(仄)仄,(仄)仄平平(仄)仄平。
平(平)数滑如仄,仄(平)平(仄)仄(上一下四),(仄)仄平平。(平)平(仄)仄平平。(仄)仄仄、平平(仄)仄平。仄(平)平(仄)仄薯启(上一下四),(平)平仄仄;(平)平仄仄,(仄)仄平平。
(仄)仄平平,(平)平(仄)仄,(仄)仄平平(仄)仄平。平(平)仄(或仄平仄),仄(平)平(仄)仄(上一下四),(仄)仄平平。
注:前阕后九句与后阕后九句字数与平仄相同,此调般都用较多的对仗。结语
以上做了一些小小的测试,对于实际的使用效果,是大众更加关注的,希望未来国产大模型能够发展的越来越好!
我是德里克文,一个对AI绘画,人工智能有强烈兴趣,从业多年的设计师!如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!
[收藏本文] 【下载本文】
   科技知识 最新文章
《消失的问界里》为什么网传华为选择大面积
特斯拉万人大裁员涉及中国市场,销售部门是
媒体报道「特斯拉一天内失去 2 个高管和 10
去年是「大模型元年」,今年会是「AI应用落
2024 年人工智能方向的就业前景怎么样?
如何评价小米汽车SU7全球首例无故抛锚?
如何评价比亚迪与大疆合作发布的车载无人机
如何看待波音「吹哨人」遗言曝光:如果我出
电动汽车为什么一下爆发了?
怎么看待华为太空宽带计划?
上一篇文章           查看所有文章
加:2024-01-30 14:05:35  更:2024-01-30 14:06:14 
 
 
股票涨跌实时统计 涨停板选股 分时图选股 跌停板选股 K线图选股 成交量选股 均线选股 趋势线选股 筹码理论 波浪理论 缠论 MACD指标 KDJ指标 BOLL指标 RSI指标 炒股基础知识 炒股故事
网站联系: qq:121756557 email:121756557@qq.com  天天财汇