[科技知识] 全国政协委员周源称「没有好的语料，光有算力模型，这个循环是不对的」，补齐中文语料数据短板有什么好办法？

天天财汇购物网址万年历小说 | 三峰软件小游戏视频

TxT小说阅读器
↓小说语音阅读,小说下载↓

一键清除系统垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放,产品展示↓

首页淘股吧股票涨跌实时统计涨停板选股股票入门股票书籍股票问答分时图选股跌停板选股 K线图选股成交量选股 [平安银行]

股市论谈均线选股趋势线选股筹码理论波浪理论缠论 MACD指标 KDJ指标 BOLL指标 RSI指标炒股基础知识炒股故事

商业财经科技知识汽车百科工程技术自然科学家居生活设计艺术财经视频游戏--

天天财汇 -> 科技知识 -> 全国政协委员周源称「没有好的语料，光有算力模型，这个循环是不对的」，补齐中文语料数据短板有什么好办法？ -> 正文阅读

[科技知识]全国政协委员周源称「没有好的语料，光有算力模型，这个循环是不对的」，补齐中文语料数据短板有什么好办法？

[收藏本文] 【下载本文】

3月4日，2024年全国两会正式召开。全国政协委员、知乎创始人兼CEO周源提交了多份提案，涉及高质量技能人才供给、推动大模型产业高质量发展、打击新型盗…

我觉得对于人工智能语言大模型来说，语料的数量和质量都非常重要，数量靠算力，质量靠筛选。

我用AI绘画工具生成的图片一、观点
在讨论问题之前，先了解读透题目。
让我们先看看全国政协委员、知乎创始人兼CEO
@周源
在这次全国两会的提案内容。
周源指出，尽管我国在模型领域紧跟国际前沿步伐，取得了一定的成就，但仍面临着一些挑战，其中最显著的问题之一是高质量中文语料资源的短缺。
首先看看提案中最重要的问题：我国大模型开发中的一大困境就是高质量的中文语料资源严重不足。
即使我国在大模型建设领域有了显著进步，目前拥有超过200家的大模型开发机构，并且已经有20多个大模型产品获批对公众开放，看上去国内的人工智能发展欣欣向荣。

但是表层应用的繁荣却无法掩盖底层基础语料缺失带来的影响，高质量的中文数据资源依然稀缺，如果没有足够数量的高质量中文语料，对于大模型的中文能力智能涌现必然会受到影响。
这种情况在ChatGPT训练数据中表现得尤为突出，中文资料所占比例不足千分之一，而英文资料占据了绝大部分，达到了92.6%。
当被问及大模型产业繁荣发展是否对中文语料短缺的问题有所改善时，周源向记者表示：“这是一个先构建‘水库’，然后再去合理使用的问题。”
他解释道，目前大模型最大的语料库来自于UGC（用户生成内容）生态，即来自每个人的知识、经验、见解的上传。“我觉得今天构建‘水库’的工作大家重视得不够，反而都比较看重怎么去打水的环节，比如模型训练怎么去进行数据和内容的爬取，其间可能还会出现知识产权、隐私安全等问题。当我们再去看大模型新技术迭代的时候，会发现其实中文文本的短缺更明显。”
“没有好的语料、好的算料，光有算力、模型，这个循环显然是不对的。”周源认为，“语料短缺在未来好几年里都将是一个特别明显和严重的问题，需要得到足够的重视。”
我非常赞同关于“水库”的这个观点，巧妇难为无米之炊，想要有优质的中文大模型效果，高质量和多数量、多观点的各种经过深刻思考的人类观点，是非常重要的，多样化的基础数据，能够避免过拟合的情况出现。

我用AI绘画工具生成的图片
补齐优质中文语料数据短板，对于推动我国大模型产业高质量发展起到重要的作用。
周源建议从三个层面推进：一是建立数据合规的监管机制和评估办法。
大模型训练高度依赖高质量数据，没有好的数据就不可能有好的模型。随着大模型技术的深度发展，建议相关政府部门和监管机构针对数据合规应建立相应的监管机制，推动完善AIGC的监管立法，保护和规范人工智能领域的数据合规。
高质量的数据，除了扩充“水库”的容量之外，还应该定时对“水库”进行清洗，推动完善相关内容的立法，明确关于数据的合规性，清理互联网上的假新闻谣言及垃圾信息，避免“水库”受到大量的污染。
二是加强数据安全和知识产权的保护措施。
建议监管部门和相关机构研究制定相应的管理办法或法律法规。一方面是推动大模型研发机构和企业制定严格的保护政策和行为规范，严厉打击侵权行为，确保数据持有方的知识产权和利益得到充分保护；另一方面是制定相应的鼓励和扶持政策，保障拥有丰富高质量数据储备及持续生产能力的企业和社会主体得到整个行业的重视，促进数据要素市场的形成和生产能力的持续发展。
在数据安全和知识产权保护方面，我觉得首先是，要规范大模型获取数据的规范和原有语料的知识产权保护，避免对传统行业内容提供者的冲击和掠夺。
其次也应该对用AI进行创作生成出来的内容，也有相应的立法明确和版权保护，避免大量同质化抄袭以量取胜，造成劣币驱逐良币的情况出现。

三是加快高质量中文数据集的开发与利用。
关于如何加快高质量中文数据集的开发与利用，周源在提案中提供了三项具体的建议措施：
首先，要规范数据标注标准。建设标准化、规范化的数据标注方法，有助于加快数据要素的共享、流通与交易。
其次，要加快探索数据要素交易模式。由政府引导或相关行业组织牵头构建有利于数据交易模式创新与合规的新秩序，有助于推动数据交易行业有序发展和健康成长。
最后，要加大政府主导的公共数据资源开放共享。当前，我国已开始全面部署和推行公共数据开放制度，但公共数据开放仍然存在数据开放利用不充分、不协同、不平衡、不可持续等问题，加快构建标准统一、布局合理、管理协同、安全可靠的公共大数据资源体系，有助于大模型训练数据质量提升。
标注规范是非常必要的，准确的标注才能让数据的可靠性增加。
数据要素的交易和政府主导的公共数据资源的开发，这是让国家作为一个整体，去规范市场行为，国家必须进行组织协同，才能发挥我们社会制度的优势，避免无效的内耗和内部壁垒，更好的从国家层面推进中文语料的收集。
二、个人思考
而自从去年ChatGPT爆火后，互联网上开始充斥着AI直接生成的文字，经常会出现常识性错误，这些低质量的内容在互联网上泛滥，是严重影响到语料的质量的。
这种情况必须得到重视。
其实知乎目前算是中文图文社区里面，最为优质的知识分享平台之一，在这一点上知乎几乎获得了国内外各大搜索引擎中认同。
例如我在咨询Copilot一些中文相关的知识资料的时候，知乎权重是比较高同时被认为是高质量的语料，因此经常搜出来的都是知乎的文章。而如果让不加挑选的AI生成文字污染知乎答题的语料，未来会极大降低知乎信息的可信度。

前几天还爆出一条新闻，媒体 CNET 由于使用 AI 生成文章，维基百科不再视其为可靠信源。
维基百科有一个名为“可靠来源/常用来源”(Reliable Sources/Perennial Sources)的页面，其中列出了可信和可靠的新闻来源。CNET 于 2022 年开始使用 AI 来生成部分文章，但因为文章中存在大量语法错误，目存在严重的抄袭行为，大幅损害了其声誉。
面对负面评价和外界压力，CNET 随后叫停了 AI 项目，并纠正了大量文章中的错误。
维基百科的编辑们经过调査、投票判定，在 2022年 11月至 2023 年1月期间发表在 CNET 上的任何内容都应被视为普遍不可靠"(generally unreliable)。
所以知乎在去年早期就开启了对"AI辅助创作”的管制，虽然存在挺多的错漏判，但是整体来看，我觉得方向是正确的。
现在最大的问题还是如何进行有效辨别，以及如何确定哪种程度对AI的应用算是低质量，哪种算高质量。
我个人是觉得，如果是AI直接生成的内容，对于中文语料的“水库”是一个大污染。但是从另外一个角度，经过筛选的，人类与AI共同创作的内容，在作者本人对内容有精确程度把控的情况下，AI生成的内容是可用的。
因为我自己在创作中，有时候会经历让AI进行参谋，让它给我建议，我根据建议进行思路大纲的调整，然后在自己输入主要观点的情况下，让AI帮我润色。润色后再次进行修改，确保整体体现的是个人的思想而不是AI观点的直接输出。

对于这种情况，其实也需要考虑如何处理。
对于创作者来说，人的精力是有限的，AI能够进行辅助是极大提高了效率，并且经过挑选提纯的内容可能也是属于优质内容。
文字可能不明显，图片更加明显，之前有人拿MidJourney生成的图片，作为语料训练微调模型给到Stable Diffusion，也能产生很好的效果。
这说明经过人类智慧挑选的AI生成内容一样可能是高质量的语料资源。在语料资源不足的情况下，这部分内容对于补齐中文语料数据短板是很好的补充。
结语
关于AI生成的内容大众还存在很多误解。
我用我熟悉的AI绘画举例，我在知乎上发文，我已经无数次在评论区被嘲讽说，“这是AI画的，你怎么有脸说是你的作品。”这种言论其实来源于对AI的不了解。

有很大一部分人以为，只要把自己的需求，用自然语言的形式提给AI，所有的问题就可以用AI解决的。
但是情况并不是这样，AI只是一个工具，简单的提示词AI画出好看的图片是可能的，但是基本等于抽卡，不稳定很随机。
如果需要精确控制，表达创作者的思想，是需要人的深度参与修改和构思的。
之前北京互联网法院对「AI生成图片著作权侵权第一案」的判决书让很多人感到意外，AI生成图片是可以认定为著作权法意义上的「作品」的，前提也是人的智力成果深度参与。

我认为使用AI和原创本来是两个维度的事情，使用AI也可以是原创，只是怎么界定比例关系，人要多深层次的参与才算是原创，这是一个值得思考的问题。
如果能够理清这个思路，我们就能够界定出哪些是属于原创，对于人类参与程度较高的内容视同于原创，对于中文语料数据的内容补充是有益处的。
我是德里克文，一个对AI绘画，人工智能有强烈兴趣，从业多年的室内设计师！如果对我的文章内容感兴趣，请帮忙关注点赞收藏，谢谢！

所谓的中文语料数据短板根本就不存在，中文语料需要拔高，但是不需要补齐。
目前业界最佳的大模型训练方基本上就是OpenAI，现在还要再加一个Anthropic。他们的模型拥有业界最佳的性能，而且除了文化属性强的主题之外，对于一般的问题，基本上不存在中文相关的语言短板。这两家的共同特点是——都属于创业公司，而且背后的金主没有运营任何社交平台，因此都不可能获得任何超大规模的私有语料。虽然微软手下有GitHub，但是开源的代码本来就是谁都能用的，私有代码要用起来会面临巨大的法律风险，而且会使用GitHub托管私有仓库的都是中小企业，平均代码质量显然要远低于知名开源库。
所以，他们能搞到的数据，一定是你也能搞到的，换句话说可能的短板根本就不在语料上。高质量中文语料实现中文性能的进一步拔高，这个确实有必要，但大模型基础能力不需要也不应该依赖所谓的“高质量中文语料”

人工智能时代的到来使得一切都被重新定义，流水线上按照程序执行操作的机器人不属于人工智能，因为不具备深度学习功能。
人工智能大模型依赖于语料数据。虽然Open AI目前在人工智能领域处于领先地位，但目前仍属于群雄逐鹿阶段。以中文语料数据作为基础的国内人工智能大模型仍大有可为。
中文语料数据是指用于自然语言处理、机器学习、深度学习等人工智能技术的中文文本数据。这些数据可以来自于各种渠道，例如新闻报道、社交媒体、论坛、博客、文学作品等等。对于人工智能模型来说，语料数据的质量、数量和多样性都非常重要，因为它们直接影响到模型的训练效果和性能。
中文语料数据的重要性在于，它是人工智能技术应用于中文领域的基础。由于中文与英文等其他语言在语法、词汇、语义等方面存在很大差异，因此需要专门针对中文的语料数据进行收集、处理和研究。只有这样，才能更好地解决中文自然语言处理中的一系列问题，例如分词、词性标注、命名实体识别、情感分析、机器翻译等。
要补齐高质量中文语料数据短缺，加强语言资源建设必不可少。要加大力度投入中文语言资源的收集、整理和研究工作，包括文学经典著作、新闻报道、社交媒体等领域的文本数据。同时，鼓励学术界和产业界合作，推动中文语言资源的共享和应用。
随着全球化的深入发展，越来越多的国家开始重视本国语言的保护和发展。中国也应该加强与其他国家的交流与合作，推进多语种语料库的建设，丰富中文语料数据的多样性，共同推动中文语料数据的研究和应用。
中文语料数据不仅涉及语言学、计算机科学等领域，还涉及到社会学、经济学、政治学等多个领域的知识。因此，需要加强跨学科合作，促进不同领域之间的知识融合和创新。鼓励企业和研究机构积极参与中文语料数据的开源社区建设，推动开放式创新和协作。通过开源的方式，吸引更多的开发者、研究人员和用户参与其中，共同推动中文语料数据的发展和应用。
补齐中文语料数据的短板需要全社会的共同努力和支持。推动中文语料数据的发展和应用，为国内人工智能大模型产业的发展提供更好的支持和服务。

随着OpenAI先后发布的chatgpt和Sora相继爆红，生成式人工智能、大语言模型成了近两年的一大热词，也是近年来全球科技、经济、社会与文化领域现象级产品。
生成式人工智能、大语言模型，是通过学习大规模数据集生成新内容的新型人工智能，能基于算法、模型、规则生成新的文本、图片、声音、视频、代码等内容。获取并调用海量的优质内容（即所谓“语料”）进行深度学习和训练，进而针对提问调用相关优质内容进行整合、翻译并按其运算逻辑生成答案，是生成式人工智能、大语言模型的基本运行模式。这一过程中，既要有先进的算力模型、算法、规则，还要有可供深度学习训练和调用的海量且不断更新不断进步的优质内容（“语料”），缺一不可。
在文学艺术、社会文化、社会管理等人文领域，生成式人工智能、大语言模型要针对某一国家、某一社会的事务提供高质量的服务、生成高质量的成果，就必须要深度学习、训练该国家、该社会的海量而优质的本土文字内容（“语料”）。就我国发展生成式人工智能、大语言模型，优质中文内容供给，既是当前面临的一项短板，也是未来潜在的优势。OpenAI等机构，要对中国经济社会文化事务产生高质量的人工智能生成产品、提供高质量的生成式人工智能服务，也肯定要获取并利用海量的优质中文内容。为此，我国要尽快从立法、司法等角度思考相关问题，形成科学合理的发展理念和监管思路，健全完善相关规则，既推动生成式人工智能、大语言模型高质量发展，又保障我国的国家利益，促进中华文化传承发展和经济社会进步。
《纽约时报》诉OpenAI和微软公司案提醒我们，务必审慎考量生成式人工智能、大语言模型对他人优质内容利用的合理边界，建立相应规则。该案件也提示我们，生成式人工智能、大语言模型在深度学习、训练、调用或者说翻译（演译）他人优质内容时，会涉及对他人优质内容的使用，替代或妨碍优质内容提供者正常运营的可能性也就存在，对优质内容的产生者、集成者、存储者及提供者的经济收益、竞争利益和营利模式相应地带来挑战。我们需要密切关注《纽约时报》诉OpenAI和微软公司案的进展，并深入思考研究在中文领域内的相关规则形成。我们的《著作权法》《反不正当竞争法》等知识产权法，务必及时跟进，通过立法推动生成式人工智能高质量发展，与传统优质内容高质量供给，做到相互促进、良性互动、共享收益。

高质量大规模基础语料数据是大模型训练算法的关键基础资源。缺少高质量中文语料数据必将限制我国新一代人工智能的发展。
周委员地建议契合当下国内大模型科研攻关和产业发展的集体关切。
如何补齐中文语料数据短板，周委员已经提出了相关建议，包括建立数据合规的监管机制和评估办法、加强数据安全和知识产权的保护措施、加快高质量中文数据集的开发与利用。
中文语料数据采集难度比英文语料数据难，既有中文语言复杂性、汉字多意性、语法结构灵活性的原因，也有版权、法规限制等原因，当然目前中文语料数据资源标准化程度相对较低也是一个重要原因。如此种种原因构成了国内大模型训练使用英语比例更大的困局。当然，办法总比困难多，解决这个困境的正如周委员所言，除了加强人工智能使用的监管外，关键还是让中文语料数据的产生、流通、利用、共享等环节都能进一步规范和市场化。
在规范中文语料数据的标准化前提下，促进中文语料数据交易的规范化。
首先，要规范数据标注标准。建设标准化、规范化的数据标注方法，有助于加快数据要素的共享、流通与交易。
其次，要加快探索数据要素交易模式。由政府引导或相关行业组织牵头构建有利于数据交易模式创新与合规的新秩序，有助于推动数据交易行业有序发展和健康成长。
最后，要加大政府主导的公共数据资源开放共享。当前，我国已开始全面部署和推行公共数据开放制度，但公共数据开放仍然存在数据开放利用不充分、不协同、不平衡、不可持续等问题，加快构建标准统一、布局合理、管理协同、安全可靠的公共大数据资源体系，有助于大模型训练数据质量提升。
用市场的力量推进中文语料数据的标准化和增长，用政府主导的方式推进数据的共享和安全。
当然，要建立这样一个庞大的交易市场和标准化建设，相关的知识产权法规和监管法规也将是一个复杂的庞然大物，立法难度还是挺大的。

其实无论是从AI技术发展的角度，还是周源作为知乎老板的角度，我都是支持他这个想法的。数据标准，数据流通角度的看法，周老板都讲得很好了。我这里就简单补充一些技术角度的看法吧。
从AI技术发展的角度，语料一直是限制LLM发展的因素
2022年，DeepMind发表了一篇论文《Training Compute-Optimal Large Language Models》[1]，大家可以去看原文，这个论文最重要的一个论点是：
现在所有大语言模型都是训练不充分（undertrained）的
用人话说，就是：现在各种大语言模型参数已经够多了，多到现有的数据根本不能喂饱它。
连英文语料都如此，更别说中文语料了。
如何补齐语料数据短板
当然，补齐中文语料最简单快捷一个好的办法，就是翻译。
但在使用其他语言的语料时，数据质量是一个问题，怎么把关是个问题。例如Gemini出过一个笑话，你用中文问它是谁时，他说自己是文心一言。一种猜测是它使用了百度文心一言的语料数据，或者使用文心一言的输出作为自己的输入。总而言之，就是语料没把好关。

不过我们可以把目光看远点。难道只能用人类自然语言的语料吗？答案是否定的。符尧老师在他的一篇notion笔记里分析了GPT-3.5各项能力来源
拆解追溯 GPT-3.5 各项能力的起源?yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756
其中提到使用代码训练模型可能会使得模型推理能力提升：
最初的 GPT-3 没有接受过代码训练，它不能做思维链。
text-davinci-001 模型，虽然经过了指令微调，但第一版思维链论文报告说，它的它思维链推理的能力非常弱 —— 所以指令微调可能不是思维链存在的原因，代码训练才是模型能做思维链推理的最可能原因。
在 HELM 测试中，Liang et al. (2022) 对不同模型进行了大规模评估。他们发现了针对代码训练的模型具有很强的语言推理能力，包括 120亿参数的code-cushman-001.。
以上所有观察结果都是代码与推理能力 / 思维链之间的相关性，但不一定是因果性。这种相关性很有趣，但现在还是一个待研究的开放性问题。目前看来，我们没有非常确凿的证据证明代码就是思维链和复杂推理的原因。
此外，代码训练另一个可能的副产品是长距离依赖，正如Peter Liu所指出：“语言中的下个词语预测通常是非常局部的，而代码通常需要更长的依赖关系来做一些事情，比如前后括号的匹配或引用远处的函数定义”。这里我想进一步补充的是：由于面向对象编程中的类继承，代码也可能有助于模型建立编码层次结构的能力。我们将对这一假设的检验留给未来的工作。
这也是一个值得探索的方向。
从知乎以及互联网生态发展的角度
说句实话，做技术的都知道，即使我们怎么吐槽知乎，知乎依然是中文互联网上质量最好的语料来源，你在谷歌搜索一些关键词，知乎的回答很多时候都在前面。
而周源作为知乎老板，他的主张考虑到知乎发展，这很合理，知乎的良性发展，和中文语料质量提升，两者之间是正相关的。我们这些骂知乎骂得最多的，反而是知乎最活跃的用户，我们也希望知乎能持续发展，给中文互联网社区贡献更多的优质语料。
另外，在OpenAI一篇文章中，提出了一个概念，叫“对齐税”(Alignment Tax)[2]，就是努力让模型可以生成更加符合人类期待的反馈的代价，就是牺牲了一定的模型性能。因此，从互联网社区发展角度，我们在也要创造适合讨论鼓励讨论甚至奖励讨论的环境——即使这些讨论和部其他人的观点有冲突。
好了，就先讲这些。希望这个回答也能为中文语料贡献一点微薄之力吧。
参考^https://arxiv.org/abs/2203.15556^https://openai.com/research/instruction-following

先说结论：必须政府出面，要不然很难。即使政府出面，高质量数据也很难搞。
大模型时代，数据的重要性已经不言而喻，业界基本已经达成共识“garbage in garbage out”。
对于很多做大模型的人来说，技术壁垒太小了，毕竟现在开源代码、开源框架越来越多，教程越来越详细，甚至演变成一键训练。开源数据体现出的差距，一版都是在数据上的差距，训练数据越来越多，清洗数据规则越来越仔细。
但现在中文社区中，开源数据要比开源模型少太多，真正全开源数据，基本没有。毕竟数据收集、清洗都是脏活累活，清洗后的数据是核心资产，开源了就相当于把底子交出去。
因此，如果正在要维护数据，感觉还是的国家出面，政策支持，无需考虑钱得成本，弄出来就是为了中文模型。
并且从另外一个角度说一下数据的重要性，前一阵有篇论文，部分结论是大模型加了中文数据，模型效果变差了，也许可以反向来看，中文数据本身可能就比较难，还有中文数据可能质量更低，大模型在中文上效果更好的话，那就需要更多的数据。
如何看待「中文数据集会让大模型变笨」这一说法？65 关注 · 8 回答问题

当然在数据收集上，现在大模型纵生，网络上很多数据，都是大模型生成的了，那么后面如果过滤掉这些生成数据，也是比较难的点。
是我们在训练大模型，还是大模型在训练我们？69 赞同 · 14 评论回答

PS：数据中很多存在隐私问题，如何解决也是重中之重。

GPT3的用的数据就放在论文里，大部分都是爬虫全网爬的，pale和reddit的数据占绝大多数。wiki和小说的都很少，策略是把他们拿给模型多过几次……要做到这个质量并不很困难，实际上也无非是知网+各种读书app里的小说+百度百科+知乎小红书长微博等等，数据就在那里，可能最大的gap是获取和清洗。
简单来说，LLM的重点是会说话，而不是当真理机，换句话说，即使有一个大模型声称它输出真理，你敢信么？就和ChatGPT写代码或者润色似的，你还是得掌握判断这个代码合不合用或者在英文阅读能力上没有任何短板才敢用。

这个想法我觉得是对的，就是说除了有技术方面的支持，我们还要有知识产权方面的支持。
没有好的语料、好的算料，光有算力、模型，这个循环显然是不对的。”周源认为，“语料短缺在未来好几年里都将是一个特别明显和严重的问题，需要得到足够的重视。”
因为所有的人工智能，所有的算力模型它建立是在一个基础上呢，就是需要大量的摘抄，甚至去复制大的知识产权的东西，如果没有好的知识产权的支出，你单纯的相信技术相信模型，那么你产出的东西肯定是也是没有什么好的结果了。
在我看来，这就是本质与外在的关系知识产权和内容它就是本质，然后算力和技术它就是一个外在。
现在我觉得有一种风气就是过于的推崇技术，过于的推崇算力，不管是那种能够自动摘抄文字的算力，还是那种去自动摘抄视频的算力，但是我们不能忽视的就是好的内容，它终究是好的内容。我们的基础还是好的内容。
所以我感觉如何来保护这些好的内容呢？
第一是要坚持贯彻落实保护知识产权的方法，即使算力模型如果你出于运营或者牟利的目的来滥用别人的话语，你还是要付费的。
第2个就是对于那些好的知识产权要进行保护，对他们进行知识产权方面的补偿，在法律方面也更好地保护人家的合法权益，只有这样的话，这些好的知识产权才能不断的输出不停的生产内容。
第三个我们就是要抛弃那些唯技术论的想法，把技术看得太高太深入，而忽视了对本质的追求。

中文语料集的缺乏我觉得两方面原因，一是优质文本的积累不足，二是各个应用平台的相对封闭导致无法共享。文中提到了三条主要建议，我觉得就是针对这两方面进行补足。首先针对平台之间的壁垒，应当建立数据合规监管机制，加强数据安全和知识产权保护。也就是数据是平台的资产，在这些资产能够共享之前，先进行确权监管，同时也是在保护平台用户的一些信息隐私，避免大模型学习到隐私信息。而在建立起监管机制后，则可以推动高质量中文数据集的开发与利用。比如规范数据标注标准，探索数据要素交易模式，加大政府主导的公共数据资源开放共享。
但是也应当看到这些措施可能存在的困难。首先行业标准的建立，达成广泛共识并实施统一标准可能会遇到阻力。如何对数据进行交易定价，又避免垄断不公平出现也是难点。最重要的是监管法规的建立，如何在监管合规保护隐私的同时，又需要充分考虑技术发展的速度和行业实践，以避免过时或过于严苛的规定出现。能在两会上看到关于人工智能大模型的相关建议提案，还是对行业从业者的一个提振鼓励，说明人工智能已经开始有广泛重要的社会影响，需要一起携手努力建设。

在没有看到「是哪位委员」提出了这个问题之前，只是就「补齐中文语料数据短板」这个问题，第一反应是「这个提法还是有利于知乎」的。
后来再看到原来是政协委员＆知乎老总周源提出来，倒是感觉「情理之中」了：
“没有好的语料、好的算料，光有算力、模型，这个循环显然是不对的。”周源认为，“语料短缺在未来好几年里都将是一个特别明显和严重的问题，需要得到足够的重视。”
恰如之前在另外一个回答里面提到的：人工智能怎样发展都少不了人工。在深度融合类文字人工智能的发展中，这样的人工至少就表现为语料。
虽然我们常说「知乎药丸」，但必须要承认的是，在中文互联网的世界里，知乎作为文字发家的软件实际上已经是很难得的。依托问题构造出的场景，在很多情况之下是微博、公众号、小红书这些「同行」没办法取代的。
就像到今天，如果从法律话题出发，我想看一些及时的法律评价或者是找一些「有趣问题」的答案、问题，有时间的情况下当然还是会去知网看看，但如果不是严肃场景，恐怕还是会选择在知乎「解决问题」。
可以说，得益于这么多年如此之多知友在知乎上的「交流」，至少是使得知乎在「高质量语料」上有独特的优势的。很多问题之刁钻，诸多问题之「机灵」，恐怕是中文互联网上不可忽略的宝贵财富了。
也希望，这样的宝贵之库，能够焕发更靓丽的光彩了。

Open AI这类公司推出的大模型外显展现的主要是算法，但马斯克也曾讲过：“人工智能的发展面临的瓶颈是芯片，然后是存储，然后是电力（需要无尽的电力才能驱动算法）”。
人工智能产业发展，需要几个关键要件：算法、算力、数据、电力。
当前世界各国的大模型都在竭力向通用人工智能方向发展，当前我们在算法上相对于Open AI是落后的，但是国家队的努力和各大厂商的下场，技术也在不断进步，取得突破是时间问题。
而相对应的几个硬件行业，目前仍有被卡脖子的难题，同时也蕴含着巨大的发展机遇。
一是算力，更确切说是芯片，卡脖子现象依然严重，算力实现的核心是CPU、GPU、FPGA、ASIC等各类计算芯片。比如大疆无人机最近的几个大型公共项目出现批量交付延迟，主要就是芯片供应受阻，这在人工智能领域的掣肘会更为明显。
二是数据，数据交易将成为下一个风口。人工智能成长需要海量的数据支撑，当前我们自己的大模型很多中文语境词汇是匮乏的，某些场景还在遵循着西方的语言逻辑，导致输出成果非常不稳定。建立中文语料库以及提供高质量的数据资源很关键，当前各地都在建立“数据交易所”，也在培育“数商”生态，广东上海等地在这方面表现较为突出。
电力方面其实是我们的强项，如果算力和数据困难被解除，人工智能产业就会有非常明显的发展，后劲充足。

我是「程序员小跃」，浙江双一流高校软件工程专业毕业。在校期间多次参加各类软件开发竞赛；省级优秀毕业生；曾就职于杭州菊厂从事Android开发；现某区域Top级游戏公司Java 架构。
时间过得还挺快的，又到了今年的两会时间。全国政协委员、知乎创始人兼CEO周源提交了多份提案，在采访中他就针对国内当前人工智能（AI）大模型产业发展中遇到的高质量中文语料数据短缺现状及问题，给出了自己的洞察观点，还提出了解决思路和建议措施。
他提出建议从三方面补齐，一是建立数据合规的监管和评估办法；二是加强数据安全和知识产权的保护措施；三是加快高质量中文数据集的开发与利用。其实已经说的挺全了的，我再试试看怎么给这个补充一些噢，毕竟咱也是互联网人，没准也有好的观点呢，是吧。
开放共享与合作
合作才能共赢，这是更古不变的道理。
因此，为了发展的同时，更多的也是需要鼓励企业和研究机构之间的合作与数据共享，共同建设和完善中文语料库。
如果汇聚了海量企业的数据，那这个平台的价值可以很好的发展起来；相应的研究机构的能力也会因为对这些数据的处理而变的强大起来。
利用众包和社区力量
做成这个事情，其实光靠自身的力量还是渺小的，我这里有个脑洞大开的想法，就是合理利用互联网资源，比如众包、社区等等。
利用众包平台和社区力量，吸引广大网友参与中文语料库的建设和标注工作。众人拾材火焰高，何况咱们的实际情况就是网友的数量太多太多了，这个方式我觉得可行。
这不仅可以扩大语料库的规模，还可以提高标注的准确性和多样性。
加强知识产权保护
当然，任何方式的建立，都涉及到关键的信息，那就是产权保护。
建立健全的知识产权保护机制，保护语料库建设者的合法权益，激发企业和研究机构参与中文语料库建设的积极性。
在这个盗版横行的时代，这个动作必不可少。
推动多领域语料库建设
不同的领域会有不同的需求，也自然会有不同的汇总方式，因此针对不同领域的需求，推动多领域中文语料库的建设。
例如，针对自然语言处理、机器翻译、智能问答等应用领域，分别构建相应的中文语料库。
现在国内的大模型就是很好的资源咯。
加强技术研发和创新
这点也还是依赖于技术的发展，甚至是我们程序员要勇敢的站出来了，该是我们发挥价值的时候。
加大在中文语料库建设相关技术的研发和创新力度，提高中文语料库的质量和效率。
例如，利用深度学习、自然语言处理等技术手段，对中文语料库进行深度挖掘和利用。
期待
从这么多个角度，作为程序员的我充满了期待。我可以做什么呢？
我可以做一名热心网友，提供各类词汇了；可以作为程序员，进行数据的汇总分析；可以寻找更优秀的平台去模型训练等等，感觉我能做的事情很多。
我是@程序员小跃，Java工程师一枚。“一个人走得快,一群人走得远”。所以，小跃一直在学习的路上，期待和你的交流。

听话要听音，这句话从知乎创始人嘴里说出来，我只能说，太对味了！
先来看这张图

2023年2月8日，知乎港股暴涨近百分之五十，究其原因，就是随着Chatgpt的出圈，知乎被认为是中文互联网最具有价值的【语料库】，从而价格暴涨
当时有媒体认为，知乎具有一些独特的优势，例如知乎作为国内高质量中文互联网问答平台，良性讨论氛围和高质量内容沉淀是其根基，用户在知乎并不会被不同文化圈层所阻碍，同一个问题可能存在数个不同切面、甚至截然相反的回答，赞同/反对机制极大规避了算法至上造成的“信息茧房”，既是对内容质量的一种主动筛选，也是对 AIGC 大模型开发的天然优势。
同时，知乎的社区氛围使提问、回答、讨论生态自循环。相比“双微一抖”（微信公众号、微博、抖音）内容生命周期更长，且知乎的高赞内容、热门问答会长时间优先展示，长尾效应明显，具备不可替代的场景心智。
这些都是知乎不可替代的价值，从而让其成为了CHATGPT概念股
当然后面怎么涨上来的又跌回去了
但不可否认的是，生成式大模型目前还处于草创阶段，最起码就国内各大厂商而言，还没有真正能拿得出手的产品
而坐拥中文互联网最大【语料库】的知乎
肯定也想在这股浪潮中分一杯羹，至少不能落后
而周委员的这个建议
无疑又让人们将知乎和人工智能大模型联系在了一起
不愧是创始人！

今年的全国两会，有政协委员就国内当前人工智能（AI）大模型产业发展中遇到的高质量中文语料数据短缺现状及问题，提出了相应的解决思路和建议措施。
那么，什么是中文语料数据呢？
中文语料数据集是指由中文组成的数据集，包含了各种不同的文本和语音数据，包括语法、语义、情感、文化差异等。中文语料数据集在自然语言处理、机器学习、人工智能中有着广泛的应用。
首先，通过对中文语料数据集的分析和处理，可以提高机器对中文语言的理解和处理能力。通过对数据集的分析，可以提取中文语言中的规则和特征，用于自然语言处理中的文本分类、情感分析、语音识别等任务。
其次，机器学习算法需要大量的数据进行训练和优化，而中文语料数据集则是数据来源。
人工智能同样需要大量的数据进行训练和模拟，来源还是中文语料数据集。通过对数据集的分析，可以训练出更加智能和高效的人工智能系统。
针对中文语料数据集的不足，个人觉得可以采集如下一些方法进行弥补：
一：通过网络收集。
可以在网络上设置各种语音和文本环境，进行大范围的收集。
二：通过各种电影、电视、短视频等进行收集。
三：通过各种名著、小说、散文等进行收集。
当然还有很多其他的方法。
总之，语料数据的收集相对来说还是比较简单的，关键在于成本和整理。

没错，从本质上来讲，OpenAI的ChatGPT不仅仅是model-centirc的产物，最重要的是，它更是data-centric的模型。
data-centric是什么？建议大家可以看下吴恩达老师的视频。
很多人都以为ChatGPT厉害的原因不就是因为OpenAI有大量的算力，直接将类似Transformer这样的几个模型直接往里套，不就是大力出奇迹嘛！？
其实不然，我们承认大力出奇迹确实会有效果，可是当深度学习模型达到一定的深度，容易发生过拟合；但当我们无论怎么去调模型，模型都达不到一定的效果，这时候根本问题在于模型是处于欠拟合状态，尽管喂给模型的data已经很多了，但是这批数据的质量并不是很高。
这也叫就是data-centric的真正含义，我们需要进一步去提高数据的质量；ChatGPT为什么能够成果，一方面原因就在于OpenAI选择人工标注数据，前期投入大量资金投入了去招聘博士级别的专业人士来完成高质量的标注任务。
补齐中文语料数据短板有什么好办法？
中文相比较英文，存在同音多字、一字多音、错别字以及中文分词需要考虑粒度问题，比如一句话可能会有多种读法。
以“我们今天吃炸鸡吧”为例，
第一种读法：我们 / 今天 / 吃炸鸡 /吧
第二种读法：我们 / 今天 / 吃 / 炸鸡吧
？？？
所以说，中文相对于英文存在多种大家想不到的情况，有些情况存在的数据比较少；但是话说回来，国内目前有像百度贴吧、百度百科、知乎、以及各种媒体官网等多个大量的且现成的中文语料库，按道理来说应该能够更好的效果，只是可能没有像OpenAI那样愿意花那么大的代价用在前期数据标注的工作上。
现在的大模型想要达到理想的效果，模型本身仅仅只是一方面，data-centric才是王道。

这应该就是巧妇难为无米之炊的意思吧。好的中文语料就是“米”，AI模型就是“巧妇”。关于AI不懂太多，就简单说说自己的看法。我现在的直观感受是，“米”还可以，但“巧妇”貌似不太行。
我个人认为，虽然是英文是世界上通用的语言，现在世界上主流的“AI”都是以英文语料为基础的，这个我不否认。
但是中文的语料也不少啊！但关键是我们开发出来的“AI”模型，算法到底如何？智能到何种程度？真的有把现存的中文语料学习到位了吗？我在这里画一个大大的问号？
国内的一些所谓的“AI”好像是是亦步亦趋的阉割版，实际上使用起来的效果非常不理想，有一些甚至是为了强行蹭国外的热点，在极短的时间里搞出来的山寨版。输入想要的东西，得出的结果几乎是狗屁不通，而且有很强的AI痕迹。冰冻三尺非一日之寒，漂亮国花了很多人力、物力才搞出来的chatgpt，我们没几天就能搞出类似的东西，这效果能好才奇怪呢。
作为一名经常需要爬格子的法律人，我是真心希望好用的中文“AI”能快点出来，下次领导给我一个题目，我就能自动生成一个稿子，再也不用一个一个爬格子了；再或者把当事人、案情、证据等输入到系统里，系统就能根据现有的东西直接拿出几种意见供判决。（别吵醒我，我正在做梦呢）

很难两会能听到给我们互联网行业的提案的！加上又是我们知乎的老大，我们必须要支持一下！
首先普及一下语料是什么？
语料

我们发现很难具体描述，从词意上来说，语料，即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。语言学相关专业以及对语言学有研究的人对这一定义比较熟悉。
但在人工智能领域，这一定义则不够准确。语料是人工智能领域非常非常基础的构件，属于自然语言处理范畴。语料也算数据的一种。可以这么说，人工智能领域不能脱离语料而独立存在，反之则不成立。我们试图给语料下个定义--语料是经过一定规则选定的描述语言现象的语言数据。仅一家之言，可能并不准确，我们也想通过回顾语料的发展来拓展与补充。
我个人见解是：
算力模型和语料要双管齐下，语料是用于训练算法模型的，两者是相辅相成的，没有算力模型，他光有语料数据，语料就真正是一滩死水的数据，躺在数据库里。没有丰富的语料，算力模型是无用武之地的，发挥不出来应有的能力！
国家现在也很重视发展人工智能（AI），大力发展人工智能（AI）的基础设施，期待中国能在人工智能（AI）方向做一个佼佼者！而不是被那些“乘风破浪”的风投，把人工智能（AI）当做风口。过了风口就熄火了，这是是一个至少现在看来是一个长期需要支持的行业！

要想补齐中文预料数据的办法就是：开放权限。
人工智能的语料来源多为两个：
一是程序员自己录入。
二是其设定的程序自主在互联网上扒资料。
因此要想补齐，只有开放权限。
开放关于政府、企业以及学术等方面的规定，让它们一起为中文预料进行整合，还能保证语料符合要求，不会违反相关要求；
开放行业之间的资源共享，让多个行业进行资源整合，如新闻、科技、教育等，可以保证资源更加丰富；
开放创新的内容平台，允许开发者进行创新和补充语料资源，形成良好的循环；
开放相关职业培训，培养一群专业的人才，他们能够分辨语料的真假以及科学性；
开放用户授权权限，让用户在有保障的前提下，可以让AI可以通过与用户对话获取其个人信息；这个值得注意的是，要保证用户敏感信息不会被获取，造成用户信息泄露。

对于此，希望AI系统能够研究出安全的办法，如：1.
明确告知用户要收集信息，让其在使用时保持警惕，不要轻易录入自己敏感信息，并告知使用时的场景，让用户自行选择。
2.
加密数据，对于用户录入的信息都采用加密技术保护，如在传输中采用端对端加密，这样能保证数据不会被窃取；其次再用非对称等加密技术对用户数据转化成密文传输和存储，保证用户信息不会被破解。
端对端加密是国际上认可的安全传输技术之一，只有接收方和发送方能够解读信息，任何第三方都不可以读取，而且十分难以破解，所以十分安全！
这技术现在常用在社交通讯中，如WhatsApp、telegram、蝙蝠加密聊天等，都是采用了端对端加密的安全聊天软件。其中蝙蝠是国内首批上线的加密软件，在国内知名度较高，并且技术和功能较为成熟。
蝙蝠有万人群里、密聊模式、预设密信、双向撤回、截图提醒等功能，用户可以在使用软件时，也不用担心别人偷看自己手机导致自己信息泄露。3.
对于AI系统进行定期的审计，并对其保证全面的监控，确保不会因为系统导致数据泄露；同时给予用户一些可以修改的权限，让用户在后续自行确认信息是否被录用。
4.
确保AI系统的使用符合相关的隐私法规和标准，如欧盟的通用数据保护条例（GDPR）或美国的加州消费者隐私法（CCPA）。

各网络平台免费使用网友创作内容的情况能改革吗？

[收藏本文] 【下载本文】

科技知识最新文章

百度为什么越来越垃圾了?

为什么程序员总是发现不了自己的Bug?

出现在抖音评论区里边的算命真不真？

你认为 C++ 最不应该存在的特性是什么？

为什么 Windows 的兼容性这么强大，到底用了

如何看待Nvidia禁止使用翻译工具将cuda运行

为何苹果搞了十年的汽车还是难产，小米很快

该不该和AI说谢谢?

为什么突破性的技术总是最先发生在西方？

加:2024-03-07 13:21:11 更:2024-03-07 13:46:53

股票涨跌实时统计涨停板选股分时图选股跌停板选股 K线图选股成交量选股均线选股趋势线选股筹码理论波浪理论缠论 MACD指标 KDJ指标 BOLL指标 RSI指标炒股基础知识炒股故事

网站联系: qq:121756557 email:121756557@qq.com 天天财汇