从零开始的认知,人工智能大模型原理及应用简析
点击蓝字
关注呆萌探索
前言
图1 -文心一言答呆萌问
18世纪60年代到20世纪后半期,前三次工业革命贯穿了人类近代史,蒸汽机、内燃机、电机、计算机等各类新工具的出现,通过改变生产方式极大的提升了生产效率, 与之不同,我们正处于的第四次工业革命,涵盖了“人工智能、生物技术、信息技术、区块链等多个领域的技术突破和应用”,是将数字技术作为通用目的技术的复合型革命,涉及到制造业、能源、交通、医疗、农业等多个领域。
2018年,OPEN AI所发布的 ChatGPT-1,通过对自然语言输入进行建模和预测,支持生成高质量的自然语言回复文本。作为世界首款大语言模型,其代表了人工智能的重大突破,尤其在五年的版本迭代中,最新发布的ChatGPT-4,已经是一款可支持图像与文本输入的多模态模型,在生态插件的帮助下(如Canva),甚至可以支持“文本输入、视频输出”的操作,可以说是人工智能领域公认的重大突破性应用。
一时之间,全球范围内的人工智能产业均在向大模型方向发力,根据中国新一代人工智能发展战略研究院发布的报告显示,截止至2024年3月,国内已有243个AI大模型,涵盖通用、金融、工业、科研、医学、教育等众多领域。其中,通用模型39个,行业类的金融模型25个,工业模型23个,科研17个,医学13个,教育13个。
那么,什么是大模型?研发大模型需要做什么?在受到热捧的同时,大模型又有哪些应用?本文进行了简析。
一
大模型的研发方式与工作原理
什么是大模型?
“大模型”通常是指参数数量庞大(方式)、训练数据集巨大(数据)、计算资源需求高(算力)的大型深度学习模型(LLM),会包含数十亿乃至上万亿的参数,如正在训练的ChatGPT-5拥有超过10万亿的参数。
通过对大量文本、图像或视频的学习,大模型能够像人一样掌握复杂的模式与关系,实现通人性、懂逻辑的能力,支持近乎完美地回答每个问题。
大模型是如何研发出来的--“训练”
归根到底,大模型是一段计算机程序。
业界对于大模型的研发过程,称之为“训练”。顾名思义,研发人员会在训练的过程中,将预先准备好、进行过预处理的海量数据,“投喂”给合适的神经网络模型,通过算法的加持,程序将学会识别和生成规律,并不断的进行参数调整,以实现预测与实际值之间的误差最小化,从而使其具备适应各种任务的学习能力。
整个训练过程,基本可以分成“预训练-指令微调”两个阶段。
1
预训练阶段
如果想要训练某一行业的专用大模型,那么就需要向这个模型投入大量的相关训练数据,然而,即使标注了几百万条相关的数据,但和动辄上亿的无标注语料相比,都显得过于渺小。这时为了降低这个过程中的损耗就产生了“预训练”。
“预训练”是通过一些训练方法去学习大量低成本数据中的共性,然后将了解到的共性储存,当需要运用到某一特定领域时,只需要使用相关领域的少量标注数据进行“微调”即可完成。
2
指令微调阶段
在完成预训练后,进入指令微调阶段,这时因需要学习特定知识,所以对语料的质量要求极高,需要精选问答对(Prompt和答案),数量控制在10K至100K之间。这些语料多为人工编写。
在这个阶段里,实现的是大模型从通用到专用、从基础到高级的关键过程,能够显著提高大模型在各种任务场景下的表现效果,至此,一个可以投入使用的大模型就训练好了。
大模型是如何为人类提供服务的—“推理”
训练完毕的大模型,在部署到实际需要应用的场景后,就可以实际提供服务了,此阶段大模型实现的功能为“推理”。
所谓“推理”,是指大模型会基于我们的问题,把“训练”过程中学到的知识反馈给我们。
当大模型接收到一个问题时,其会根据训练时学习到的知识和模式,对问题进行解析、理解和分析,然后生成相应的回答。这个过程涉及到对语言的理解、信息的提取、逻辑关系的推理等多个方面。
值得一提的是,和人类基于意识和思维的推理方式不同,大模型的推理是基于大量的数据和复杂的计算结构。模型通过学习和训练,掌握了一种从输入到输出的映射关系,能够根据问题的特征生成相应的回答。
二
国内大模型发展现状及应用情况
在前言中,我们提到了国内目前现有大模型有243个,包含了文字生成、图像生成、音频生成、视频生成、多模态生成等,其中,因为NLP技术更为成熟,文字生成也是国内目前赛道最成熟、应用数量最多的方向。
我国在大模型产业中正处于百花齐放的阶段,不论是应用数量还是技术能力,都处于世界第一梯队位置。
百度--文心一言
根据百度百科中的词条解释,文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。
腾讯--混元
腾讯混元(Tencent Hunyuan)具备中文创作能力、复杂语境下的逻辑推理能,支持多轮对话、内容创作(含文学创作、文本摘要、角色扮演等)、逻辑推理、知识增强等能力,在文档场景、会议场景、广告场景、营销场景中均可以服务大众,例如可以通过多模态的生成能力,支持营销内容创作,提升效率等。
腾讯混元大模型API已经对外开放,可以通过腾讯云平台开通服务(有免费试用机会)。
商汤--日日新
日日新的名字,来源于《礼记·大学》中的“苟日新、日日新、又日新”,寓意着模型的快速迭代和不断更新,以适应不断变化的技术和应用需求。经过多个版本的迭代,日日新大模型现阶段支持知识覆盖、推理能力、长文本理解、数字推理能力和代码生成能力等,支持跨模态交互。目前已在金融、医疗、汽车、地产、能源、传媒、工业制造等多个垂直行业与超过500家客户建立合作,加速行业智能化转型。
此外,商汤科技还推出了“办公小浣熊”——一款无需编程或复杂操作即可使用的数据分析工具,结合大模型的意图识别、逻辑理解、代码生成能力,可自动将数据转化为有意义的分析结果和可视化图表,特别适合中国数据分析需求。
阿里--通义千问
通义千问由阿里达摩院研发, 开源了18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型。截至目前,已有多个企业和研究机构进行了应用创新,像“浙江有鹿机器人科技有限公司” 的路面清洁机器人、“华东理工大学X-D Lab团队”的心理健康大模型MindChat,均通过开源模型进行了应用创新。
通过开源的方式,会有更多从业机构、个人加入到大模型产业中,通过通义千问的官网即可下载模型、获取API接口等,以更好地利用这一工具。
月之暗面--KIMI
月之暗面于2023年10月推出的Kimi是当时全球首个支持输入20万汉字的智能助手产品,它可以快速的阅览长篇文章,并总结其中的重点内容,也可以翻译长篇论文,多语言对话、文件解析、网页内容解析等属于其核心能力,尤其支持多文件同时提取关键信息的能力,极度友好于城市白领的日常工作。Kimi可以阅读和理解用户上传的多种格式文件,如TXT、PDF、Word文档、PPT幻灯片和Excel电子表格等,并根据文件内容提供相关的回答和信息,这可以很好的提升城市白领工作效率。
除此之外,各类应用市场、应用商店中也可以下载到很多垂直领域的、专用大模型,例如:DeepSeek Coder作为一个专注于编码的大模型,能够根据用户的需求,生成各种编程语言的代码,包括游戏、应用程序等;CodeFormer大模型可以对年代久远的模糊照片或马赛克人脸的图片进行修复;boardmix可以一键生成思维导图;Gramma AI可以生成文本大纲、PPT等等,众多大模型在多个方面支持我们的日常需求。
三
模型未来挑战
与其他技术一样,大模型在发展中也遇到了很多难题。数据的信息安全就是其中一大难点,2023年10月国家数据局正式成立,昭示着数据要素市场化已经成为国民经济发展的重要抓手,这就更加要求大模型的发展要注重“数据安全、隐私保护”等实际问题。
与传统的端到端模型不同,大模型“预训练—指令微调”的训练范式,先是在大量的未标注数据上进行预训练,然后在下游任务的标注数据上进行微调得到垂直领域模型。这一系列过程中往往涉及敏感和私密的信息,如ChatGPT被纽约时报起诉、Midjourney被画家凯利·麦柯南起诉等近期一系列的诉讼官司,要求赔付额度甚至超过10亿美金,均因数据问题。如何防止数据被滥用,成为了模型训练过程中一项重要的任务,业界已经有企业开始使用“自造数据”来训练大模型,以规避可能的数据风险。
除了信息安全,训练成本也是一大难题。大模型的训练因为需要使用高端硬件服务器(通常为搭载了CUDA的英伟达GPU服务器),加上满负荷运转时的高昂电费、以及模型训练时不算高的利用率(可能低至20%~30%),1.8万亿参数的GPT-4成本超过了1亿美元,这对于中小企业,甚至大企业来说,都很难负担,使得大模型在实际应用中的推广和普及也受到了很大的限制,因此,大模型底座、开发工具链等底层生态的建设,也成为了很多有志在大模型产业中争夺高位的企业的选择。
结束语
大模型已经成为了现代人工智能技术的重要组成部分。随着技术的不断进步和数据的日益丰富,大模型在各个领域的应用也愈发广泛和深入。展望未来,随着大模型技术的持续发展和优化,我们有理由相信,它们将在更多领域发挥更大的作用,推动整个社会的智能化进程不断加速。同时,我们也期待更多的研究者和从业者能够加入到这一领域中来,共同推动大模型技术的创新和发展,为人类社会的进步贡献更多的智慧和力量。
本文专业名词注解:
LLM:(Large Language Model,大模型)参数数量庞大、训练数据集巨大、计算资源需求高的大型深度学习模型。
Prompt:被用作与AI模型进行对话或生成回答的起点。它可以是一段文字,一个问答对,一个问题,一个命令,或者任何其它形式的输入,用于引导模型以特定方式回答或生成输出。
END
科技观察、前沿技术、行业趣事
和呆萌一起探索世界~
呆萌与专业并存的探索之旅,旨在揭示科技背后的深层逻辑与创新力量。在这场呆萌探索科技的旅程中,我们将秉持严谨的科学态度,深入挖掘科技背后的原理与应用。我们期待通过专业的视角,让更多人了解科技的魅力与价值,共同推动人类社会的进步与发展。
版权声明
本站所有文章来源于本站原创或网络,如有侵权请联系删除。文章观点并不代表本站观点,请网友自行判断,如涉及投资、理财请谨慎应对!
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。