从零开始的认知，人工智能大模型原理及应用简析

zhiyongz 9个月前 (04-01) 阅读数 #虚拟现实

点击蓝字

关注呆萌探索

前言

从零开始的认知，人工智能大模型原理及应用简析第1张

图1 -文心一言答呆萌问

18世纪60年代到20世纪后半期，前三次工业革命贯穿了人类近代史，蒸汽机、内燃机、电机、计算机等各类新工具的出现，通过改变生产方式极大的提升了生产效率，与之不同，我们正处于的第四次工业革命，涵盖了“人工智能、生物技术、信息技术、区块链等多个领域的技术突破和应用”，是将数字技术作为通用目的技术的复合型革命，涉及到制造业、能源、交通、医疗、农业等多个领域。

2018年，OPEN AI所发布的 ChatGPT-1，通过对自然语言输入进行建模和预测，支持生成高质量的自然语言回复文本。作为世界首款大语言模型，其代表了人工智能的重大突破，尤其在五年的版本迭代中，最新发布的ChatGPT-4，已经是一款可支持图像与文本输入的多模态模型，在生态插件的帮助下（如Canva），甚至可以支持“文本输入、视频输出”的操作，可以说是人工智能领域公认的重大突破性应用。

一时之间，全球范围内的人工智能产业均在向大模型方向发力，根据中国新一代人工智能发展战略研究院发布的报告显示，截止至2024年3月，国内已有243个AI大模型，涵盖通用、金融、工业、科研、医学、教育等众多领域。其中，通用模型39个，行业类的金融模型25个，工业模型23个，科研17个，医学13个，教育13个。

那么，什么是大模型？研发大模型需要做什么？在受到热捧的同时，大模型又有哪些应用？本文进行了简析。

一

大模型的研发方式与工作原理

什么是大模型？

“大模型”通常是指参数数量庞大（方式）、训练数据集巨大（数据）、计算资源需求高（算力）的大型深度学习模型（LLM），会包含数十亿乃至上万亿的参数，如正在训练的ChatGPT-5拥有超过10万亿的参数。

通过对大量文本、图像或视频的学习，大模型能够像人一样掌握复杂的模式与关系，实现通人性、懂逻辑的能力，支持近乎完美地回答每个问题。

大模型是如何研发出来的--“训练”

归根到底，大模型是一段计算机程序。

业界对于大模型的研发过程，称之为“训练”。顾名思义，研发人员会在训练的过程中，将预先准备好、进行过预处理的海量数据，“投喂”给合适的神经网络模型，通过算法的加持，程序将学会识别和生成规律，并不断的进行参数调整，以实现预测与实际值之间的误差最小化，从而使其具备适应各种任务的学习能力。

整个训练过程，基本可以分成“预训练-指令微调”两个阶段。

预训练阶段

如果想要训练某一行业的专用大模型，那么就需要向这个模型投入大量的相关训练数据，然而，即使标注了几百万条相关的数据，但和动辄上亿的无标注语料相比，都显得过于渺小。这时为了降低这个过程中的损耗就产生了“预训练”。

“预训练”是通过一些训练方法去学习大量低成本数据中的共性，然后将了解到的共性储存，当需要运用到某一特定领域时，只需要使用相关领域的少量标注数据进行“微调”即可完成。

指令微调阶段

在完成预训练后，进入指令微调阶段，这时因需要学习特定知识，所以对语料的质量要求极高，需要精选问答对（Prompt和答案），数量控制在10K至100K之间。这些语料多为人工编写。

在这个阶段里，实现的是大模型从通用到专用、从基础到高级的关键过程，能够显著提高大模型在各种任务场景下的表现效果，至此，一个可以投入使用的大模型就训练好了。

大模型是如何为人类提供服务的—“推理”

训练完毕的大模型，在部署到实际需要应用的场景后，就可以实际提供服务了，此阶段大模型实现的功能为“推理”。

所谓“推理”，是指大模型会基于我们的问题，把“训练”过程中学到的知识反馈给我们。

当大模型接收到一个问题时，其会根据训练时学习到的知识和模式，对问题进行解析、理解和分析，然后生成相应的回答。这个过程涉及到对语言的理解、信息的提取、逻辑关系的推理等多个方面。

值得一提的是，和人类基于意识和思维的推理方式不同，大模型的推理是基于大量的数据和复杂的计算结构。模型通过学习和训练，掌握了一种从输入到输出的映射关系，能够根据问题的特征生成相应的回答。

二

国内大模型发展现状及应用情况

在前言中，我们提到了国内目前现有大模型有243个，包含了文字生成、图像生成、音频生成、视频生成、多模态生成等，其中，因为NLP技术更为成熟，文字生成也是国内目前赛道最成熟、应用数量最多的方向。

我国在大模型产业中正处于百花齐放的阶段，不论是应用数量还是技术能力，都处于世界第一梯队位置。

百度--文心一言

根据百度百科中的词条解释，文心一言（英文名：ERNIE Bot）是百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动、回答问题、协助创作，高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习，得到预训练大模型，在此基础上采用有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的技术优势。

腾讯--混元

腾讯混元（Tencent Hunyuan）具备中文创作能力、复杂语境下的逻辑推理能，支持多轮对话、内容创作（含文学创作、文本摘要、角色扮演等）、逻辑推理、知识增强等能力，在文档场景、会议场景、广告场景、营销场景中均可以服务大众，例如可以通过多模态的生成能力，支持营销内容创作，提升效率等。

腾讯混元大模型API已经对外开放，可以通过腾讯云平台开通服务（有免费试用机会）。

商汤--日日新

日日新的名字，来源于《礼记·大学》中的“苟日新、日日新、又日新”，寓意着模型的快速迭代和不断更新，以适应不断变化的技术和应用需求。经过多个版本的迭代，日日新大模型现阶段支持知识覆盖、推理能力、长文本理解、数字推理能力和代码生成能力等，支持跨模态交互。目前已在金融、医疗、汽车、地产、能源、传媒、工业制造等多个垂直行业与超过500家客户建立合作，加速行业智能化转型。

此外，商汤科技还推出了“办公小浣熊”——一款无需编程或复杂操作即可使用的数据分析工具，结合大模型的意图识别、逻辑理解、代码生成能力，可自动将数据转化为有意义的分析结果和可视化图表，特别适合中国数据分析需求。

阿里--通义千问

通义千问由阿里达摩院研发，开源了18亿、70亿、140亿、720亿参数的4款大语言模型，以及视觉理解、音频理解两款多模态大模型。截至目前，已有多个企业和研究机构进行了应用创新，像“浙江有鹿机器人科技有限公司” 的路面清洁机器人、“华东理工大学X-D Lab团队”的心理健康大模型MindChat，均通过开源模型进行了应用创新。

通过开源的方式，会有更多从业机构、个人加入到大模型产业中，通过通义千问的官网即可下载模型、获取API接口等，以更好地利用这一工具。

月之暗面--KIMI

月之暗面于2023年10月推出的Kimi是当时全球首个支持输入20万汉字的智能助手产品，它可以快速的阅览长篇文章，并总结其中的重点内容，也可以翻译长篇论文，多语言对话、文件解析、网页内容解析等属于其核心能力，尤其支持多文件同时提取关键信息的能力，极度友好于城市白领的日常工作。Kimi可以阅读和理解用户上传的多种格式文件，如TXT、PDF、Word文档、PPT幻灯片和Excel电子表格等，并根据文件内容提供相关的回答和信息，这可以很好的提升城市白领工作效率。

除此之外，各类应用市场、应用商店中也可以下载到很多垂直领域的、专用大模型，例如：DeepSeek Coder作为一个专注于编码的大模型，能够根据用户的需求，生成各种编程语言的代码，包括游戏、应用程序等；CodeFormer大模型可以对年代久远的模糊照片或马赛克人脸的图片进行修复；boardmix可以一键生成思维导图；Gramma AI可以生成文本大纲、PPT等等，众多大模型在多个方面支持我们的日常需求。

三

模型未来挑战

与其他技术一样，大模型在发展中也遇到了很多难题。数据的信息安全就是其中一大难点，2023年10月国家数据局正式成立，昭示着数据要素市场化已经成为国民经济发展的重要抓手，这就更加要求大模型的发展要注重“数据安全、隐私保护”等实际问题。

与传统的端到端模型不同，大模型“预训练—指令微调”的训练范式，先是在大量的未标注数据上进行预训练，然后在下游任务的标注数据上进行微调得到垂直领域模型。这一系列过程中往往涉及敏感和私密的信息，如ChatGPT被纽约时报起诉、Midjourney被画家凯利·麦柯南起诉等近期一系列的诉讼官司，要求赔付额度甚至超过10亿美金，均因数据问题。如何防止数据被滥用，成为了模型训练过程中一项重要的任务，业界已经有企业开始使用“自造数据”来训练大模型，以规避可能的数据风险。

除了信息安全，训练成本也是一大难题。大模型的训练因为需要使用高端硬件服务器（通常为搭载了CUDA的英伟达GPU服务器），加上满负荷运转时的高昂电费、以及模型训练时不算高的利用率（可能低至20%~30%），1.8万亿参数的GPT-4成本超过了1亿美元，这对于中小企业，甚至大企业来说，都很难负担，使得大模型在实际应用中的推广和普及也受到了很大的限制，因此，大模型底座、开发工具链等底层生态的建设，也成为了很多有志在大模型产业中争夺高位的企业的选择。

结束语

大模型已经成为了现代人工智能技术的重要组成部分。随着技术的不断进步和数据的日益丰富，大模型在各个领域的应用也愈发广泛和深入。展望未来，随着大模型技术的持续发展和优化，我们有理由相信，它们将在更多领域发挥更大的作用，推动整个社会的智能化进程不断加速。同时，我们也期待更多的研究者和从业者能够加入到这一领域中来，共同推动大模型技术的创新和发展，为人类社会的进步贡献更多的智慧和力量。

本文专业名词注解：

LLM：（Large Language Model，大模型）参数数量庞大、训练数据集巨大、计算资源需求高的大型深度学习模型。

Prompt：被用作与AI模型进行对话或生成回答的起点。它可以是一段文字，一个问答对，一个问题，一个命令，或者任何其它形式的输入，用于引导模型以特定方式回答或生成输出。

END

从零开始的认知，人工智能大模型原理及应用简析第2张