主管QQ:站内信联系

AI投资策略:算力需求确定数据价值重构应用井喷2023-05-28 14:12

  OpenAI 是目前全球估值最高的 AI 初创公司,22 年拥有 375 名员工,根据路透社报道,OpenAI 在 2022 年收入数千万美元,并预计 2023、2024 年收入为 2 亿、10 亿美元。OpenAI 成立于 2015 年 12 月,其研究方向 大致聚焦在三个领域:强化学习领域、自然语言处理领域、多模态模型领域。截止 2022 年,OpenAI 拥有大约 375 名员工,主要面向以下三个方面:Capabilities,不断的提高 AI 的功能和能力;Safety,确保这些 AI 系统拥 有和人类一致的价值观念;Policy,确保这些 AI 系统能够得到适当的治理。截止 2023 年 4 月 29 日,OpenAI 历史融资额超 200 亿美元,当前估值为 290 亿美元,是全球估值最高的 AI 初创公司。OpenAI 的主要盈利模式 包括:会员订阅费、API 许可费、与微软合作带来的商业收入。

  从时间维度上看,OpenAI 的研究方向大致聚焦在三个领域:强化学习领域、自然语言处理领域、多模态 领域。在强化学习领域,OpenAI 采用通用的强化学习策略来帮助 AI 应对灵活多变的困难问题;在自然语言处 理领域,OpenAI 开辟自回归建模路径,大语言模型无需在特定领域微调也有出色的任务表现;在多模态模型领 域,OpenAI 围绕 Transformer 主架构不断增强多模态能力。OpenAI 的研究方向始终关注问题的通用性解决方 案,而不是聚焦在特定问题之上,与其通用人工智能的研究目标契合。

  OpenAI 开辟自回归建模路径。用于翻译任务的 Transformer 模型是自然语言处理领域的基础模型,基于 Transformer 模型衍生出三条路径,分别为 BERT、T5、GPT 路径。BERT 采用掩码建模策略,利用双向文本信 息学习语言信息,在文本理解、情感分析方面具备一定优势;GPT 采用自回归的建模策略,通过对上文文本学 习预测下文,在零样本或者少样本的生成方面表现优异。

  OpenAI 是大语言模型的技术先驱。OpenAI 基于 Transformer 模型开辟自回归建模路径,发布了 GPT 系列 模型。GPT-1 开启了自然语言预训练时代,GPT-2 证明大模型无需微调也可以完成广泛下游任务,GPT-3 证实了 无监督预训练路线的正确性,ChatGPT 引入强化学习机制增强人机对线 拥有卓越的文本处理能力, 并且初步融合多模态能力。 ChatGPT 引入强化学习机制增强人机对线 版本的基础上,通过 3 个步骤实现基于人类反 馈的强化学习微调(RLHF),得到人机对话模型 ChatGPT。RLHF 触发了大语言模型的多项能力,其中包括: 应尽翔实的回应、公正的答复、拒绝不当问题等,通过与人类答案的对齐过程,显著提升了大模型的人机对线 具备卓越的文本处理能力,初步融合多模态能力,能力再度升级。2023 年 3 月 15 日,OpenAI 发布 多模态预训练大模型 GPT-4,相较于过去的 GPT 系列模型,提升包括几个方面:

  1) 具备多模态信息处理能力,能够接受图像和文本两种模态的输入,再通过文字给出正确的文本答复。GPT-4 不仅拥有图像阅读能力,还可以从图像中提取逻辑,进行分析思考。

  2) 文本处理能力更为出色,在为机器学习设计的模型评判标准和为人类设计的专业测试中均取得良好表现。 在为机器学习模型设计的传统基准上,GPT-4 的表现大大优于了目前的最好的语言模型,以及大多数 SOTA 模型(目前最好的模型)。相较于 GPT-3.5 以及当前最好的语言模型,GPT-4 在机器学习模型学术基准数据 集上的表现实现了全面突破,在 7 项数据集中的测试均优于当前最优的语言模型。在为人类设计的各种专 业测试和学术基准数据集中,GPT-4 展现出媲美甚至优于人类的水平。GPT-3.5 模型在一些相对简单的人 类专业测试中已经展现出不错的性能,但当任务的复杂度上升后其便难以处理。而 GPT-4 模型在一些相对 困难的任务中也已经取得相当优异的性能,例如其在模拟律师考试中取得了应试者中前 10%的成绩,而 GPT-3.5 模型只有倒数 10%的成绩。GPT-4 模型在 SAT、LSAT、美国高中数学竞赛中表现均超越了人类平均水准。

  3) 模型训练结束之后进行了大量的规范性调试,提升了回答的可控性和安全性。在内部评估中,GPT-4 回答 可能生成有害内容的可能性降低了 82%,产生符合事实回复的可能性高出 40%。GPT-4 主要通过三方面增 强了回答的可控性和安全性:引入人类反馈进行训练;从实际使用中不断提升,Open AI 定期更新和改进 GPT-4;GPT-4 协助进行安全方面的研究。

  4) GPT-4 构建了用于模型性能预测的深度学习堆栈。深度学习堆栈能够在模型训练早期,在仅有 1/1000‒1/10000 训练计算量情况下外推实现 GPT-4 模型某些方面性能的准确预测,降低了模型训练过程中 的试错成本,缩短了整体训练周期。

  OpenAI的成功源于技术路线的长期坚持。在GPT-1模型发布后4个月,Google 发布了自己的语言模型BERT, 其采用编码器作为模型主体且采用双向编码结构。从性能上看,与 GPT-1 模型参数规模相当的 BERTBASE 性能 超越 GPT-1,参数量更大的 BERTLARGE 更是形成了压倒性优势,双向结构的 BERT 模型很快得到了学术界的广 泛欢迎。GPT 可能是一条难度更高、同时天花板更高的技术路径。直到 1750 亿参数量的 GPT-3 模型诞生,在 各类下游任务中无需微调便可取得良好成绩,越来越多的企业和研究机构才开始转向 GPT 技术路线,BERT 路 线的影响力开始逐渐转弱。OpenAI 在自然语言模型方面的领先得益于公司对于其技术路径的长期坚持,即使早 期并未得到学术界的广泛认可。

  在上一轮深度学习的 AI 革命中,AI 逐步达到了与人类媲美,甚至超越人类(部分场景)的水平,逐步走 入大众视野,而 Google 和 Deepmind 是其中的的引领者。由 Google 和 Deepmind 提出的 Word2Vec、AlphaGo 等模型以及 sequence to sequence、深度强化学习等技术是上一轮 AI 革命乃至这一轮 AI 浪潮的开创性、奠基性 工作,推动着 AI 技术的成熟与发展。在这一轮预训练大模型的 AI 浪潮中,AI 展现出在更多具体场景中强大的 应用性能,逐步从学术研究走向商业化落地,Google 和 Deepmind 也面临着了更多竞争者的挑战。Google 提出 的 Transformer 模型是这一轮预训练大模型的技术基础,其强大能力推动了各个 AI 细分领域的快速发展。在后 续基于Transformer研究与应用中,OpenAI率先布局的Decoder-only成为更主流的路线,同时包括Meta和Amazon 也先后推出自己的大模型,Google 面临着更多强劲竞争者的挑战。

  在 NLP 方面,Google 提出 Transformer,引领 AI 领域变革。Google 于 2017 年推出 Transformer,其基于 Encoder-Decoder 的核心架构,最早在翻译任务上取得了良好性能。但其对 AI 领域的影响远远超过了翻译乃至 NLP 的细分领域中,其将残差网络和注意力机制结合的模型结构应用成为了近年来人工智能领域应用最为广泛 的基础模型结构,引领了包括 NLP、CV 等多个细分领域的变革。 从 Encoder-Decoder 到 Decoder Only,Google 在日益激烈的竞争中逐步调整发展方向。在 Transformer 的 基础上,Google 先是在 2018 年基于 Encoder 架构推出了 Bert,打造了广泛下游任务中的最优性能,而后在 2019 年推出了性能更强、下游应用更广泛的 T5。但随着 Decoder-only 的 GPT-3 展现出强大的性能,Google 也逐步探 索并推出了一系列的 Decoder-only 的模型,如 FLAN、LaMDA、PaLM 等。

  在 CV 领域,Google 通过 ViT 将 Transformer 引入 CV 领域。尽管 Transformer 网络结构在 NLP 领域展现 出了强大的性能和能力,但在 ViT 之前,其在 CV 领域中的效果仍远不如 CNN 网络结构。Google 在 2021 年推 出了 ViT,其通过将图片划分为不同的部分的方式构建出了类似于文本的序列输入和词向量,进而可以通过 Transformer 结构对图像特征进行提取和分析。最终在大规模的训练数据集中展现出相较于 CNN 结构的模型更 加强大的性能。其提出标志着 Transformer 模型在 CV 领域的应用落地。 近年来,Google 进一步探索在 CV 领域中预训练大模型的能力边界。2021 年的研究中,其中最大版本的 ViT 模型(ViT-Huge)参数量为 6.32 亿。2023 年 4 月,谷歌在模型架构方面进行了升级,推出了 ViT 的 220 亿 参数量的版本(ViT(22B))。和 GPT-2 到 GPT-3 的变化趋势相似,其具备了强大的 Zero-shot 图像分类泛化能 力(如下图所示,在两个下游任务中都比小参数模型更强大)。同时引入了人类反馈来使模型的能力与人类的目 标相对齐,并且成功将模型公平性和稳健型控制在了一个合理的范围。

  在技术发展方面,Google 在 AI 方面的布局完善程度是各家科技巨头中最高的。核心环节如人工智能芯片 的自研,一方面可以与算法模型的研发相互配合实现协同发展,另一方面将有效避免 AI 竞争加剧后的算力供应 风险。同时,随着 Google Brain 和 DeepMind 的合并,两大世界级 AI 团队将共同探索 AI 技术的上限。在商业 化应用方面,Google 具有庞大、稳定且成熟的应用生态,包括有 Google 搜索、Chrome 浏览器、安卓、YouTube 等互联网时代重要的流量入口,将赋能 AI 发展与应用落地。一方面,这将给谷歌的 AI 发展提供海量的数据, 加速相关 AI 技术的成熟和商业化落地,另一方面,谷歌成熟的 AI 技术也可以为谷歌生态中的不同环节深度赋 能,增强谷歌整体业务的竞争力,例如将 AIGC 技术引入到谷歌的广告业务中帮助营销人员制造广告材料,以 及 Workspace、Google Docs 和 Gmail 等应用中。 展望谷歌在这一轮 AI 浪潮中的发展,我们认为谷歌依旧是下一轮人工智能变革中不可忽视的科技巨头, 相关进展值得密切关注。

  SAM:2023 年 4 月 5 日,Meta 发布 SAM 模型(Segment Anything Model),是 CV 图像分割领域的基础模 型。SAM 由一个图像编码器、一个提示编码器和一个掩码解码器组成,具有以下特点:1)使用提示工程进行 任务学习,交互式点击、选择框甚至文本操作进行物体分割;2)具有模糊感知功能,面对分割对象存在歧义时, 可以输出多个有效掩码;3)与 ChatGPT 类似,SAM 巧妙的将人工标注与大数据结合(数据引擎),最终实现 了“分割一切”的功能。SAM 在边缘检测、object proposal generation、实体分割、text to mask 等下游场景表 现依旧出众,虽然某些领域下不如最优模型的表现,但其良好的 zero-shot 泛化能力依旧证明该模型性能的强悍。

  DINOv2:DINOv2 是 Meta 在 2023 年 4 月 17 日发布的第一种使用自监督学习来训练计算机视觉模型方法。 使用 DINOv2 方法的模型,可在任何图像集上进行训练,在提供强大的性能的同时,不需要对模型进行微调, 适合用作许多不同计算机视觉任务的骨干。由于自监督特征学习和轻量化特定任务执行模块的加入,DINOv2 在深度估计方面的表现明显优于其他算法。测试结果显示,DINOv2 对分类、分割和图像检索等任务的非常强 大的预测能力。同时,该模型在图像网络分类、视频分类、目标识别、密集识别任务等场景下,较其他模型表 现更加优秀。

  百度自然语言技术积淀深厚,形成知识图谱的核心技术竞争力。从 2010 年的百度搜索开始,百度成立了自 然语言部门,初步研究互联网机器翻译技术,2013 年推出百度语音助手,2014 年推出智能搜索小度机器人,2017 年推出智能客服。长期的布局和发展中百度构建了完整的语言与知识技术布局,包括知识图谱、语言理解与生 成技术,以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的应用系 统。

  2023 年 3 月 16 日,百度发布了生成式人工智能大模型“文心一言”。作为文心大模型家族的新成员,文心 一言在文心知识增强大模型 ERNIE 及对话大模型 PLATO 的基础上研发。文心一言包含六大核心技术模块,包 括:1)有监督精调;2)基于人类反馈的强化学习;3)提示;4)知识增强;5)检索增强;6)对话增强,前 三类技术在目前流行的对话大模型如 ChatGPT 中都有所应用,而后三类技术则是百度基于自身技术积累的再创 新,它们共同构成了模型的技术基础。

  文心一言模型具备文学创作、商业文案创作、数理逻辑推算、多模态生成等多方面的能力。在文学创作方 面,文心一言可以总结出小说《三体》的内容,也可以从哲学角度对《三体》进行续写;在商业文案创作方面, 文心一言可以根据公司业务类型为公司取名,生成 slogan 或撰写几百字的新闻稿;在数理逻辑推算方面,文心 一言可以完成鸡兔同笼问题的计算;在多模态生成方面,基于文心大模型的通用且可控的文生图系统,文心一 言具备图片生成的能力,同时具备语音生成、视频生成能力。从百度承认文心一言的存在到发布会当天,已有 超过 650 家合作伙伴宣布加入文心一言生态,商业化落地前景广阔。

  百度 AI 产业打造全栈式布局,构建完整产业生态和独有技术优势。百度是目前全球少有的在“芯片-框架模型-应用”四个层面上均有所布局的人工智能公司,芯片层有高端芯片昆仑芯,框架层有飞桨深度学习框架, 模型层有文心预训练大模型,应用层有百度智能云、百度自动驾驶、小度智能语音助手等应用。百度 AI 全栈布 局的优势在于,可以在技术栈的四层架构中实现端到端优化,大幅提升效率。尤其是框架层和模型层之间,有 很强的协同作用,可以帮助构建更高效的模型,并显著降低成本。例如,为了支持海量参数模型的高效分布式 训练,百度飞桨专门研发了 4D 混合并行技术。后续“芯片-框架-模型-应用”四个层面将形成高效的闭环反馈, 推动百度人工智能持续迭代升级。

  华为在大模型研发领域积累深厚,有望快速实现商业化。华为盘古大模型发展,其基础大模型、行业大模 型、细分场景模型已经在不同领域率先取得成功。

  华为云团队于 2020 年立项 AI 大模型,并且于 2021 年 4 月发布“盘古大模型”。自“盘古大模型”发 布以来,已经发展出 L0、L1、L2 三大阶段的成熟体系持续进化。所谓 L0 是指 NLP 大模型、CV 大模型等五大 水平领域的基础大模型;而 L1 指行业大模型,比如气象、矿山、电力等行;L2 指面向各行业中细分场景的模 型,比如电力行业的无人机巡检。

  基础大模型研发与迭代能力强劲,持续创新推动大模型发展。NLP 大模型方面,作为一个拥有万亿参数的 语言模型,2023 年 3 月发布的盘古-Σ 大模型是一个具有稀疏架构的大型语言模型,包含 1.085 万亿个参数,模 型训练方面,该模型的训练基于分布式 Ascend 910AI 计算芯片和 MindSpore 代码框架,训练数据量达 3290 亿 token。其实现 NLP 在多个领域和下游任务的 SOTA 水平。在效率方面,其是在适度的算力集群上训练具有最强 系统性能的万亿参数模型。在可用性方面,其可扩展到各种领域或任务,无需从头开始重新训练模型。在模型 部署中,其可在各种具体应用场景中轻松定制和部署。 在 CV 领域,盘古 CV 大模型拥有 30 亿参数,能同时满足底层图像处理与高层语义的理解需求。在多模态 领域,华为发布 FILIP,其通过更细粒度的信息学习提升多模态 Transformer 的能力。此外,华为开源首个亿级 中文多模态数据集-悟空,填补中文社区数据空白。

  多行业、多场景成功验证模型能力。盘古预训练大模型能力已经在包括能源、零售、金融、工业等领域得 到验证。例如,在电力领域,华为云团队在盘古 CV 大模型的基础上,利用海量无标注电力数据进行预训练, 并结合少量标注样本微调的高效开发模式,提出了针对电力行业的预训练模型,巧妙地解决了数据标注的问题。 应用盘古大模型之后,样本筛选效率提升约 30 倍,筛选质量提升约 5 倍,以永川每天采集 5 万张高清图片为例, 可节省人工标注时间 170 人/天。在掘进场景中,基于盘古矿山大模型的掘进作业序列智能监测,动作规范识别 准确率超过 95%,用规范的 AI 流程来替代不确定的人工流程,让 AI 成为矿工规范作业的好帮手,保障井下作 业安全。在气象预测方面,盘古气象大模型在一张 V100 显卡上只需要 1.4 秒就能完成 24 小时的全球气象预报, 相比传统数值预报提速 10000 倍以上。华为药物分子大模型则生成了 1 亿个创新的类药物小分子筛选库,其结 构新颖性为 99.68%,并且可以有效地生成理化性质相似的新化合物,为发现新药创造可能性。盘古 OCR 金融 大模型则能够覆盖通用文字识别场景。

  多年来,阿里巴巴达摩院一直深耕多模态预训练,并率先探索通用统一大模型。自 2021 年起,阿里达摩院 先后发布多个版本的多模态及语言大模型,在超大模型、低碳训练技术、平台化服务、落地应用等方面实现突 破,引领了中文大模型的发展。具体来看,通义-大模型整体分为三个层次,分别为行业模型、通用模型与模型 底座。1) 模型底座层:统一学习范式与模块化设计;2)通用模型层:NLP 模型“通义–AliceMind”;CV 模 型“通义-视觉”;多模态模型“通义-M6”;AI 大模型“通义千问”。 3)行业模型层:深入电商、医疗、娱 乐、设计、金融、工业、制造业等行业。

  通义-M6 已经从 2020 年 6 月的 3 亿参数基础模型逐渐发展到 2021 年 10 月的 10 万亿参数全球最大预训练 模型再到 2022 年 1 月的业界首个通用统一大模型 M6-OFA。2020 年 1 月,阿里巴巴达摩院启动中文多模态预 训练模型 M6 项目,同年 6 月推出 3 亿参数的基础模型。2021 年 1 月,模型参数规模到达百亿,已经成为世界 上最大的中文多模态模型。2021 年 3 月,千亿参数模型发布。2021 年 5 月,具有万亿参数规模的模型正式投入 使用,追上了谷歌的发展脚步。2021 年 10 月,M6 的参数规模扩展到 10 万亿,成为当时全球最大的 AI 预训练 模型。2022 年 1 月,业界首个通用的统一大模型 M6-OFA 发布。

  通义千问大模型:在 2023 年 4 月 11 日的阿里云峰会上,阿里正式宣布推出大语言模型“通义千问”,并 开始邀请用户测试体验。“通义千问”是一个超大规模的语言模型,由阿里云智能首席技术官周靖人领衔的团 队自主研发,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等。同时,“通义千问”可 通过 API 插件实现 AI 能力的泛化,不仅可以通过实现续写小说,编写邮件和生成会议摘要等功能帮助用户提升 工作效率,还可以通过调用差旅接口推荐差旅产品,作为智能购物助手自动推荐品牌和产品提升用户购物体验。 总体来说,“通义千问”是一场“AI+云计算”的全方位竞争,超万亿参数的大模型研发,并不仅仅是算法问 题,而是囊括了底层庞大算力、网络、大数据、机器学习等诸多领域的复杂系统性工程,需要有超大规模 AI 基础设施的支撑。

  未来,阿里所有产品将接入大模型实现全面升级。2023 年 4 月 17 日,阿里巴巴集团董事会主席兼 CEO、 阿里云智能集团 CEO 张勇在云峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。 他认为,面向 AI 时代,所有产品都值得用大模型重新升级。以钉钉为例,接入通义千问后,可实现近 10 余项 新 AI 功能,举例来看:1)在钉钉文档中:可创作诗歌小说、撰写邮件、生成营销策划方案等,全面辅助办公;2)在钉钉群聊中:可以帮助自动总结未读群聊信息中的要点;3)在钉钉会议中:随时生成会议记录并自动总 结会议纪要、生成待办事项。 未来十年,阿里云将全面拥抱智能化时代。张勇表示,智能化时代带来算力的爆发,同时也提出了更高的 要求,阿里云将为 AI 时代提供好算力基础和大模型能力,全面服务智能化进程。为此,阿里云要做好核心两 件事:让算力更普惠、让 AI 更普及。

  三六零在通用人工智能大模型领域坚持“两翼齐飞”的发展战略。一方面全方位、 最大化调用公司的资源 进行自有大模型的持续迭代,另一方面发挥场景的优势迅速进行商业化落地占据用户心智。用户飞轮的高速运 转将在资金层面和数据语料层面反哺自有大模型的训练,达到“加速向前跑”的正反馈效应。 2023 年 4 月 9 日,三六零发布基于自研生成式通用大模型 360GPT 的产品矩阵“360 智脑”。360 智脑首 先落地搜索场景,并于 4 月 16 日对企业用户开放内测。从测试结果来看,360 智脑能够很好回答时效性较强的 问题。除针对 C 端用户发布新搜索引擎外,360 智脑将面向小 B 端用户提供 SaaS 服务,如结合生成式 AI 的“苏 打办公套件”和“企业即时通讯工具—推推”等。面向大 B 端用户,360 已将核心数字安全能力融入安全 AI 模 型,计划结合数字安全业务推出企业私有化 AI 服务,满足客户对私有知识、资产的索引需求。

  三六零在数据积累、用户流量和商业化场景、技术和工程化等多领域具有优势。360 搜索是中国搜索引擎 的 Top2,市场份额约为 35%,日均搜索点击量超过 10 亿次,具有国内领先的数据抓取经验和完整的数据优化 体系。作为优质的预训练数据集,360 百科和 360 问答积累了近 2000 万词条和逾 6 亿问答对数据。在技术方面, 360 的人工智能研究院从 2019 年开始一直在包括通用大模型在内的人工智能技术上有持续性的投入,相关技术 应用已有效提升公司内部生产效率。在安全领域,随着通用人工智能大模型的广泛应用,其相关产品研发和使 用的安全风险持续上升,未来必将对内容安全、数据安全甚至国家安全产生深远影响。公司作为国内互联网安 全领域龙头已有多年积累,在 AI 安全领域具有强大的先天优势。

  2023 年 4 月 10 日,商汤 SenseTime 举办技术交流日活动,分享了以“大模型+大算力”推进 AGI(通用人 工智能)发展的战略布局,并公布了商汤在该战略下的“日日新 SenseNova”大模型体系,推出自然语言处理、 内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。依托自研千亿级参数自然语言模型,商汤 科技发布了中文语言大模型应用平台“商量 SenseChat”。除此之外,还有文生图大模型平台“秒画 SenseMirage”、 数字人视频生成平台“如影 SenseAvatar”,大模型的数据标注平台“明眸”,以及针对空间场景和小物体的 3D 内容生成平台“琼宇 SenseSpace”和“格物 SenseThings”。

  “秒画 SenseMirage”包含商汤自研 AIGC 大模型和便捷的 LoRA 训练能力,并提供第三方社区开源模型加 速推理的创作平台,为创作者提供更加便利、完善的内容生产创作工具。秒画“SenseMirage”不仅融合了超 10 亿参数的商汤自研文生图生成模型,支持针对非自研模型的推理加速优化,结合自研模型及训练能力,免除了 本地化部署流程,并基于自训练 LoRA 模型,高效地生成更多样的内容。 如影是商汤科技推出的以数字人物生成技术为核心,基于商汤多种 AI 生成能力打造的应用平台。包括文 本生成、语音生成、动作生成、图片生成、NeRF 等。用户上传一段真人视频素材,就可以生成声音及动作自然、 口型准确、多语种精通的数字人。如影可以让用户摆脱专业拍摄设备的束缚,快速打造各种视频创作;在直 播带货场景,打造独属的直播间和百变虚拟主播。

  商汤科技打造了 AI 基础设施、AI 开发平台、AI 专家服务三位一体的解决方案。商汤在大模型领域积淀深 厚,打造了 AI 基础设施、AI 开发平台、AI 专家服务三位一体解决方案。AI 基础设施以商汤人工智能计算中心 (AIDC)为基础,其中包含 27000 块 GPU 计算芯片,总算力达 5000p,其中国产算力达 500p,AIDC 支持大规 模弹性云原生多级异构调度,最大单任务 3200 卡训练,为大模型的训练和推理提供了充足的算力支撑;AI 开 发平台提供数据、推理、训练全栈式工具,实现大模型微调、自动化模型部署、一键推理服务,加速大模型研 发;AI 专家服务依托过去积累的模型开发和训练经验,为客户提供大模型算法的开发、优化服务。

  NLP 算法演进主要经历了基于规则的方法、基于统计的方法和基于神经网络的方法三个阶段。在 1950 年 到 1980 年间,主要是基于规则的方法,即模型基于语言学家制定的规则完成相关任务。其优点在于,规则可以 自由设计,灵活性强;不存在对于训练数据的依赖,但也存在着研究强度大,泛化能力差;实践性差,无法从 训练数据中学习和迭代等缺点。而后在 1980 年到 2000 年间,基于统计的方法逐渐兴起,其核心逻辑在于将语 言问题转化为概率问题进行模型构建,也因此具有数据驱动和更强的模型泛化能力的优势,但当时的统计计算 规则较为简单,缺乏对于语言知识的考虑,因而模型的可解释性较差,同时也会受到训练数据集较大的影响。

  对词向量的关注,让 NLP 领域的神经网络训练的训练目标变得明确,为后续模型的发展奠定了基础。词向 量(word embedding)在早期的神经网络语言模型中便已经出现,但一直没有受到重视和关注,直到 word2vec 模型开始真正重视起来。其重要意义在于 1)通过数学方法表征了语义信息(例如:通过余弦相似度计算单词 相关性);2)相较于过去的方法(独热编码)其表征词汇的矩阵大小被有效控制。但早起词向量也存在着一定 的缺陷,如缺少对于上下文文本的分析,导致一词多义问题成为当时限制模型语言分析能力的一大障碍。

  注意力机制的提出进一步增强了语义关联的挖掘,并赋予了模型并行计算的能力。注意力机制的核心目标 是从文本中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略不重要的信息,进而实现效率和效果 都更优秀的训练,其实现方式可以理解为单独计算目标单词和全文所有单词的“重要性”,进而帮助理解单词和 句子在语境中的含义。这一技术具有三方面的重要意义:1)解决了“信息过长,信息丢失”问题,任意位置词 向量可关联计算,一次性获得局部和全局信息的关联。2)每个单词词向量的计算不依赖于前个单词词向量,可 实现并行计算。3)赋予了词向量新的内涵,提供了一些可解释性(句法层面的特征),如句子结构中主语和谓 语之间的关系。

  Google 将残差块和注意力机制相结合,推出了 Transformer 模型,奠定大语言模型的基础。Transformer 模型最早针对翻译任务提出,其处理过程为输入文本通过 encoder 编码,经过多层注意力增强机制提取特征后, 学习并理解语句含义转为词向量,再由 Decoder 解码,基于前文词向量生成文本,完成翻译任务。Decoder 和 Encoder 的不同之处在于:使用多头掩码注意力机制,在训练过程中将输入文本当前词以后的单词掩码后(masked) 进行训练。因为其只根据上文信息进行理解的训练过程,与文本生成过程中由前往后逐词生成的流程一致,因 此 Decoder 拥有更强的文本生成能力。

  BERT 和 GPT 系列模型都是建立在 Transformer 的基础上发展而来的,展现出强大性能的语言模型,但 BERT&GPT 分别采取了不同的策略。GPT 选择了 Decoder-only 的架构,这让其具有良好的自然语言生成能力, 然而当前词的语义只能由其前序词决定,这一定程度上牺牲了语义理解能力,换取了更强的生成能力。而 BERT 基于 Transformer 的 Decoder-Encoder 架构。并使用了与其配套的掩码训练方法。虽使用双向编码让 BERT 文本 生成能力被削弱,但是 BERT 的语义信息提取能力更强。

  1959 年,两位神经生理学家 David Hubel 和 Torsten Wiesel 发表了计算机视觉领域最有影响力的论文之一。 研究人员通过他们的实验确定,初级视觉皮层中存在简单和复杂的神经元,并且视觉处理总是从简单的结构开 始,例如定向边缘。这本质上是深度学习背后的核心原则。1959 年,Russell Kirsch 等人开发了一种设备,可以 将图像转换为数字网格——二进制机器语言,以便于理解和处理。劳伦斯·罗伯茨 (Lawrence Roberts)于 1963 年 发表的“三维立体的机器感知”,被广泛认为是现代计算机视觉的先驱之一。

  1989 年,Yann LeCun将反向传播风格的学习算法应用于卷积神经网络架构。在这个项目上工作了几年后, LeCun 发布了 LeNet-5,他还创建了 MNIST 手写数字数据集——机器学习中最著名的基准数据集。

  1997 年,一位名叫 Jitendra Malik 的伯克利教授发表了一篇论文,描述了他在解决感知分组问题上的尝试。 研究人员试图让机器使用图论算法将图像分割成可感知的部分(自动确定图像上的哪些像素属于一起,并将物 体与其周围环境区分开来)。1999 年左右,许多研究人员不再尝试通过创建对象的 3D 模型(David Marr 提出的 路径)来重建对象,而是转向基于特征的对象识别。David Lowe “从局部尺度不变特征进行对象识别” 描述了一 种视觉识别系统,该系统使用对旋转、位置和部分光照变化不变的局部特征。2001 年,Paul Viola 和 Michael Jones 推出了第一个实时人脸检测框架。虽然不是基于深度学习,但该算法仍然具有深度学习的多种特性,因为在处 理图像时,它学习了哪些特征,可以帮助定位人脸。

  2009 年,李飞飞在 CVPR2009 上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的 论文,发布了 ImageNet 数据集,这是为了检测计算机视觉能否识别自然万物,回归机器学习,克服过拟合问题, 经过三年多在筹划组建完成的一个大的数据集。从 10 年-17 年,基于 ImageNet 数据集共进行了 7 届 ImageNet 挑战赛,李飞飞说ImageNet 改变了 AI 领域人们对数据集的认识,人们真正开始意识到它在研究中的地位,就 像算法一样重要。ImageNet 是计算机视觉发展的重要推动者,和深度学习热潮的关键推动者,将目标检测算法 推向了新的高度。

  2012 年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 等人将卷积神经网络模型 (AlexNet) 投入竞赛, 该模型的架构类似于 Yann LeCun 的 LeNet-5,错误率为 16.4%,这是 CNN 的突破性时刻。 2014 年,蒙特利尔大学提出生成对抗网络(GAN):拥有两个相互竞争的神经网络可以使机器学习得更快。 一个网络尝试模仿真实数据生成假的数据,而另一个网络则试图将假数据区分出来。随着时间的推移,两个网 络都会得到训练,生成对抗网络(GAN)被认为是计算机视觉领域的重大突破。2015 年发布的 ResNet,解决了 梯度消失或者梯度爆炸等问题,引领了又一轮深度学习浪潮。

  2020 年,谷歌发布 Vision Transformer (ViT),将 Transformer 从 NLP 领域迁移到 CV 领域。Swin Transformer 是微软于 2021 年发布,Swin Transformer 网络是 Transformer 模型在视觉领域的又一次碰撞。该论文一经发表就 已在多项视觉任务中霸榜。 2023 年,Meta 发布 SAM,成为 CV 图像分割领域的基础模型,引起产学界较大反响。SAM 使用提示工程 进行任务学习,能够通过交互式点击等操作实现图像物体的分割,并且具有模糊感知能力,很好解决了分割过 程中产生的歧义问题,该模型在下游任务的零样本学习表现上成绩优秀。

  模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进 行描述。生活中常见多模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深 度信息等。使用多模态数据能够使得事物呈现更加立体、全面,多模态研究成为当前研究重要方面,在情感分 析、机器翻译、自然语言处理和生物医药前沿方向取得重大突破。

  在技术层面,ViT 打通了 Transformer 与 CV 领域的壁垒,BEiT 模型将生成式预训练引入 CV 领域。 Transformer 的出现颠覆了传统深度学习模型,BERT 等证明了 Transformer 在 NLP 领域的优秀表现。然而传统 的 Transformer 模型只适用于单模态文本,ViT 模型将 patch embedding 引入 Transformer,打通了 Transformer 与 CV 领域的壁垒。以 ViT 为基础的多模态模型如雨后春笋般涌现,以文图多模态为主,视频领域也产生了许多基 于 ViT 的模型。生成式预训练被证明在自然语言处理领域有着广泛的应用,BEiT 模型将生成式预训练引入 CV 领域,实现了 CV 领域大规模自监督预训练。

  图文多模态是多模态模型中目前重要方向。图文多模态任务是目前视觉语言预训练模型(VLP)中最重要 的任务之一。图文任务包括图文检测、图文分类、图文分割等。根据 Paper with code 网站上 VLP 领域中模型相 关论文数量来看,ALIGN 和 CLIP 模型相关论文数量最多,均超过 500 篇,这两个模型均是以图像-文本为对象 展开的研究。其中 ALIGN 是谷歌于 2021 年 6 月提出的,CLIP 是 OpenAI 于 2021 年 2 月提出的。

  多模态预训练大模型核心要素包括:对图文编码、设置学习目标、模型结构、模态融合等。多模态预训练 模型首先要将图文进行编码,文字端有成熟的 BERT 等模型进行处理,图像特征基于 Patch 提取更加高效。学 习目标是多模态预训练大模型重要一环,包括图文对比、编码语言模型、图文匹配等,模型可以使用不同的学 习目标产生不同学习效果。多模态预训练大模型结果主要分为 encoder-only 和 encoder-decoder,常见的是 encoder-only 模型,用于图文检索等任务,而后者适用于生成任务。根据模态融合方式不同,又可以分为 fusion encoder 和 dual encoder 模型,前者通过混合方式对模态进行处理,能够学习到不同模态之间的隐藏的知识,适 合推理,后者分别对模态进行处理,适合检索等任务。

  大模型,又称为基础模型或者大规模预训练模型,是“大算力+强算法”结合的产物,大模型是人工智能 发展的趋势和未来。大模型的一般训练过程:数据获取-数据清洗-大模型训练-下游适配-终端应用。站在当前时 点来看,大模型一般具备如下特征:1)参数量(十亿量级)和训练数据量(GB 以上)巨大,一般采用 transformer 架构;2)采用预训练模式,在通用数据集上进行预训练,而不是直接在特定数据集进行特定任务的训练;3) 具备迁移学习能力,迁移学习的思想是将从一项任务中学到的“知识”应用到另一项任务中,在 Zero/One-shot 中具有较好的表现,即训练样本很少或者没有的情况下,仍有较好性能。4)模型的训练过程依赖云端设备,无 法在离线个人终端上实现。

  模型参数量对大模型的性能有重要影响,大模型的性能往往随着模型参数量的增加而上升,多数是可以预 见的,模型性能通常是依靠知识和简单的文本操作来提高。大模型还存在一种不可预见现象,被称为大模型的 突现能力(emergent abilities or breakthroughness),指在特定任务中,伴随着模型参数量的增加,会发生一些不 存在于小模型的现象,这种现象不能简单通过推断小模型的性能改进进行预测,约有 5%的大模型任务会出现大 模型的突现能力。在一定程度上堆叠更多的网络层数,提升模型复杂度,有利于提升模型效果。例如,GPT-1 为 12 层网络,GPT-2 将 Transformer 堆叠的层数增加到 48 层,GPT-3 则为 96 层。此外,增加模型中词向量长 度,放大每层网络中的构件大小等均能提升模型效果。

  对于大型语言模型而言,数据质量可能更为重要。数据质量包括数据准确度、信息含量以及数据类型的多 样性等。多年前谷歌提出的 T5 预训练模型,使用其专门构造的 C4 数据集(Colossal Clean Crawled Corpus),该 数据集是从 Common Crawl 网站上抓取数百个千兆字节干净的英文文本,从而使得模型训练后,性能有较好的 表现。除了构造高质量、干净的数据集外,对不同质量的数据在训练中赋以不同的训练占比也是提升训练效果 的方法。例如,GPT-3 中数据集包括 Common Crawl 在内的五类数据,但该模型并非根据数据量大小赋予同比 例权重,而是将质量较高的维基百科数据在训练集中给予更大的单数据量占比。阿伯丁大学等相关学者(资料 来源 2)对训练数据集进行了估算,结论到 2026 年左右,高质量的 NLP 数据将会用光,低质量 NLP 数据会在 2030 到 2050 年用光,而低质量图像数据会在 2030 到 2060 年用光。

  大模型在进行预测之前需要进行预训练,如果预训练任务越有难度,则预训练模型则越能高效率学习知识, 则最终模型能有更好的性能表现。以 BERT 为例,BERT 有两个预训练任务,分别是单词级的 MASK 语言模型 和句子级的下一句预测 NSP 模型。MASK 模型随机选取一部分单词进行屏蔽,要求模型对屏蔽词作出预测。 MASK 任务中,相较于简单屏蔽一个独立的单词,通过屏蔽连续的单词片段,对模型要求更高,训练效果也最 好。NSP 的主要目的是判断两个句子之间的连贯性,正例由两个连续句子构成,负例的两个句子顺序则是随机 的,不具备上下文关系,NSP 将连贯性预测和主题预测进行了合并,只需要模型预测句子是否主题相似即可, 任务比较简单。

  并行计算、显存优化与模型稀疏性设计是提升大模型训练效率的三种技术。1)并行计算:通过使用多张显 卡训练模型,将任务进行拆解,分配给不同的处理器进行处理,可以提高模型的训练效率。根据不同维度,分 为数据并行、流水线并行、张量并行三种。数据并行是将相同模型权重复制到多个设备,并将一部分数据分配 给每个设备同时处理;流水线并行是一种通过将模型并行与数据流水线相结合来加速神经网络训练的方法,核 心思想在于模型按层分割成若干块,每块都交给一个设备;张量并行是将一个张量沿特定维度分成若干部分在 不同的设备上分别计算。2)显存优化技术:能够降低显存占用,提高 GPU 利用率,与并行计算相结合,节约 模型训练的成本,实现在单 GPU 上训练大模型,包括激活检查点(Activation Checkpointing)、混合精度训练(Mix Precision Training )以及零冗余优化器(Zero Redundancy Optimizer)。3)模型稀疏性:是指模型具有非常大的 容量,但只有模型的用于给定的任务、样本或标记的某些部分被激活。模型稀疏设计的优点在于输入不会激活 整个模型,通过子模型处理不同类的任务,同时共享一部分模型。子模型扩大了模型的容量,但是实际计算成 本不会发生明显变化。

  随着大语言模型能力不断升级,生成式 AI 带来个人生产力革命,大语言模型爆发出巨大的应用潜力,模 型参数持续提升带来更高的模型训练算力需求,大模型的商业化落地催生了更大的推理算力和通信能力需求, 与此同时,国内外涌现出诸多大模型的新兴玩家,大模型赛道进入到炙手可热、激烈竞争的发展阶段,我们认 为,算力芯片的投资机会确定性相对较高。

  自然语言大模型参数巨量化是行业发展趋势所向。以 ChatGPT 为代表的人工智能模型表现出高度的智能化 和拟人化,背后的因素在于自然语言大模型表现出来的涌现能力和泛化能力,模型参数到达千亿量级后,可能 呈现性能的跨越式提升,称之为涌现能力;在零样本或者少样品学习情景下,模型仍表现较强的迁移学习能力, 称之为泛化能力。两种能力都与模型参数量密切相关,人工智能模型参数巨量化是重要的行业发展趋势。 预训练自然语言模型进入千亿参数时代,模型训练算力迈上新台阶。自 GPT-3 模型之后,大规模的自然语 言模型进入了千亿参数时代,2021 年之后涌现出诸多千亿规模的自然语言模型,模型的训练算力显著增加。 GPT-3 模型参数量为 1750 亿,训练算力需求为 3.14*1023flops,当前各种预训练语言模型还在快速的更新迭代, 不断刷新自然语言处理任务的表现记录,单一模型的训练算力需求也不断突破新高。

  模型的运行成本与模型参数量、用户调用次数有关: 1) 750 字(1k token=750 字)文字生成的算力需求(以 FLOPs 为指标)约为 2N,其中 N 为模型参数数量, 生成 750 字消耗算力 350 TFLOPs。 2) 根据 Similarweb 数据,近期 ChatGPT 官网吸引的每日访客数量接近 5000 万。每小时平均访问人数约 210 万人,假定高峰时期同时在线 万人,一小时内每人问 8 个问题,每个问题回答 200 字。 3) 用户高峰时期的每小时算力需求: 4500000*350*8*200/750=3.36*109 TFlops,考虑模型的有效算力利用率为 21.3%,需要 1750 台 A100 服务器(14000 块英伟达 A100 芯片)支撑,1750 台服务器在云上月租金 2530 万美元/每月。

  随着 AI 算力的需求提升,衍生出专注人工智能加速的 AI 服务器。在小模型时代,AI 模型的训练和推理算 力需求相对较小,依赖个人终端就可以实现。随着模型参数的逐渐提升,AI 模型开始依赖云端算力,云服务器 承载了主要的算力需求。当前,AI 算力在数据中心的占比进一步提升,衍生出了更加专业化的 AI 服务器。人 工智能服务器通常选用 CPU 与加速芯片组合来满足高算力要求,常用的加速芯片有 GPU、现场可编程门阵列 (FPGA)、专用集成电路(ASIC)、神经拟态芯片(NPU)等。GPU 凭借其强大的并行运算能力、深度学习能 力、极强的通用性和成熟的软件生态,成为数据中心加速的首选,90%左右的 AI 服务器采用 GPU 作为加速芯 片。

  英伟达凭借优异的硬件性能、不断提升的网络互联能力、CUDA 的软硬件协同、以及产品组合的全自研, 在 AI 数据中心占据领导者地位。在学术界,英伟达 GPU 作为 AI 芯片的出现频率远超其他类型芯片。根据 stateof.AI 2022 报告,英伟达芯片在 AI 学术论文中的出现频次远超其他类型的 AI 芯片,是学术界最常用的人工 智能加速芯片。

  国内 GPU 市场空间广阔,涌现出一批优秀的 GPU 设计和制造厂商,如海光信息。海光信息主营业务是研 发、设计和销售应用于服务器、工作站等计算、存储设备中的高端处理器。产品包括海光通用处理器(CPU)和海 光协处理器(DCU),海光 DCU 属于 GPGPU 的一种,海光 DCU 的构成与 CPU 类似,其结构逻辑相 CPU 简单, 但计算单元数量较多。海光 DCU 的主要功能模块包括计算单元(CU)、片上网络、高速缓存、各类接口控制器等。 兼容通用的“类 CUDA”环境以及国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大 数据处理、人工智能、商业计算等应用领域。

  SoC (System on Chip) 为系统级芯片,又称片上系统,是将微处理器、模拟 IP(Intellectual Property)核、 数字 IP 核和存储器(或片外存储控制接口)集成在一个芯片上形成的系统或产品,其中包含完整的硬件系统及 其承载的嵌入式软件,是智能设备的“大脑”。它通常是客户定制的,或是面向特定用途的标准产品。 SoC 软硬件规模庞大,通常需要基于 IP 设计模式与软硬件协同设计。SoC 在性能、功耗、尺寸等方面都有 明显的优势,同时能够降低设计和应用难度,有利于更好地完成专用目标。

  SoC 注重软硬件协同,提高设计效率:SoC 典型特征是内嵌了 CPU、DSP、RAM 等多个硬件处理核,不可 避免集成驱动、操作系统、应用程序等软件。软件一方面能提高 SoC 应用的灵活性,另一方面在满足功能需求 的前提下,可以提供一种快捷的方式,以最小的硬件成本实现系统需求。 随着 SoC 集成度的提升以及需求多样化,传统软硬件分离的设计手段无法满足,需要采用软硬件协同设计 的抽象设计与验证体系。基于 SoC 的软件包括系统芯片工作的功能软件、研制过程中的验证软件,还会涉及一 些支撑软件,如开发环境、编译工具等;SoC 硬件原型涵盖虚拟原型、设计建模、RTL 代码编写、逻辑综合实 现等内容。

  高通作为 SoC 领域龙头,推出可以运行大规模神经网络的 SoC 芯片。高通骁龙 8 Gen2 搭载专门面向 AI 计算的 Hexagon 处理器,在对 INT8、INT16、FP16 精度的支持上,新增对 INT4 精度支持,能够支持以 Transformer 为代表的超大规模神经网络运行。通过支持 INT4 精度计算,Hexagon 处理器还可以更加有效地替 代 GPU 和 CPU,在运行各种 AI 计算任务时显著降低能耗。与 INT8 相比,INT4 能够实现性能提升,显著缩小 模型占用空间,从而可以在计算/能耗资源更为有限的移动平台上,保存和运行更多/更大的预训练神经网络模型。 使得开发者和厂商在不损失精度的前提下,精简 AI 模型以降低能耗。2023 年 3 月,高通推出全新第二代骁龙 7+移动平台,与前代平台相比,第二代骁龙 7+集成的高通 AI 引擎性能提升超过 2 倍,能效提升 40%。

  GPT 凭借强大的语言理解、内容生成能力,被广泛用在包括金融、医疗、法律等各行业,赋能包括编程、 客服、学习、工作、科研等各类场景,极大提升了人们的生产力,甚至部分迭代了某些工作范式。我们认为, 大模型已在多领域具有专家能力,未来将深度赋能千行百业,改变生产生活方式。

  GPT 对语言的深度理解,可以通过分析关键词句总结归纳全文信息。Zoom 利用 GPT-4 进行会议记录处理 Zoom 正在与 OpenAI 合作开发一种新的语音翻译功能,该功能利用 GPT 技术来实现实时语音翻译。Microsoft Teams 利用 GPT 技术可以用于自动转录会议记录、提取关键信息和语音转文本等方面,使得 Teams 在语言处理 方面更加智能和高效。Be My Eyes 使用 GPT-4 改进视觉辅助功能,其使用 GPT 来实现更自然、更人性化的对话 交互,从而更好地满足视障人士的需求。

  GPT 对语言的深度理解,能够增强专业领域的文本含义分析能力。在医疗领域,DAX Express 与 OpenAI 合作,使用 OpenAI GPT 技术来改进其病历记录系统,使其能够更准确地识别医学术语、诊断和治疗方案,并 帮助医生更快地制定治疗计划。在金融领域,Morgan Stanley 正在使用 OpenAI 的 GPT 技术来帮助其分析员和 客户分析公司业绩报告,优化其财富管理知识库。使用 GPT 技术,分析员可以更快速地阅读和理解公司业绩报 告,从而更快地帮助客户做出投资决策。Bloomberg 正在使用 OpenAI 的 GPT 技术来改进其新闻报道和市场分 析。

  GPT 对语言的理解和生成、小样本学习能力能够强化机器翻译推理能力。目前 GPT-4 不但可以实现较为准 确的冰岛语翻译(之前 GPT-3 和 ChatGPT 都还无法完成)还可以创造一首来自北欧神话的古代冰岛诗,甚至是 根据冰岛当地的文化特点进行相应问题的回答,这极大地推进了对这一类小众语种的保护。

  GPT 的强大学习能力和内容生成能力能够实现更好的市场营销分析。New Bing 结合 GPT-4 的搜索引擎: Microsoft 正在使用 OpenAI 的 GPT 技术来提升搜索引擎 Bing 的搜索结果的相关性和质量,并展现实时搜索趋 势及舆情分析。 Shopify 电商平台助手:利用 GPT 技术来提高其电子商务平台上的搜索和推荐功能。通过分析顾客的搜索 历史和购买记录,GPT 可以生成更准确的推荐商品列表,并提高搜索结果的相关性。这使得顾客能够更轻松地 找到他们需要的商品,从而提高了购物体验和销售额。 Instacart 零售平台助手:利用 GPT 技术来提高其智能购物清单应用程序的功能。通过分析顾客的购物历史 和购买记录,GPT 可以生成更智能的购物清单,包括智能建议,如何购买更高品质的商品,并更好地了解顾客 的偏好。这使得顾客能够更轻松地完成购物任务,从而提高了用户体验和购物转化率。

  GPT 对于语言的深度理解能够侦测风险。 Feedzai 金融欺诈检测和预防:应用人工智能使金融欺诈调查人员能够使用链接分析图技术可视化和识别复 杂的金融犯罪模式并实时采取行动,进一步提高欺诈检测的准确性和效率,以保护企业和个人免受欺诈和金融 犯罪的侵害。 Stripe 结合 GPT-4 的支付平台: Stripe 是一个支付平台,借助 GPT4 的能力进行更好地服务客户、回答技 术问题以及识别虚假信息。通过分析 Discord 中帖子的语法,就会发现欺诈团队,以方便相关工作人员将他们清 除。

  GPT 的多模态内容生成能力助力机器内容生成。在文字生成领域,Elicit 可以论文辅助写作。Elicit 是一个 学术研究助手,其利用语言模型来让学术研究者的工作变得更加便捷和自动化。目前,Elicit 主要可以帮助研究 者完成文献综述。多层筛选精细检索,模糊词联想检索等。BuzzFeed 可以生成新闻标题与文稿: 使用 GPT 模型 生成文章标题和文稿。使 BuzzFeed 的编辑更快地创建和发布内容,并为读者提供更清晰和精简的文章摘要和标 题。可以使其快速生成更多准确和更有指向性的内容,同时减少人工编辑和创作的工作量。

  GPT 的文字理解与生成能力助力客户服务。Salesforce 使用 GPT-4 为其数字化助手 Einstein Assistant 提供助 力,例如通过 GPT-4,Einstein Assistant 可以分析用户的情感和需求,以此为客户提供针对性的问题回答。Zendesk 和 GPT 的合作主要涉及到了自然语言处理和人工智能方面的应用。Zendesk 利用 GPT 技术,构建了一个基于机 器学习的客户服务语义模型,可以更好地理解和分析客户服务请求,并根据每个客户的特定需求量身定制的高 效服务。CoCounsel 是法律人工智能公司 Casetext 旗下的人工智能法律助手,整合 GPT-4 后,其可以帮助律师 提升工作效率,更好地服务客户。

  GPT 的内容生成、多轮对话能力能够辅助教学。Duolingo 使用 GPT-4 升级伴学系统,利用 GPT 技术提供 更智能的搜索功能,以帮助学生更轻松地找到他们需要的学习资源。Khan Academy 利用 GPT 技术来改进其在 线学习平台的自然语言理解和智能助手能力,例如 GPT-4 像人类一样多轮对话的能力使得 Khan Academy 能够 向每个学生提出个性化的问题,以促使其更深入地学习。为教师提高工作效率:教师可以利用 Khanmigo 编写 课堂提示或为课程创建教学材料。

  安防行业未来将向智能化深度发展,智能安防市场规模也将持续增长,天网工程和雪亮工程等国家政策整体推动了 AI 安防的发展,越来越多的 AI(人工智能)和 CV(计算机视觉)公司开始将安防领域作为其主要发展点之 一。2021 年国内智能安防市场规模达到 644 亿,2022 年及 2023 年市场规模预计持续增长达到 811 亿、1022 亿。

  随着技术的不断进步,计算机视觉在安防领域的应用也变得越来越普遍和重要,现阶段计算机视觉在安防 领域的主要应用有: 智能监控摄像头:智能监控摄像头是最常见的安防应用之一。计算机视觉技术可以用于自动检测异常行为、 识别人脸和车牌等等,从而提高监控的准确性和效率。通过计算机视觉技术,监控系统可以自动识别特定事件 的发生,例如人员进入限制区域、车辆在禁止停车区域停放等。这些事件的发生将自动触发报警或通知保安人 员,以便及时采取行动。此外,计算机视觉还可以识别其他异常事件,例如火灾、烟雾、盗窃等,从而增强监 控系统的安全性和可靠性。

  车辆识别:车辆识别技术可以自动检测违法行为,例如在道路上检测交通违法行为,或者在停车场中识别 车辆以进行智能管理。车辆识别技术可以通过识别车牌号码或其他车辆特征来确定车辆的身份。这种技术可以 帮助保安人员自动识别违法行为,例如超速行驶、停车场空位检测、闯红灯等,从而保证道路的交通安全。

  工业机器视觉是软硬件一体化的集成系统,它的目的是代替人眼对被测物进行观察和判断。从组成上,机 器视觉系统硬件设备主要包括光源、镜头、相机等,软件主要包括传统的数字图像处理算法和基于深度学习的 图像处理算法。系统工作时首先依靠硬件系统将外界图像捕捉并转换成数字信号反馈给计算机,如下图深灰色 方块所示过程,然后依靠软件算法对数字图像信号进行处理,如下图中灰色方块所示过程。工业机器视觉在识 别的精确度、速度、客观性、可靠性、工作效率、工作环境要求、数据价值方面都优于人眼。

  全球机器视觉市场规模稳定增长,国内机器视觉市场增速明显。据 Markets and Markets 和 GGII 数据,2016-2021 年,全球机器视觉行业规模销售收入从 378.88 亿元上涨至 804 亿元,预计 2025 年全球市场规模将达 到 1276.05 亿元,5 年复合增长率约为 13%。据 GGII 统计,2016-2021 年,国内机器视觉行业规模销售收入从 46.87 亿元上涨至 138.16 亿元,5 年复合增长率为 24.1%,领先同期全球复合增长率约 10 个百分点。在技术、 产业、政策等多方利好因素的推动下,国内机器视觉销售规模将进一步提速扩增,预计 2022 年销售额将达到 168.88 亿元,未来至 2025 年中国机器视觉行业销售收入规模有望达到 349.03 亿元。(注:2021 年因原材料价格 普涨,中游企业产品价格上涨 20%,因此同期按销量口径统计的增速小于以销售额口径统计的市场规模增速)

  随我国制造业转型升级,应用场景逐步拓展,重点赛道需求高增。我国早期机器视觉主要应用于消费电子、 半导体、汽车三大行业。这些行业整体对于设备精度、准确度、稳定性要求较高。近年来,随着我国制造业整 体转型升级,向智能化、自动化方向发展,机器视觉技术与相关设备得以渗透进入更多下游应用行业,如电池、 机器人等。从下游应用行业增速上看,锂电池、新能源汽车行业在 2021 年增速最快,分别实现增速 181%、150%。 下游应用行业的快速发展与工业机器视觉在产线中渗透率的逐步提升,带来了工业机器视觉的需求高增,锂电池、新能源汽车行业的需求增速分别达到 30%、25%。

  机器视觉在锂电行业的渗透率逐步提升。随着锂电池制造智能化、自动化程度的提升,机器视觉产品开始 广泛地应用于锂电池设备生产的各个工段。从前段工艺的涂布辊压,到中段工艺的电芯组装,再到后段化成分 容之后的检测以及模组 PACK 段,机器视觉应用渗透率在逐步提升。 锂电行业中品质管控需求明确,竞争格局优秀。早期的锂电行业扩产往往较少考虑质量管控,但随着行业 逐步从高速发展转向高质量发展以及用户对于锂电安全的更高需求,机器视觉已经成为锂电池生产企业解决质 量和效率问题的必然选择,据 GGII 预测,锂电机器视觉检测系统市场规模将保持高速增长,未来 5 年年复合增 长率在 40%。竞争个局方面,在 3C 电子和汽车等行业中的机器视觉中海外巨头有着更加强的技术积累和长期 合作关系,对于我国机器视觉企业的市场拓展产生一定阻碍,但锂电池行业是近年来在我国发展起来的新兴产 业,因此其中锂电企业与我国机器视觉企业协同配合发展而来,国产化程度较高。 我们认为,锂电行业行业整体增速较快,且锂电中的机器视觉具备行业增速高、需求明确、竞争格局优秀 的优势,在未来两三年内有望维持高增速,是最具潜力的下游应用市场 。

  半导体行业对机器视觉需求明确,应用较为成熟广泛。半导体产业具有集成度高、精细度高的特点,人眼 视觉能起到的检测作用相当有限,对于机器视觉需求明确。基于此特点,半导体产业是机器视觉技术最早大规 模应用的下游领域之一,覆盖半导体外观缺陷、尺寸、数量、平整度、距离、定位、校准、焊点质量、弯曲度 等检测,晶圆制造中的检测、定位、切割和封装过程全程都需要机器视觉技术的辅助。 高端半导体检测设备主要被海外巨头占据。由于海外巨头在半导体检测领域的先发优势,因而目前半导体 机器视觉中的高端市场主要被海外龙头占据。同时,因为半导体行业的生产要求很高,因此导致国产机器视觉 厂商往往难以直接进入这一领域。国产厂商目前通过核心零部件和系统的销售逐步进入中低端市场,或通过收 购方式布局半导体检测设备。 我们认为,高端半导体检测是我国需要重点突破的高端技术,短期市场进入存在一定压力,但看好长期国 产化替代趋势。

  行业快速发展,行业维持高需求。卫星遥感是指从地面到空间各种对地球、天体观测的综合性技术系统的 总称。可从遥感技术平台获取卫星数据、由遥感仪器以及信息接受、处理与分析。遥感技术是正在飞速发展的 高新技术,它已经形成的信息网络,正时时刻刻、源源不断地向人们提供大量的科学数据和动态信息。从应用 领域来看,近几年遥感卫星在社会生产和生活各领域的应用范围不断扩大,中国民用遥感卫星系统研制工作取 得了显著成绩,逐步形成了气象、海洋、陆地资源和科学试验等遥感卫星系统,也具备了一定的应用基础。同 时,特种领域、自然资源、交通、智慧城市等行业对遥感信息快速提取挖掘有持续增长的需求。

  AI+遥感应运而生,大模型价值突显。遥感的发展,主要分为两条线:一是增加遥感数据的精密度,例如 通过卫星采集到更高清的图像;二是强化对图像等数据的“翻译”能力,即准确识别各类图像信息为各场景应 用提供支撑。其中,传统卫星数据处理过程需要人工的大量干预,严重制约了遥感产业的发展,AI+遥感应运而 生,通过人工智能的方式,可以大幅度提升既有数据的利用深度,并强化对遥感信息的翻译能力,输出更加精 细化、更加准确的结果,但传统 AI 小模型每解决一个具体场景问题,都需要从基础数据和算法开始计算,随着 需求的不断提升,卫星遥感亟需更高效的算法,这时候,大模型的价值就体现出来。大模型通过大规模数据的 预训练方式规避了重复训练,在通用能力的基础上,企业或开发者只要在预训练模型基础上进行微调,就能解决具体场景任务的应用。

  在自动驾驶汽车中,计算机视觉是最完全自动驾驶最关键的技术之一。从 2016 年 Tesla 发布 Autopilot 驾 驶辅助系统以来,自动驾驶一直是交通领域最前沿的发展方向。根据 Statista 数据显示,2021 年,全球自动驾 驶市场规模为 1059 亿美元,到 2030 年将达到 22176 亿美元,增长 21 倍,CAGR40%。根据 ResearchAndMarkets 数据显示,2021 年我国自动驾驶市场规模为 15.3 亿美元,到 2030 年将达到 988.9 亿美元。

  计算机视觉是通过计算机对图像或视频进行分析和处理,使计算机能够理解和感知周围的环境,从而做出 相应的决策。在自动驾驶技术中,计算机视觉的作 ss 用主要体现在以下三个方面: 环境感知:计算机视觉在自动驾驶中的应用最主要的作用是通过各种传感器获取车辆周围的环境信息,包 括图像、激光雷达、超声波传感器、毫米波雷达等。这些传感器可以获取车辆周围的障碍物、道路标识、行人、 交通信号灯等信息,从而帮助车辆做出正确的决策。计算机视觉技术可以通过对这些信息的处理和分析,实现 自动驾驶车辆对周围环境的感知和识别。具体来说,环境感知主要包括以下几个方面: 目标检测和识别:自动驾驶汽车需要对周围环境中的障碍物、行人、车辆等进行检测和识别。目标检测和 识别技术可以通过计算机视觉技术来实现,常见的算法包括卷积神经网络(CNN)、目标检测算法(如 YOLO、 Faster R-CNN 等)等。这些算法可以在车辆周围的图像和激光雷达数据中识别出不同的目标,并为车辆做出正 确的决策。

  路径规划:路径规划是自动驾驶汽车中的一个重要环节。路径规划技术可以通过计算机视觉技术对车辆周 围环境进行分析和判断,从而实现行驶路线的规划和优化。具体来说,路径规划主要包括以下几个方面: 车道线检测和识别:车道线是自动驾驶汽车行驶的重要参考线,车辆需要通过识别道路上的车道线来确保 自身的行驶方向。计算机视觉技术可以通过对车辆周围图像和激光雷达数据的处理和分析,实现车道线的检测 和识别。常见的算法包括卷积神经网络、Hough 变换、Canny 边缘检测算法等。

  车辆运动状态估计:自动驾驶汽车需要对自身的运动状态进行准确的估计,包括车速、加速度、方向等。 计算机视觉技术可以通过对车辆周围图像和激光雷达数据的处理和分析,实现车辆运动状态的估计和预测。 环境地图的构建和更新:自动驾驶汽车需要通过环境地图来规划行驶路线和做出决策。计算机视觉技术可 以通过对车辆周围环境信息的获取和分析,实现环境地图的构建和更新。环境地图可以包括道路几何信息、交 通信号灯、停车位、充电站等信息。

  (本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)