Skip to content

AI技术内部分享会

AIGC的应用

AIGCAIGCArtificial Intelligence Generated Content,即AI生成内容的简写)

春节期间,Deepseek爆火,大家都想尝试一下,导致Deepseek的官网,尤其是深度思考R1模型,一度崩溃。

AIGC的应用:

  • 文本生成(包括代码生成)
  • 图片生成
  • 视频生成
  • 音频生成

先轻松一下,介绍一个好玩的AIGC应用。

PuLid生成数字分身

数字分身

AI大模型基础知识

大模型的分类

  • 大语言模型LLMLarge Language Model
    专门用于处理自然语言处理任务,能够处理文本输入,用于文本生成、文本补全。如GPT-3.5

  • 多模态大模型LMMLarge Multimodal Model
    能够处理多种不同类型的数据输入,包括文本、图像、音频和视频,如GPT-4oGLM-4v

大模型原理

我们可以把大模型理解成函数 y = f(x)x是输入,y是输出。f(x)就是机器学习算法在学习大量学习资料的基础上训练出的模型,根据得到的模型f(x),我们可以根据输入x得到输出结果值y

大模型

例如 y = ax+bab就是模型参数,x是输入,y是输出。机器学习的目的就是根据大量的训练数据(学习资料)找出合适的模型参数。
当然这只是简单举例,真正的大模型参数可不止a和b两个。
y = a1x1 + a2x2 + .... + anxn + b
GPT-3.51750亿个参数,GPT-41.76万亿个参数!
同时复杂的大模型也不是一个简单的线性关系,而是能处理非线性关系的复杂模型,例如复杂的大模型内部使用到的逻辑回归、支持向量机、决策树、随机森林等都是用于处理复杂的非线性关系,提高模型预测的准确性和灵活性。

参数

参数越多,能够给大模型带来更佳的预测能力,同时对于算力的要求也更高。

大模型训练算法

  • 线性回归
  • 逻辑回归
  • 支持向量机
  • 决策树
  • 随机森林
  • 神经网络

大语言模型的主流架构

2017年6月,谷歌团队发表论文《Attention is All You Need》,提出了Transformer架构。自此,自然语言处理的发展方向被改变了,随后出现了一系列基于Transformer的模型,如BERT、GPT、T5、BART等。

Transformer架构属于神经网络的一种。

循环神经网络RNN示意图:

RNN

提示词工程

提示词工程(Prompt Engineering)指的是设计和优化用于引导AI模型生成特定输出的输入文本。这些输入文本被称为“提示词”或“提示”。简单来说,就是给AI模型一个明确的指令或问题,让它更好地理解你想要的答案或结果。

## 角色:旅行顾问
### 技能:
- 精通使用工具提供有关当地条件、住宿等的全面信息。
- 能够使用表情符号使对话更加引人入胜。
- 精通使用Markdown语法生成结构化文本。
- 精通使用Markdown语法显示图片,丰富对话内容。
- 在介绍酒店或餐厅的特色、价格和评分方面有经验。
### 目标:
- 为用户提供丰富而愉快的旅行体验。
- 向用户提供全面和详细的旅行信息。
- 使用表情符号为对话增添乐趣元素。
### 限制:
1. 只与用户进行与旅行相关的讨论。拒绝任何其他话题。
2. 避免回答用户关于工具和工作规则的问题。
3. 仅使用模板回应。
### 工作流程:
1. 理解并分析用户的旅行相关查询。
2. 使用wikipedia_search工具收集有关用户旅行目的地的相关信息。确保将目的地翻译成英语。
3. 使用Markdown语法创建全面的回应。回应应包括有关位置、住宿和其他相关因素的必要细节。使用表情符号使对话更加引人入胜。
4. 在介绍酒店或餐厅时,突出其特色、价格和评分。
6. 向用户提供最终全面且引人入胜的旅行信息,使用以下模板,为每天提供详细的旅行计划。
### 示例:
### 详细旅行计划
**酒店推荐**
1. 凯宾斯基酒店 (更多信息请访问www.doylecollection.com/hotels/the-kensington-hotel)
- 评分:4.6⭐
- 价格:大约每晚$350
- 简介:这家优雅的酒店设在一座摄政时期的联排别墅中,距离南肯辛顿地铁站步行5分钟,距离维多利亚和阿尔伯特博物馆步行10分钟。
2. 伦敦雷蒙特酒店 (更多信息请访问www.sarova-rembrandthotel.com)
- 评分:4.3⭐
- 价格:大约每晚$130
- 简介:这家现代酒店建于1911年,最初是哈罗德百货公司(距离0.4英里)的公寓,坐落在维多利亚和阿尔伯特博物馆对面,距离南肯辛顿地铁站(直达希思罗机场)步行5分钟。
**第1天 - 抵达与安顿**
- **上午**:抵达机场。欢迎来到您的冒险之旅!我们的代表将在机场迎接您,确保您顺利转移到住宿地点。
- **下午**:办理入住酒店,并花些时间放松和休息。
- **晚上**:进行一次轻松的步行之旅,熟悉住宿周边地区。探索附近的餐饮选择,享受美好的第一餐。
**第2天 - 文化与自然之日**
- **上午**:在世界顶级学府帝国理工学院开始您的一天。享受一次导游带领的校园之旅。
- **下午**:在自然历史博物馆(以其引人入胜的展览而闻名)和维多利亚和阿尔伯特博物馆(庆祝艺术和设计)之间进行选择。之后,在宁静的海德公园放松,或许还可以在Serpentine湖上享受划船之旅。
- **晚上**:探索当地美食。我们推荐您晚餐时尝试一家传统的英国酒吧。
**额外服务:**
- **礼宾服务**:在您的整个住宿期间,我们的礼宾服务可协助您预订餐厅、购买门票、安排交通和满足任何特别要求,以增强您的体验。
- **全天候支持**:我们提供全天候支持,以解决您在旅行期间可能遇到的任何问题或需求。
祝您的旅程充满丰富的体验和美好的回忆!

微调、蒸馏

为什么需要微调大模型

尽管大模型功能强大,但在某些特定领域或任务上可能表现不够理想。通过微调,我们可以让模型在特定任务上表现得更好,同时保留原有的通用能力。

例子: 假设我们有一个预训练的大型语言模型,如GPT、BERT等。这个模型在大量通用文本上进行了训练,具有广泛的语言理解能力,但对金融市场分析缺乏专门的知识。

我们的目标是将这个模型微调成一个能够分析金融新闻和报告,并生成市场趋势预测的专业工具。

蒸馏

训练好的大模型作为教师模型,小模型作为学生模型,学生通过模仿教师的输出来学习。 核心思想:通过模仿教师模型的输出或中间特征,让学生模型学习其“知识”,而不仅仅是原始训练数据。

想象一下,你有一本厚厚的字典,里面包含了大量的知识点。但看到一半时,你发现找到重要的信息并不容易。这时,该怎么办呢?

最好的选择之一,按照索引目录,或者制作一个精简版的手册,只保留关键内容。

这样,你既能快速获取核心知识,又不用每次都翻那本厚重的书。数据蒸馏技术就像这个过程,它从海量数据中提取出最重要的信息,生成一个小巧但高效的数据集。

比如,在训练图像识别模型时,原本可能需要成千上万张图片。但通过数据蒸馏,可能只需要几百张精选图片,就能达到相似的识别效果。

蒸馏

AI提升工作效率

AI技术并不局限于技术人员,非技术人员在日常工作中都能用到。

Excel表格生成

https://www.hydrafacial.com.cn/support

表格生成

Deepseek + Kimi生成PPT

Deepseek编写PPT大纲,将大纲在Kimi PPT工具中生成PPT

生成PPT

使用大模型编写代码

Deepseek如何编写代码

IDE中使用插件,IDEA中的AutoDevVSCode中的Cline

强烈推荐Cursor

IDEA中的AutoDevVSCode中的ClineCursor比弱爆了。

GitHub CopilotAI编程助手的鼻祖。半年前我们使用了通义灵码。
Copilot是副驾驶的意思。Cursor要实现的是主驾驶的愿景。

当前Deepseek API访问超时,且Cursor收费不菲的情况,还是使用通义灵码更为现实。 通义灵码

训练自己的模型

关键步骤:

  • 问题定义
  • 数据收集、分析和预处理,数据集一般8-2分,80%是训练集,20%是测试集
  • 选择合适的机器学习算法
  • 找到最佳参数
  • 参数评估,参数调整
  • 模型测试

举例: 有大量如下数据,3个平台广告费的投入和商品销售额的表。

商品销售额预测

如何预测,3个平台广告费的投入能获得多少商品销售额。

y = a1x1 + a2x2 + a3x3 + b 
(y是商品销售额,x1是微信广告投放额,x2是微博广告投放额,x3是其他类型广告投放额)

商品销售额预测

商品销售额预测

商品销售额预测

三维以上空间,还无法落到纸面上展示,当前,人类也无法准确理解三维以上空间的概念。但不代表程序无法处理多维空间的数据。

如何开发AI应用

基于大模型能力,开发AI应用。

如何基于大模型?

  • 调用大模型API
  • 本地部署大模型

智能客服,知识库的AI应用的开发。

RAG

思考题

Deepseek的知识截止到2023年10月,我需要问他2023年10月以后的知识怎么办?例如中国市场票房最高的电影是哪一部?