Appearance
AI
技术内部分享会
AIGC
的应用
AIGC
(AIGC
是Artificial Intelligence Generated Content
,即AI
生成内容的简写)
春节期间,Deepseek
爆火,大家都想尝试一下,导致Deepseek
的官网,尤其是深度思考R1
模型,一度崩溃。
AIGC
的应用:
- 文本生成(包括代码生成)
- 图片生成
- 视频生成
- 音频生成
先轻松一下,介绍一个好玩的AIGC
应用。
PuLid
生成数字分身
AI大模型基础知识
大模型的分类
大语言模型
LLM
(Large Language Model
)
专门用于处理自然语言处理任务,能够处理文本输入,用于文本生成、文本补全。如GPT-3.5
。多模态大模型
LMM
(Large Multimodal Model
)
能够处理多种不同类型的数据输入,包括文本、图像、音频和视频,如GPT-4o
,GLM-4v
。
大模型原理
我们可以把大模型理解成函数 y = f(x)
,x
是输入,y
是输出。f(x)
就是机器学习算法在学习大量学习资料的基础上训练出的模型,根据得到的模型f(x)
,我们可以根据输入x
得到输出结果值y
。
例如 y = ax+b
,a
和b
就是模型参数,x
是输入,y
是输出。机器学习的目的就是根据大量的训练数据(学习资料)找出合适的模型参数。
当然这只是简单举例,真正的大模型参数可不止a和b两个。y = a1x1 + a2x2 + .... + anxn + b
。GPT-3.5
有1750亿
个参数,GPT-4
有1.76万亿
个参数!
同时复杂的大模型也不是一个简单的线性关系,而是能处理非线性关系的复杂模型,例如复杂的大模型内部使用到的逻辑回归、支持向量机、决策树、随机森林
等都是用于处理复杂的非线性关系,提高模型预测的准确性和灵活性。
参数越多,能够给大模型带来更佳的预测能力,同时对于算力的要求也更高。
大模型训练算法
- 线性回归
- 逻辑回归
- 支持向量机
- 决策树
- 随机森林
- 神经网络
大语言模型的主流架构
2017年6月,谷歌团队发表论文《Attention is All You Need》
,提出了Transformer
架构。自此,自然语言处理的发展方向被改变了,随后出现了一系列基于Transformer
的模型,如BERT、GPT、T5、BART
等。
Transformer
架构属于神经网络
的一种。
循环神经网络RNN
示意图:
提示词工程
提示词工程(Prompt Engineering
)指的是设计和优化用于引导AI模型生成特定输出的输入文本。这些输入文本被称为“提示词”或“提示”。简单来说,就是给AI
模型一个明确的指令或问题,让它更好地理解你想要的答案或结果。
## 角色:旅行顾问
### 技能:
- 精通使用工具提供有关当地条件、住宿等的全面信息。
- 能够使用表情符号使对话更加引人入胜。
- 精通使用Markdown语法生成结构化文本。
- 精通使用Markdown语法显示图片,丰富对话内容。
- 在介绍酒店或餐厅的特色、价格和评分方面有经验。
### 目标:
- 为用户提供丰富而愉快的旅行体验。
- 向用户提供全面和详细的旅行信息。
- 使用表情符号为对话增添乐趣元素。
### 限制:
1. 只与用户进行与旅行相关的讨论。拒绝任何其他话题。
2. 避免回答用户关于工具和工作规则的问题。
3. 仅使用模板回应。
### 工作流程:
1. 理解并分析用户的旅行相关查询。
2. 使用wikipedia_search工具收集有关用户旅行目的地的相关信息。确保将目的地翻译成英语。
3. 使用Markdown语法创建全面的回应。回应应包括有关位置、住宿和其他相关因素的必要细节。使用表情符号使对话更加引人入胜。
4. 在介绍酒店或餐厅时,突出其特色、价格和评分。
6. 向用户提供最终全面且引人入胜的旅行信息,使用以下模板,为每天提供详细的旅行计划。
### 示例:
### 详细旅行计划
**酒店推荐**
1. 凯宾斯基酒店 (更多信息请访问www.doylecollection.com/hotels/the-kensington-hotel)
- 评分:4.6⭐
- 价格:大约每晚$350
- 简介:这家优雅的酒店设在一座摄政时期的联排别墅中,距离南肯辛顿地铁站步行5分钟,距离维多利亚和阿尔伯特博物馆步行10分钟。
2. 伦敦雷蒙特酒店 (更多信息请访问www.sarova-rembrandthotel.com)
- 评分:4.3⭐
- 价格:大约每晚$130
- 简介:这家现代酒店建于1911年,最初是哈罗德百货公司(距离0.4英里)的公寓,坐落在维多利亚和阿尔伯特博物馆对面,距离南肯辛顿地铁站(直达希思罗机场)步行5分钟。
**第1天 - 抵达与安顿**
- **上午**:抵达机场。欢迎来到您的冒险之旅!我们的代表将在机场迎接您,确保您顺利转移到住宿地点。
- **下午**:办理入住酒店,并花些时间放松和休息。
- **晚上**:进行一次轻松的步行之旅,熟悉住宿周边地区。探索附近的餐饮选择,享受美好的第一餐。
**第2天 - 文化与自然之日**
- **上午**:在世界顶级学府帝国理工学院开始您的一天。享受一次导游带领的校园之旅。
- **下午**:在自然历史博物馆(以其引人入胜的展览而闻名)和维多利亚和阿尔伯特博物馆(庆祝艺术和设计)之间进行选择。之后,在宁静的海德公园放松,或许还可以在Serpentine湖上享受划船之旅。
- **晚上**:探索当地美食。我们推荐您晚餐时尝试一家传统的英国酒吧。
**额外服务:**
- **礼宾服务**:在您的整个住宿期间,我们的礼宾服务可协助您预订餐厅、购买门票、安排交通和满足任何特别要求,以增强您的体验。
- **全天候支持**:我们提供全天候支持,以解决您在旅行期间可能遇到的任何问题或需求。
祝您的旅程充满丰富的体验和美好的回忆!
微调、蒸馏
为什么需要微调大模型
尽管大模型功能强大,但在某些特定领域或任务上可能表现不够理想。通过微调,我们可以让模型在特定任务上表现得更好,同时保留原有的通用能力。
例子: 假设我们有一个预训练的大型语言模型,如GPT、BERT
等。这个模型在大量通用文本上进行了训练,具有广泛的语言理解能力,但对金融市场分析缺乏专门的知识。
我们的目标是将这个模型微调成一个能够分析金融新闻和报告,并生成市场趋势预测的专业工具。
蒸馏
训练好的大模型作为教师模型,小模型作为学生模型,学生通过模仿教师的输出来学习。 核心思想:通过模仿教师模型的输出或中间特征,让学生模型学习其“知识”,而不仅仅是原始训练数据。
想象一下,你有一本厚厚的字典,里面包含了大量的知识点。但看到一半时,你发现找到重要的信息并不容易。这时,该怎么办呢?
最好的选择之一,按照索引目录,或者制作一个精简版的手册,只保留关键内容。
这样,你既能快速获取核心知识,又不用每次都翻那本厚重的书。数据蒸馏技术就像这个过程,它从海量数据中提取出最重要的信息,生成一个小巧但高效的数据集。
比如,在训练图像识别模型时,原本可能需要成千上万张图片。但通过数据蒸馏,可能只需要几百张精选图片,就能达到相似的识别效果。
AI
提升工作效率
AI
技术并不局限于技术人员,非技术人员在日常工作中都能用到。
Excel
表格生成
https://www.hydrafacial.com.cn/support
Deepseek + Kimi
生成PPT
Deepseek
编写PPT
大纲,将大纲在Kimi PPT
工具中生成PPT
。
使用大模型编写代码
Deepseek如何编写代码
在IDE
中使用插件,IDEA
中的AutoDev
,VSCode
中的Cline
。
强烈推荐Cursor
IDEA
中的AutoDev
,VSCode
中的Cline
和Cursor
比弱爆了。
GitHub Copilot
,AI
编程助手的鼻祖。半年前我们使用了通义灵码。Copilot
是副驾驶的意思。Cursor
要实现的是主驾驶的愿景。
当前Deepseek API
访问超时,且Cursor
收费不菲的情况,还是使用通义灵码
更为现实。
训练自己的模型
关键步骤:
- 问题定义
- 数据收集、分析和预处理,数据集一般8-2分,80%是训练集,20%是测试集
- 选择合适的机器学习算法
- 找到最佳参数
- 参数评估,参数调整
- 模型测试
举例: 有大量如下数据,3个平台广告费的投入和商品销售额的表。
如何预测,3个平台广告费的投入能获得多少商品销售额。
y = a1x1 + a2x2 + a3x3 + b
(y是商品销售额,x1是微信广告投放额,x2是微博广告投放额,x3是其他类型广告投放额)
三维以上空间,还无法落到纸面上展示,当前,人类也无法准确理解三维以上空间的概念。但不代表程序无法处理多维空间的数据。
如何开发AI
应用
基于大模型能力,开发AI
应用。
如何基于大模型?
- 调用大模型
API
- 本地部署大模型
智能客服,知识库的AI
应用的开发。
思考题
Deepseek
的知识截止到2023年10月,我需要问他2023年10月以后的知识怎么办?例如中国市场票房最高的电影是哪一部?