AI 大模型需要什么样的数据
一、课纲 1天
第一章 AI 大模型需要什么样的数据集
- 数据将是未来AI 大模型竞争的关键要素
- 数据集如何产生
- 他山之石#1:海外主要大语言模型数据集
- 数据集#1:维基百科
- 数据集#2:书籍
- 数据集#3:期刊
- 数据集#4:WebText(来自Reddit 链接)
- 数据集#5:Common crawl/C4
- 其他数据集
- 他山之石#2:海外主要多模态数据集
- 类别#1:语音+文本
- 类别#2:图像+文本
- 类别#3:视频+图像+文本
- 类别#4:图像+语音+文本
- 类别#5:视频+语音+文本
- 他山之石#3:海外主要大模型数据集由何方发布
- 高质量语言数据和图像数据或将耗尽,合成数据有望生成大模型数据
第二章 数字中国战略助力中国AI 大模型数据基础发展
- 中国AI 大模型数据集从哪里来
- 中国大模型如何构建数据集#1:LLM
- 中国大模型如何构建数据集#2:多模态大模型
- 中国开源数据集#1:大语言模型数据集
- 中国开源数据集#2:多模态模型数据集
- 国内数据要素市场建设逐步完善,助力优质数据集生产流通
- 数据交易环节:数据交易所发展进入新阶段,缓解中文数据集数量不足问题
- 数据加工环节:数据服务产业加速发展,助力中文数据集质量提升
- AI 时代数据的监管与隐私保护问题
- 数据产业链
- 数据生产环节
- 数据处理环节
二、授课方式
理论讲授:通过讲解和演示,使学员掌握课程内容;
实践操作:提供实际操作和实践的机会,使学员能够亲自动手进行实践;
案例分析:通过案例分析,使学员了解课程内容的应用前景和实际效果;
互动讨论:鼓励学员提问、分享经验和见解,促进知识交流与碰撞。