2022清华大学大模型交叉研讨课
2022-6-27
L1
1 NLP部分
-
NLP Tasks
- 词性标注
- 命名实体的识别(省略的现象)
- 共体消减(代词)
- 标注成分之间的依赖关系
- 中文的自动分词
-
运用:
-
搜索引擎中运用NLP
- 匹配query和document的相似度,给定query后,可以给一些广告
- 判断文档质量
-
NLP结合knowledge graph
- 充分抽取、利用知识
- 人工助手
- 翻译(解除语言屏障)
- 用语言作为一个视角,去分析社会
-
搜索引擎中运用NLP
-
词表示:
- 转化成机器可以理解的词的意思
-
similarity和relation
-
弊端
- 人工标注,缺失一些新的含义
- 缺失细微的差别
- 主观性
- 数据吸收
- 需要大量人工
-
弊端
-
one-hot
- 独立的,找一维和该词对应,其余维度为0
- 默认词和词之间都是正交的,导致任意两个词之间的相似度都是0
- 改进:词义和上下文有关
- 一个词用它上下文的常见词进行表示
-
弊端:
- 增加了词的空间
- 对于出现频率较少的词,上下文比较稀疏,导致效果不好
-
word embedding
- 建立低维的向量空间
- Word2Vec
-
Language Model
-
语言建模,根据前文进行预测
- 联合概率:已有序列组成句子的概率
- 条件概率:根据已有的句子预测下一个词
-
如何完成?
- 假设:一个未来的词只受到之前的词的影响
- 可以拆分,得到联合概率和条件概率的关系
-
语言建模,根据前文进行预测
-
N-gram Model
-
E.g, 4-gram(n-gram只和该词的前n-1个词有关)
P(
w
j
∣
never to late to
)
=
count
(
too late to
w
j
)
count
(
too late to
)
P\left(w_{j} \mid \text { never to late to }\right)=\frac{\operatorname{count}\left(\text { too late to } w_{j}\right)}{\operatorname{count}(\text { too late to })}
P
(
w
j
∣
never to late to
)
=
c
o
u
n
t
(
too late to
)
c
o
u
n
t
(
too late to
w
j
)
(never在此式子中并不纳入计算) -
弊端:
- 距离比较短
- 仍然没有考虑到词之间的相似度
-
E.g, 4-gram(n-gram只和该词的前n-1个词有关)
-
Neural Language Model
- 分布式的表示来建构
- 先把前3个词都表示成低维的向量,然后把低维的向量拼在一起,形成一个高一些的向量,然后就可以用这个向量来预测下一个词。
- 所有的预测都是通过对上下文的表示来进行的。
- 通过大模型去学习参数的设置
2 Bigmodel
2.1 简介
预训练语言模型的机理和细节。
-
Why PLM?
-
语言理解和语言生成的效果都很好
- 不断增加参数
- 增加计算
- 增加算力
-
例子:GPT-3
- rich knowledge
- zero/few-shot(无标注,少样本)
-
语言理解和语言生成的效果都很好
-
Paradigms
- 从无标注的数据中进行学习,通过一些自监督的任务做预训练,从中得到丰富通用的知识。在具体运用的时候,再引入任务相关的知识,去调整模型。
- word embddings
- contextual word embddings
- ELMo,ULMFiT
- Transformer
-
Typical Case
- GPT
- Bert
2.2 Demo
-
大模型demo
- GPT-3(问答模型)
- 代码大模型
- DALL-E 2 图像生成
- 搜素引擎