2022清华暑校笔记之L1_NLP和Bigmodel基础

  • Post author:
  • Post category:其他




2022清华大学大模型交叉研讨课



2022-6-27



L1



1 NLP部分

  • NLP Tasks

    • 词性标注
    • 命名实体的识别(省略的现象)
    • 共体消减(代词)
    • 标注成分之间的依赖关系
    • 中文的自动分词
  • 运用:

    • 搜索引擎中运用NLP

      • 匹配query和document的相似度,给定query后,可以给一些广告
      • 判断文档质量
    • NLP结合knowledge graph

      • 充分抽取、利用知识
    • 人工助手
    • 翻译(解除语言屏障)
    • 用语言作为一个视角,去分析社会
  • 词表示:

    • 转化成机器可以理解的词的意思
    • similarity和relation

      • 弊端

        • 人工标注,缺失一些新的含义
        • 缺失细微的差别
        • 主观性
        • 数据吸收
        • 需要大量人工
  • one-hot

    • 独立的,找一维和该词对应,其余维度为0
    • 默认词和词之间都是正交的,导致任意两个词之间的相似度都是0
    • 改进:词义和上下文有关
    • 一个词用它上下文的常见词进行表示
    • 弊端:

      • 增加了词的空间
      • 对于出现频率较少的词,上下文比较稀疏,导致效果不好
  • word embedding

    • 建立低维的向量空间
    • Word2Vec
  • Language Model

    • 语言建模,根据前文进行预测

      • 联合概率:已有序列组成句子的概率
      • 条件概率:根据已有的句子预测下一个词
    • 如何完成?

      • 假设:一个未来的词只受到之前的词的影响
      • 可以拆分,得到联合概率和条件概率的关系
  • N-gram Model

    • E.g, 4-gram(n-gram只和该词的前n-1个词有关)





      P

      (

      w

      j

       never to late to 

      )

      =

      count

      (

       too late to 

      w

      j

      )

      count

      (

       too late to 

      )

      P\left(w_{j} \mid \text { never to late to }\right)=\frac{\operatorname{count}\left(\text { too late to } w_{j}\right)}{\operatorname{count}(\text { too late to })}






      P





      (



      w











      j



























      never to late to



      )





      =




















      c


      o


      u


      n


      t



      (



      too late to



      )















      c


      o


      u


      n


      t






      (



      too late to




      w











      j



















      )


























      (never在此式子中并不纳入计算)

    • 弊端:

      • 距离比较短
      • 仍然没有考虑到词之间的相似度
  • Neural Language Model

    • 分布式的表示来建构
    • 先把前3个词都表示成低维的向量,然后把低维的向量拼在一起,形成一个高一些的向量,然后就可以用这个向量来预测下一个词。
    • 所有的预测都是通过对上下文的表示来进行的。
    • 通过大模型去学习参数的设置



2 Bigmodel



2.1 简介

预训练语言模型的机理和细节。

  • Why PLM?

    • 语言理解和语言生成的效果都很好

      • 不断增加参数
      • 增加计算
      • 增加算力
    • 例子:GPT-3

      • rich knowledge
      • zero/few-shot(无标注,少样本)
  • Paradigms

    • 从无标注的数据中进行学习,通过一些自监督的任务做预训练,从中得到丰富通用的知识。在具体运用的时候,再引入任务相关的知识,去调整模型。
    • word embddings
    • contextual word embddings
    • ELMo,ULMFiT
    • Transformer
  • Typical Case

    • GPT
    • Bert



2.2 Demo

  • 大模型demo

    • GPT-3(问答模型)
    • 代码大模型
    • DALL-E 2 图像生成
    • 搜素引擎



版权声明:本文为zty5556666原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。