[半监督学习] Teacher-Student Learning Paradigm for Tri-training

  • Post author:
  • Post category:其他


模仿现实师生学习过程, 对传统的 Tri-Training 进行改进, 使用自适应师生阈值, 使得伪标签具有更高的质量.

论文地址:

Teacher-Student Learning Paradigm for Tri-training: An Efficient Method for Unlabeled Data Exploitation


任务: 情感分析

在现有的半监督学习方法中, 例如: self-training, co-training, tri-training 等, 它们都有一个问题, 即在迭代过程中, 训练数据集噪声水平逐渐增加. 此问题可归因于两个因素:

  1. 静态的标记阈值.
  2. 示例标记迭代的停止时机.

为解决这两个问题, 提出 tri-training with teacher-student 范式. 具体来说, 在每个迭代中, 基于预定义的师生阈值, 建立 double-teacher-single-student 关系, 其中 teacher 通过在未标记数据上生成的代理标签(伪标签)来指导 student. 在教学指导过程中, 师生关系通过自适应的师生阈值不断调整. 师生关系在用完可教示例(伪标签示例)或达到”毕业点”时终止, 此时 student 阈值等于 teacher 阈值.



Teacher Student Tri-training(Tri-TS)算法

同 Tri-Training, 首先从标记数据集



L

L






L





中用 bootstrap 采样获得三个不同的数据集



S

i

S_i







S










i





















,



S

j

S_j







S










j





















,



S

k

S_k







S










k





















, 这样做的目的是增加多样性, 然后分别训练三个分类器



m

i

m_i







m










i





















,



m

j

m_j







m










j





















,



m

k

m_k







m










k





















. 对于未标记数据集



U

U






U





中的示例



x

x






x





, 每个分类器对其的预测结果分别为



c

i

c_i







c










i





















,



c

j

c_j







c










j





















,



c

k

c_k







c










k





















, 以及对应的概率



p

i

(

c

i

x

)

p_i(c_i\vert x)







p










i


















(



c










i





















x


)





,



p

j

(

c

j

x

)

p_j(c_j\vert x)







p










j


















(



c










j





















x


)





,



p

k

(

c

k

x

)

p_k(c_k\vert x)







p










k


















(



c










k





















x


)





.

与原始 Tri-Training 中为



x

x






x





分配多数投票标签的策略不同, 在 Teacher-Student 中, 从师生的角度对学习任务进行建模. 在迭代过程中, 如果



p

j

(

c

j

x

)

p_j(c_j\vert x)







p










j


















(



c










j





















x


)





,



p

k

(

c

k

x

)

p_k(c_k\vert x)







p










k


















(



c










k





















x


)





同时大于 teacher 的阈值



τ

t

\tau_t







τ










t





















, 则将



m

j

m_j







m










j





















,



m

k

m_k







m










k





















视作 teacher, 如果另一个分类器



m

i

m_i







m










i





















的预测概率小于 student 的阈值



τ

s

\tau_s







τ










s





















, 则将其视为 student. 未标记样本



x

x






x





只有在被判别为可被教导(Teachable)后才会被分配一个标签. 选择 Teachable 样本的算法如下所示:

在这里插入图片描述

其标准如下:

  • 分类器



    m

    j

    m_j







    m










    j





















    ,



    m

    k

    m_k







    m










    k





















    互相认同对方的分类结果



    c

    k

    c_k







    c










    k





















    ,



    c

    j

    c_j







    c










    j





















    .

  • 两个 teacher 的预测置信度



    p

    j

    p_j







    p










    j





















    ,



    p

    k

    p_k







    p










    k





















    必须同时大于



    τ

    t

    \tau_t







    τ










    t





















    , 同时 student 的预测置信度



    p

    i

    p_i







    p










    i





















    必须小于



    τ

    s

    \tau_s







    τ










    s





















    .

完整的 Teacher Student Tri-training 算法如下所示:

在这里插入图片描述



自适应阈值

在 student 接收指导的过程中, 其对于来自 teacher 的知识变得越来越自信, 从这个意义上说, student 阈值



τ

s

\tau_s







τ










s





















在每次迭代中单调增加. 另一方面, 随着 student 在学习过程中的进步, teacher 应该教他们更高级的知识(对于 teacher 来说, 这些知识是其不太自信的示例). 这个想法通过单调降低 teacher 阈值



τ

t

\tau_t







τ










t





















来实现. 如算法 1 中第 10-11 行所示, 选择线性自适应速率来调整阈值



τ

t

\tau_t







τ










t

























τ

s

\tau_s







τ










s





















.



停止标准

self-labeled 通常在没有可标记样本时停止. 原始 Tri-Training 中引入了一个误差约束, 检查是否已经达到峰值性能. 然而, 误差测量仅在已标记的数据集上进行, 因此只能假设已标记集的分布情况代表了未标记集的分布情况.

在 Teacher Student Tri-training 中, 假设当 student 在迭代中达到与 teacher 相同的信心水平时, 那么 student 就没有什么可以从 teacher 那里学到的东西了. 即在算法 2 中, 当



τ

s

τ

t

\tau_s \geq \tau_t







τ










s






























τ










t





















时, 将更新的样本添加到



m

i

m_i







m










i





















(学生)的训练集中将不再提升学习效果. 从这个意义上说, 将



τ

s

τ

t

\tau_s \geq \tau_t







τ










s






























τ










t





















的点称为毕业点, 以便在达到约束时自然停止 tri-training 过程.



版权声明:本文为by6671715原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。