模仿现实师生学习过程, 对传统的 Tri-Training 进行改进, 使用自适应师生阈值, 使得伪标签具有更高的质量.
论文地址:
Teacher-Student Learning Paradigm for Tri-training: An Efficient Method for Unlabeled Data Exploitation
任务: 情感分析
在现有的半监督学习方法中, 例如: self-training, co-training, tri-training 等, 它们都有一个问题, 即在迭代过程中, 训练数据集噪声水平逐渐增加. 此问题可归因于两个因素:
- 静态的标记阈值.
- 示例标记迭代的停止时机.
为解决这两个问题, 提出 tri-training with teacher-student 范式. 具体来说, 在每个迭代中, 基于预定义的师生阈值, 建立 double-teacher-single-student 关系, 其中 teacher 通过在未标记数据上生成的代理标签(伪标签)来指导 student. 在教学指导过程中, 师生关系通过自适应的师生阈值不断调整. 师生关系在用完可教示例(伪标签示例)或达到”毕业点”时终止, 此时 student 阈值等于 teacher 阈值.
Teacher Student Tri-training(Tri-TS)算法
同 Tri-Training, 首先从标记数据集
L
L
L
中用 bootstrap 采样获得三个不同的数据集
S
i
S_i
S
i
,
S
j
S_j
S
j
,
S
k
S_k
S
k
, 这样做的目的是增加多样性, 然后分别训练三个分类器
m
i
m_i
m
i
,
m
j
m_j
m
j
,
m
k
m_k
m
k
. 对于未标记数据集
U
U
U
中的示例
x
x
x
, 每个分类器对其的预测结果分别为
c
i
c_i
c
i
,
c
j
c_j
c
j
,
c
k
c_k
c
k
, 以及对应的概率
p
i
(
c
i
∣
x
)
p_i(c_i\vert x)
p
i
(
c
i
∣
x
)
,
p
j
(
c
j
∣
x
)
p_j(c_j\vert x)
p
j
(
c
j
∣
x
)
,
p
k
(
c
k
∣
x
)
p_k(c_k\vert x)
p
k
(
c
k
∣
x
)
.
与原始 Tri-Training 中为
x
x
x
分配多数投票标签的策略不同, 在 Teacher-Student 中, 从师生的角度对学习任务进行建模. 在迭代过程中, 如果
p
j
(
c
j
∣
x
)
p_j(c_j\vert x)
p
j
(
c
j
∣
x
)
,
p
k
(
c
k
∣
x
)
p_k(c_k\vert x)
p
k
(
c
k
∣
x
)
同时大于 teacher 的阈值
τ
t
\tau_t
τ
t
, 则将
m
j
m_j
m
j
,
m
k
m_k
m
k
视作 teacher, 如果另一个分类器
m
i
m_i
m
i
的预测概率小于 student 的阈值
τ
s
\tau_s
τ
s
, 则将其视为 student. 未标记样本
x
x
x
只有在被判别为可被教导(Teachable)后才会被分配一个标签. 选择 Teachable 样本的算法如下所示:
其标准如下:
-
分类器
mj
m_j
m
j
,
mk
m_k
m
k
互相认同对方的分类结果
ck
c_k
c
k
,
cj
c_j
c
j
. -
两个 teacher 的预测置信度
pj
p_j
p
j
,
pk
p_k
p
k
必须同时大于
τt
\tau_t
τ
t
, 同时 student 的预测置信度
pi
p_i
p
i
必须小于
τs
\tau_s
τ
s
.
完整的 Teacher Student Tri-training 算法如下所示:
自适应阈值
在 student 接收指导的过程中, 其对于来自 teacher 的知识变得越来越自信, 从这个意义上说, student 阈值
τ
s
\tau_s
τ
s
在每次迭代中单调增加. 另一方面, 随着 student 在学习过程中的进步, teacher 应该教他们更高级的知识(对于 teacher 来说, 这些知识是其不太自信的示例). 这个想法通过单调降低 teacher 阈值
τ
t
\tau_t
τ
t
来实现. 如算法 1 中第 10-11 行所示, 选择线性自适应速率来调整阈值
τ
t
\tau_t
τ
t
和
τ
s
\tau_s
τ
s
.
停止标准
self-labeled 通常在没有可标记样本时停止. 原始 Tri-Training 中引入了一个误差约束, 检查是否已经达到峰值性能. 然而, 误差测量仅在已标记的数据集上进行, 因此只能假设已标记集的分布情况代表了未标记集的分布情况.
在 Teacher Student Tri-training 中, 假设当 student 在迭代中达到与 teacher 相同的信心水平时, 那么 student 就没有什么可以从 teacher 那里学到的东西了. 即在算法 2 中, 当
τ
s
≥
τ
t
\tau_s \geq \tau_t
τ
s
≥
τ
t
时, 将更新的样本添加到
m
i
m_i
m
i
(学生)的训练集中将不再提升学习效果. 从这个意义上说, 将
τ
s
≥
τ
t
\tau_s \geq \tau_t
τ
s
≥
τ
t
的点称为毕业点, 以便在达到约束时自然停止 tri-training 过程.