Learning to Generalize:Meta-Learning for Domain Geralization 深度理解（公式详细推导，包含二阶导）

Post author:xfxia
Post published:2023年4月24日
Post category:其他

1.算法整体流程

输入：训练域为:

$S$

初始化：模型参数

\theta

$θ$ ,学习率：

\beta,\gamma

$β, γ$

for ite in iterations do

Split:

\bar{S}

$\overset{ˉ}{S}$ and

\check{S}

$\overset{ˇ}{S}$

→

\rightarrow

$\to$

$S$

Meta-train:

Gradients

∇

′

(

;

)

\nabla_{\theta_1}=\mathcal{F^{‘}_\theta}(\bar{S};\theta)

$\nabla_{θ_{1}} = F_{θ}^{^{'}} (\overset{ˉ}{S}; θ)$

Updated parameters

′

−

∇

\theta^{‘}=\theta-\beta\nabla_{\theta_1}

$θ^{^{'}} = θ - β \nabla_{θ_{1}}$

Meta-test:

Loss is

(

;

′

)

\mathcal{G}(\check{S};\theta^{‘})

$G (\overset{ˇ}{S}; θ^{^{'}})$

Gradients Update

\theta:

$θ :$

∇

(

;

′

)

(

;

−

∇

)

′

(

;

−

∇

)

(

−

∇

)

′

(

;

−

∇

)

(

−

∇

)

\nabla_{\theta_2}=\frac{d\mathcal{G}(\check{S};\theta^{‘})}{d\theta}=\frac{d\mathcal{G}(\check{S};\theta-\beta\nabla_{\theta_1})}{d\theta^{‘}}\frac{d\theta^{‘}}{d\theta}=\mathcal{G^{‘}_{\theta^{‘}}}(\check{S};\theta-\beta\nabla_{\theta_1})\frac{d(\theta-\beta\nabla_{\theta_1})}{d\theta}=\mathcal{G^{‘}_{\theta^{‘}}}(\check{S};\theta-\beta\nabla_{\theta_1})(1-\beta\frac{d\nabla_{\theta_1}}{d\theta})

$\nabla_{θ_{2}} = \frac{d G ( S ˇ ; θ ^{^{'}} )}{d θ} = \frac{d G ( S ˇ ; θ - β \nabla _{θ_{1}} )}{d θ ^{^{'}}} \frac{d θ ^{^{'}}}{d θ} = G_{θ^{^{'}}}^{^{'}} (\overset{ˇ}{S}; θ - β \nabla_{θ_{1}}) \frac{d ( θ - β \nabla _{θ_{1}} )}{d θ} = G_{θ^{^{'}}}^{^{'}} (\overset{ˇ}{S}; θ - β \nabla_{θ_{1}}) (1 - β \frac{d \nabla _{θ_{1}}}{d θ})$

Meta-optimization: Update

在

线

的

不

支

持

{

}

标

签

，

贴

图

如

下

\theta:{\color{Red}csdn在线markdnow的latex不支持begin\{align\}标签，贴图如下}

$θ : c s d n 在线 m a r k d n o w 的 l a t e x 不支持 b e g i n {a l i g n} 标签，贴图如下$
在这里插入图片描述

2.总结

MLDG是第一篇将meta learning引入domain generalization的论文。在这篇论文中，

(

;

)

(

;

)

\mathcal{G}(;)=\mathcal{F}(;)=CrossEntropy

$G (;) = F (;) = C r o s s E n t r o p y$ ，二阶导几乎不起作用，训练模型的时候可以将代码中二阶导计算关掉(没用还很耗时)。

loss.backward(retain_graph=True, create_graph=True)
->改为
loss.backward(retain_graph=True, create_graph=False)

这篇文章提出的方法等效于Source_only先在

\bar{S}

$\overset{ˉ}{S}$ 然后再在

\check{S}

$\overset{ˇ}{S}$ 上训练,等效于Source_only在

$S$ 上训练。楼主跑过他的代码，性能与Source_only完全相同(想要借鉴这篇文章涨点的同学还请赶紧绕路)。个人认为他的insight在于启发了后续的meta-dg方法，后续方法重新设计能够约束特征空间的

(

;

)

\mathcal{G}(;)

$G (;)$ ，后续方法是否有效等楼主验证后再更新。

原文链接：https://blog.csdn.net/Dailleson/article/details/108703140

1.算法整体流程

2.总结

你可能也喜欢