对向量、矩阵求导,和对标量求导还是有点区别,特别是转置和不转置,在网上参考了其他资料整理一下。
    
    
    介绍:
   
    在矩阵求导中,分为两种布局:分别是分子布局(Numerator Layout)和分母布局(Denominator Layout)。
    
    考虑
    
     
      
       x 
,
y
        x,y
      
      
       
        
        
        
         x
        
        
         ,
        
        
        
        
         y
        
       
      
     
    
    分别是
    
     
      
       n 
,
m
        n,m
      
      
       
        
        
        
         n
        
        
         ,
        
        
        
        
         m
        
       
      
     
    
    维列向量,
    
     
      
       A 
        A
      
      
       
        
        
        
         A
        
       
      
     
    
    是
    
     
      
       m 
×
n
        m×n
      
      
       
        
        
        
         m
        
        
        
        
         ×
        
        
        
       
       
        
        
        
         n
        
       
      
     
    
    矩阵,
    
     
      
       z 
        z
      
      
       
        
        
        
         z
        
       
      
     
    
    是标量.
   
    
    
    Numerator Layout
   
    想象分子不变, 分母转置.
    
     
   
    
    
    Denominator Layout
   
    想象分母不变, 分子转置.
    
    
    
    再来看常用矩阵求导
   
    
    
    一、向量求导
   
    
    
    1、向量对向量求导
   
     
   
    
    
    2、标量对向量求导
   
    
    
     
   
    
    
    3、向量对标量求导
   
     
   
    
    
    2、常见矩阵
   
    
    
    (1)梯度
   
    
    
     
   
    
    
    (2)雅克比矩阵
   
    
    
     
   
    
    
    (3)海森矩阵
   
     
   
    
    
    三、矩阵求导
   
    
    
    当
    
     
      
       A 
        A
      
      
       
        
        
        
         A
        
       
      
     
    
    为堆成矩阵时,
    
     
      
       A 
T
=
A
        A^T = A
      
      
       
        
        
        
         
          A
         
         
          
           
            
             
              
              
              
               
                T
               
              
             
            
           
          
         
        
        
        
        
         =
        
        
        
       
       
        
        
        
         A
        
       
      
     
    
    
    
    
    参考:https://blog.csdn.net/daaikuaichuan/article/details/80620518
   
 
