最近在研究主题模型中的LDA算法,找到了matlab中的topictool工具箱,网上查到的资料很少,学起来有点困难,现将学习记录与此,希望有共同研究目的的朋友一起讨论,大家一起学习。
持续更新中,未完待续。。
topictool 下载地址:
http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm#Matlab_Functions
    
     >>help topictool
    
    
   
    
     
    
   
    
     
    
   
    GibbsSamplerLDA
   
   
    [ WP,DP,Z ] = GibbsSamplerLDA( WS,DS,T,N,ALPHA,BETA,SEED,OUTPUT )
   
   
    
     WS(k),WS的最大值为W:词汇量的大小
    
   
    
     DS(k),DS的最大值为D:文档数
    
   
    
     
      WS(k)
     
     
      and
     
     
      DS(k)
     
     
      contain the word and document indices for the kth token.
     
     
    
   
    
     
      
     
    
   
    
     T;话题数
    
   
    
     
    
   
    
     首先输出稀疏矩阵WP,大小:W*T,
     
      WP(i,j):词i分配给话题j的次数,词和话题的关系,或者说是概率分布。
     
    
   
    
     
      第二个输出矩阵DP,大小:D*T,
      
       DP(i,j):
      
     
    
    
     文档d中的
    
    
     一个单词分配给话题j的次数,文档和话题的关系。
    
   
    
     
      
       第三个输出Z,话题
      
     
    
   
    
     
      
       
      
     
    
   
    
     
      
       
        [ WP,DP,Z ] = GibbsSamplerLDA( WS,DS,T,N,ALPHA,BETA,SEED,OUTPUT )运行吉布斯抽样,初始状态ZIN?
       
       
      
     
    
   
    
    
   
 
