最近在研究主题模型中的LDA算法,找到了matlab中的topictool工具箱,网上查到的资料很少,学起来有点困难,现将学习记录与此,希望有共同研究目的的朋友一起讨论,大家一起学习。
持续更新中,未完待续。。
topictool 下载地址:
http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm#Matlab_Functions
>>help topictool
GibbsSamplerLDA
[ WP,DP,Z ] = GibbsSamplerLDA( WS,DS,T,N,ALPHA,BETA,SEED,OUTPUT )
WS(k),WS的最大值为W:词汇量的大小
DS(k),DS的最大值为D:文档数
WS(k)
and
DS(k)
contain the word and document indices for the kth token.
T;话题数
首先输出稀疏矩阵WP,大小:W*T,
WP(i,j):词i分配给话题j的次数,词和话题的关系,或者说是概率分布。
第二个输出矩阵DP,大小:D*T,
DP(i,j):
文档d中的
一个单词分配给话题j的次数,文档和话题的关系。
第三个输出Z,话题
[ WP,DP,Z ] = GibbsSamplerLDA( WS,DS,T,N,ALPHA,BETA,SEED,OUTPUT )运行吉布斯抽样,初始状态ZIN?