摘要
在睡了十一个小时后,蹦出的思路,目前网上没有看到相同的方法(不知道比赛刚结束就发思路会不会出事),第一题和第三题大家大同小异,就不讲解了。
题目
对于给定的未来解决方案单词,在未来的日期,开发一个模型,使您能够预测报告结果的分布。换句话说,预测未来日期(1,2,3,4,5,6,X)的相关百分比。你的模型和预测有哪些不确定性?举一个具体的例子,说明你对2023年3月1日
EERIE
一词的预测。你对模型的预测有多自信?
思路
首先是单词特征,笔者在这里选择了 6 个特征
-
词频(
https://www.kaggle.com/datasets/rtatman/english-word-frequency
) - 词性(名词,动词 ……)
- 音节数
- 词的情感分类(贬义,中性,褒义)
- 重复字母数
- 当天是否是假期
要预测的 7 个百分比是很明显呈正态分布,可以使用正态分布曲线拟合,可视化如下
这样就可以将 7 个要预测的特征转化为 2 个特征(std,mean)
再搭建神经网络预测即可,由于数据量较少,笔者使用多层 Dropout 的方法,p 相继下降来防止过拟合,提高泛化。网络结构如下所示,超参在文末代码中
最后预测的
EERIE
百分比如下图所示
代码我放在了 github 仓库
https://github.com/aeeeeeep/2023MCM-C-Task2
欢迎给个 star ⭐⭐⭐~
版权声明:本文为weixin_44334901原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。