#2500759
文章目录
- 技术路线
- 我不太懂的几个问题与解答
- 1. LSTM怎么用于获取时间趋势信息,输入和输出是什么
- 2. Bootstrap
- 3. Wlicoxon符号秩检验怎么用于确定零突破
- 4. SHapley Additive exPlanations (SHAP)
- 5. Difference-in-Differences (DID) model
技术路线
问题1:
建立预测模型,预测2028年洛杉矶奥运会上每个国家的金牌和奖牌总数,并把预测结果和2024年巴黎奥运会比较
解:
(1)数据预处理:插值、清洗,PCA降维并去噪
(2)预测模型:LSTM考虑时间趋势信息,以建立dual-channel的XGBoost-Bootstrap预测模型(改进的XGBoost算法)
- 对于数据点少的小国,在应用LSTM之前使用了插值。
- LSTM调参考虑了两个参数:①隐藏层的神经元数量,②epoch数。并在文中展示了不同参数的结果。
- 基于PCA和LSTM,获得了XGBoost的输入数据。接着分别构建基于金牌数和总奖牌数的XGBoost预测模型(即建立了两个模型)
- XGBoost模型使用了10重交叉验证和网格搜索
- 超参数调整确定了nrounds, max_depth, eta, gamma, …多个参数
- XGBoost模型效果的评估指标:RMSE
- 使用Bootstrap重采样预测置信区间
问题2:
使用问题1中的模型,预测2028年奥运会赢得首枚奖牌的国家,并估计“zero breakthrough”零突破的可能性
解:使用Wlicoxon符号秩检验确定哪些国家会赢得第一枚奖牌及对应概率。
问题3:
分析奥运会项目和奖牌数的关系,考虑主办国和所选项目的影响
解:利用Spearman相关系数和SHapley Additive exPlanations (SHAP)进行关系和重要性分析
问题4:
创建模型以预测在特定体育项目中具有“伟大教练”效应的国家,并提供贡献系数
解:利用Difference-in-Differences (DID) model量化教练更换的竞争效益,并进行统计显著性检验及平行趋势检验
问题5:
基于工作,提供额外的见解(insights)
我不太懂的几个问题与解答
1. LSTM怎么用于获取时间趋势信息,输入和输出是什么
gpt:趋势编码器(trend encoder)
作用:时间序列建模、趋势特征提取(Representation Learning)
同类型方法:
输入与输出:
2. Bootstrap
作用:给 XGBoost 的预测结果做不确定性估计(置信区间)
同类型方法:
怎么用: