基于大规模文本数据的宏观经济与金融预测

发布时间:2025-02-27  |  来源:预测科学研究中心

经济政策调整和外部冲击,常常通过经济主体的心理反应,快速传导至资产价格、通胀预期等核心指标。然而,传统结构化数据(如宏观经济指标)难以实时捕捉市场情绪与叙事动态,导致预测模型在极端事件或政策转向时表现不稳定。网络文本数据(如新闻、社交媒体)蕴含大量非结构化信息,能够反映经济主体对政策变化和外部冲击的真实心理反应,为弥补结构化数据的不足提供了新视角。如何将文本信息用于宏观经济与金融重要指标预测是一个重要问题。

 

中国科学院数学与系统科学研究院、厦门大学和对外经贸大学等团队针对上述挑战,开展了一系列原创性研究。例如,基于《华尔街日报》88万篇财经新闻,通过LDA主题模型与动态词向量(Doc2Vec)的双重语义解析,提取出180维具有经济解释力的主题特征,将高维文本信息降维为可量化的主题时间序列。研究系统比较了Lasso回归、弹性网络、随机森林(RF)等7类计量模型和机器学习算法的预测效能,并对模型做组合,构建Comb模型,结果显示,RF模型和Comb模型在大多数预测时间范围内表现最佳,两种模型的相对均方根误差(rRMSE)在预测未来3个月、6个月、9个月和12个月的通胀率时分别为0.928/0.927、0.816/0.814、0.707/0.744和0.662/0.697。此外,不同主题对预测精度的提升作用存在差异,例如能源主题在短期预测中最为重要,而房地产市场主题在长期预测中最具影响力。研究进一步提出了双重信息融合机制,将文本主题与宏观经济数据的127个指标进行深度特征交叉,通过梯度提升决策树(GBDT)构建混合预测模型,显著提升了通胀预测精度。尤其在COVID-19疫情期间,模型相对误差快速收敛,表明叙事数据对极端经济衰退的预测优势。此外,研究团队还从Twitter社交媒体文本中构建区间型气候变化情绪指数,捕捉了政策风险与市场情绪的交互影响,构建阈值自回归区间模型(TARIX),实现了原油价格区间的高精度预测;进一步提出了稳健的区间交易策略,提升2倍以上的收益。这些工作通过文本数据挖掘与复杂建模技术的结合,突破了传统经济预测的局限性,为环境、社会与治理(ESG)目标下的投资决策提供了技术支撑。

 

相关论文:

【1】 Hong, Y., Jiang, F., Meng, L., & Xue, B. (2025). Forecasting inflation using economic narratives. Journal of Business & Economic Statistics, 43(1), 216-231.

【2】Cheng, Z., Li, M., Sun, Y., Hong, Y., & Wang, S. (2024). Climate change and crude oil prices: An interval forecast model with interval-valued textual data. Energy Economics, 134, 107612)

 

 洪永淼,汪寿阳,孙玉莹         ymhong@amss.ac.cn, sywang@amss.ac.cn, sunyuying@amss.ac.cn