主讲人:陈进东(博士后)
时间:2015年4月23日上午12:00 地点:N202
摘要:选取网络论坛“天涯社区”的“天涯杂谈”板块作为研究对象,借鉴社会心理中社会风险研究成果,探索网络论坛文本的社会风险分类方法。由于帖子语料的复杂性,采用忽略语义和词序的“词袋”模型建立的帖子文本向量,难以通过机器学习取得满意的分类效果。在考虑语义和词序的基础上,采用深度学习模型Post Vector无监督学习建立帖子文本向量,实现对帖子文本的Distributed Representation。
通过KNN、SoftMax Regression、Random Forest和支持向量机方法,利用深度学习建立文本向量,有效提高了训练速度和至少10%的文本分类精度。整合“词袋”模型和Post Vector模型的学习效果,进一步提高网络论坛文本分类的精度是未来的研究方向。