- 无标题文档
查看论文信息

中文题名:

 基于词典与Doc2Vec融合的在线评论文本情感分析研究    

姓名:

 师兵范    

学科名称:

 管理学 - 管理科学与工程类 - 信息管理与信息系统    

学生类型:

 学士    

学位名称:

 管理学学士    

学校:

 中国人民大学    

院系:

 信息资源管理学院    

专业:

 信息管理与信息系统(政务信息管理方向 )    

第一导师姓名:

 杨冠灿    

完成日期:

 2019-04-24    

提交日期:

 2019-05-06    

奖项名称:

 中国人民大学优秀本科毕业论文一等奖    

颁奖单位:

 中国人民大学    

获奖时间:

 2019    

中文关键词:

 评论文本 ; 情感分析 ; Doc2Vec ; 情感词典 ; 特征词典    

外文关键词:

 Commentary Text ; Emotional Analysis ; Doc2Vec ; Emotional Dictionary ; Feature Dictionary    

中文摘要:

随着互联网金融的快速发展,出现大量在线评论文本数据,如何从非结构化的文本评论中挖掘出用户观点、情感倾向等成为具有重要实践意义的研究热点。本文介绍了在线评论文本情感分析的两类主流方法,即基于词典的情感分析方法和基于机器学习的情感分析方法,并在此基础上开展基于词典与Doc2Vec融合的在线评论文本情感分析研究。首先通过在线评论爬虫抓取了京东商城ThinkPad系列笔记本电脑正负情感倾向的有效评论,之后对评论文本进行情感倾向标注、中文分词、去停用词等预处理工作,然后选用Doc2Vec算法进行文本的向量化表达。形成三种情感分析模型:文本预处理后进行Doc2Vec的传统Doc2Vec情感分析模型;结合情感词典进行语义增强的Doc2Vec情感分析模型;融合特征词典和增强Doc2Vec的融合情感分析模型,之后均使用逻辑回归、梯度提升决策树两种常用分类算法进行模型分类,并输出学界公认的评价指标进行模型评测,最后总结研究中存在的不足,探讨其可能的应用场景。

外文摘要:

With the rapid development of Internet Finance, there are a large number of online comment text data. How to extract user views and emotional tendencies from unstructured text reviews has become a research hotspot of great practical significance. This paper introduces two main methods of online comment text sentiment analysis, namely dictionary-based sentiment analysis method and machine learning-based sentiment analysis method, and then carries out online comment text sentiment analysis based on feature dictionary and Doc2Vec fusion. Firstly, the online comment crawler captures the effective comment of positive and negative emotional tendency of ThinkPad series notebook computers in Jingdong Mall. Then, it preprocesses the comment text with emotional orientation annotation, Chinese word segmentation and deactivation words. Then, it chooses Doc2Vec algorithm to express the text vectorally. Three kinds of affective analysis models are formed: traditional Doc2Vec affective analysis model based on Doc2Vec after text preprocessing; Doc2Vec affective analysis model based on semantic enhancement combined with affective dictionary; integrated affective analysis model based on feature dictionary and enhanced Doc2Vec. After that, two commonly used classification algorithms, logical regression and gradient lifting decision tree, are used to classify the models, and the results are recognized by the academic circles. The evaluation index is used to evaluate the model. Finally, the shortcomings in the research are summarized and the possible application scenarios are discussed.

总页码:

 26    

参考文献:

[1] 丁晟春著.在线评论信息挖掘研究[M].2014

[2] 朱俭著.文本情感分析关键技术研究[M].2015

[3] 史伟著.中文微博文本的大数据挖掘 情感分析视角[M].2017

[4] 黄仁,张卫.基于word2Vec的互联网商品评论情感倾向研究[J].计算机科学,2016,43(S1):387-389.

[5] 彭晓彬.基于word2Vec的文本情感分析方法研究[J].网络安全技术与应用,2016(07):58-59.

[6] 梅莉莉,黄河燕,周新宇,毛先领.情感词典构建综述[J].中文信息学报,2016,30(05):19-27.

[7] 王晨超,刘洋.基于Doc2Vec和深度神经网络的中文文本情感倾向研究[J].电子技术与软件工程,2018(10):154-157.

[8] 刘爽,赵景秀,杨红亚,徐冠华.文本情感分析综述[J].软件导刊,2018,17(06):1-4+21.

[9] 雷朔,刘旭敏,徐维祥.基于词向量特征扩展的中文短文本分类研究[J].计算机应用与软件,2018,35(08):269-274.

[10] Yang Shen, Shu chen Li, Ling Zheng, Xiao dong Ren, Xiao long Cheng. Emotion mining research on micro-blog[P]. Web Society, 2009. SWS '09. 1st IEEE Symposium on,2009.

[11] Ai Min. Yang Jiang Hao Lin, Yong Mei Zhou, et al. Research on Building a Chinese Sentiment Lexicon Based on SO-PMI[J]. Applied Mechanics and Materials,2013,2171(529):1688-1693.

[12] MICHAEL L. LITTMAN, PETER D. TURNEY. Measuring Praise and Criticism: Inference of Semantic Orientation from Association[J].ACM transactions on information systems,2003,21(4):315-346.

[13] He X., Pan J., Jin O., Xu T., Liu B., Xu T., Shi Y., Atallah A., Herbrich R., Bowers S., & Candela J.Q. (2014). Practical Lessons from Predicting Clicks on Ads at Facebook. ADKDD@KDD.

[14] Quoc Le, Tomas Mikolov. Distributed Representations of Sentences and Documents[C].//31st International conference on machine learning: ICML 2014, Beijing, China, 21-26 June 2014, volume 4 of 5.2014:2931-2939.

[15] 杨小平,张中夏,王良,张永俊,马奇凤,吴佳楠,张悦.基于Word2Vec的情感词典自动构建与优化[J].计算机科学,2017,44(01):42-47+74.

[16] 李锐,张谦,刘嘉勇.基于加权word2Vec的微博情感分析[J].通信技术,2017,50(03):502-506.

[17] 吴江,周露莎,刘冠君,贺超城.基于LDA的可穿戴设备在线评论主题挖掘研究[J].信息资源管理学报,2017,7(03):24-33.

[18] 安璐,吴林.融合主题与情感特征的突发事件微博舆情演化分析[J].图书情报工作,2017,61(15):120-129.

[19] 张紫琼,叶强,李一军.互联网商品评论情感分析研究综述[J].管理科学学报,2010,13(06):84-96.

[20] 赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(08):1834-1848.

[21] 张俊飞,毕志升,吴小玲.基于词向量Doc2Vec的双向LSTM情感分析[J].计算机与数字工程,2018,46(12):2385-2389+2399.

[22] 徐勇,张慧,陈亮.一种基于情感分析的UGC模糊综合评价方法——以淘宝商品文本评论UGC为例[J].情报理论与实践,2016,39(06):64-69.

[23] 王勇,吕学强,姬连春,肖诗斌.基于极性词典的中文微博客情感分类[J].计算机应用与软件,2014,31(01):34-37+126.

[24] 梁军,柴玉梅,原慧斌,昝红英,刘铭.基于深度学习的微博情感分析[J].中文信息学报,2014,28(05):155-161.

[25] 李实,叶强,李一军,Rob Law.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报,2009,12(02):142-152.

[26] 胡雅萌.基于词典与Doc2Vec融合的文本情感分析研究[D].武汉邮电科学研究院,2018.

[27] 陈慧.基于特征细分的中文情感分析研究[D].上海师范大学,2018.

[28] 夏帅.基于特征扩展的学术报告标题短文本分类研究[D].合肥工业大学,2018.

开放日期:

 2019-05-07    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式