中文题名: | 基于本体的短文本特征扩展 |
姓名: | |
学科名称: | 工学 - 计算机类 - 计算机科学与技术 |
学生类型: | 学士 |
学位名称: | 工学学士 |
学校: | 中国人民大学 |
院系: | |
专业: | |
第一导师姓名: | |
完成日期: | 2020-05-21 |
提交日期: | 2020-06-12 |
中文关键词: | |
中文摘要: |
对于在互联网的海量信息中存在着的大量的短文本信息,由于缺少上下文的信息,在进行文本聚类等处理时,需要基于本体进行特征扩展,而基于词向量、TFIDF权重、知识关联的研究对社交信息的挖掘与解读也具有相当积极的意义。 本文尝试在基于Word2Vector方法扩展的词向量上进行进一步优化,对于扩展后的词集,借助Wordnet的上位词、同义词集合进行概念提取,引入Wikipedia进行知识关联与信息检索,利用扩充的文档集合优化基于TFIDF计算的词汇矩阵中各分量的权重,进行一部分降噪处理,借助其中语义学的关联,最终取得更优的短文本聚类效果。 本文在ODP239的数据库上进行了大量实验,引入了外部的知识库wordnet与Wikipedia分别扩展词集与词频集,修正TF-IDF方法调整权重,采用cluto六种聚类方法进行测试,比较了这种基于本体的扩展方法与另外两种特征扩展方法的性能,确定能够优化聚类效果。 最后,本文就基于本体的短文本文本特征扩展的设计的特点,进行了归纳与总结。 |
外文摘要: |
For the large amount of short text information that exists in the massive information on the Internet, due to the lack of context information, when performing text clustering and other processing, feature expansion needs to be designed based on ontology with the usage of word vectors, TFIDF weights, knowledge correlation. Furthermore, in the aspect of mining and interpretation of social information, the research also has a very positive significance. This article attempts to further optimize the word vector based on the Word2Vector method. For the expanded word set, the concept extraction is carried out with the help of Wordnet’s set of hypernyms and synonyms, while Wikipedia corpus is introduced for knowledge association and information retrieval. The weight of each component in the feature matrix calculated by TFIDF is subjected to a part of noise reduction processing, and with the help of the semantic correlation, a better clustering effect of short text is finally obtained. In this paper, a lot of experiments were conducted on the ODP239 database. The external knowledge base wordnet and Wikipedia were introduced to expand the word set and word frequency set respectively. The TF-IDF method was adjusted to give the weight due to the expansion of the corresponding search results of Wikipedia corpus. Based on the comparison of the clustering performance of the ontology-based expansion method and the other two feature expansion methods, it is determined that the clustering effect can be optimized. Finally, the characteristic of the feature expansion of the short text design that based on the ontology such as wordnet and Wikipedia of this text, have summed up and summarized. |
总页码: | 37 |
参考文献: |
[1] 林利.基于本体的文本聚类的应用研究[D].天津:天津大学,2011. DOI:10.7666/d.Y2241477. [3] 崔壮壮.基于Word Embedding的短文本聚类算法研究及应用[D].黑龙江:哈尔滨工业大学,2019. [4] 韩肖赟,侯再恩,孙绵.主题模型在短文本上的应用研究[J].计算机工程与科学,2020,42(01):144-152. [5] 黄建一,李建江,王铮,方明哲.基于上下文相似度矩阵的Single-Pass短文本聚类[J].计算机科学,2019,46(04):50-56. [6] 张旭,孙玉伟,成颖.不同特征对文本聚类效果的比较研究——以新闻文本为例[J].情报理论与实践,2020,43(01):169-176. [7] 孟涛,王诚.基于扩展短文本词特征向量的分类研究[J].计算机技术与发展, 2019, 29(04):57-62. [8] 李鹏清.一种基于SamRank得分的谱聚类算法.计算机科学报,2018,45(11A) [9] 王俊丰,贾晓霞,李志强.基于K-means算法改进的短文本聚类研究与实现[J].信息技术,2019,43(12):76-80. [11] 刘欣,佘贤栋,唐永旺,王波.基于特征词向量的短文本聚类算法[J].数据采集与处理,2017,32(05):1052-1060. [12] 孙昭颖,刘功申.面向短文本的神经网络聚类算法研究.COMPUTER SCIENCE,2018,45(6A) [13] 高永兵,宋添树,李江宇,马占飞.基于知网的个人微博语义相关度的聚类研究[J].计算机工程与科学,2019,41(06):1128-1135. [14] Guarino N.Formal Ontology and Information System.Trento:IOS Press,1998:6-8 [15] 姜英杰.基于本体的短文本分类研究:[硕士论文].东北师范大学,2010 [16] 彭晨淼. 融合本体与BTM特征扩展的短文本分类:[硕士论文].广西师范大学,2018 [21] 杨波,杨文忠,殷亚博,何雪琴,袁婷婷,刘泽洋.基于词向量和增量聚类的短文本聚类算法[J].计算机工程与设计,2019,40(10):2985-2990+3055. [22] 杨俊峰,尹光花.基于word2vec和CNN的短文本聚类研究[J].信息与电脑(理论版),2019,31(24):20-22. [23] 付渊,王莉,冯秀芳,余雪丽.基于神经网络的文本聚类促进本体的构建[J].电脑开发与应用,2006(05):13-15. [24] 马存.基于Word2Vec的中文短文本聚类算法研究与应用[D].中国科学院大学(中国科学院沈阳计算技术研究所),2018:26-33. |
开放日期: | 2020-06-13 |