- 无标题文档
查看论文信息

中文题名:

 基于Word2Vec的双语词向量学习系统的设计与实现    

姓名:

 王吉磊    

学生类型:

 学士    

学位名称:

 工学学士    

学校:

 中国人民大学    

院系:

 信息学院    

专业:

 计算机科学与技术    

第一导师姓名:

 柴云鹏    

完成日期:

 2015    

中文摘要:
随着深度学习在自然语言处理领域的应用,词向量方面的研究受到了广泛的关注。目前,词向量学习普遍使用了基于神经网络语言模型的方法,其中最著名的是Google公司提供的Word2Vec开源框架。双语词向量,是指将两种语言的词向量学习到同一向量空间中,在机器翻译、词义消歧等领域有着重要作用。双语词向量学习目前还没有公认较好的方法。在算法方面,本文中,分析对比了目前常见的向量空间映射法和基于双语平行语料的机器翻译对齐法、句对齐法三种双语词向量学习方法,在此基础上提出了一种新的基于字典的对齐法。应用到中文和日文的双语词向量场景下,本文在基于字典对齐法的基础上提出了一种优化方案,基于同形汉字的对齐法。在运算速度方面,本文中分析了多线程并行的方法,提出并实现了一种基于MapReduce计算模型的并行随机梯度下降算法的双语词向量学习方法。在应用方面,本文设计并实现了双语词向量的在线学习算法,并结合数据自动获取模块、数据预处理模块、展示平台,设计并实现了一个双语词向量在线学习集成系统。
开放日期:

 2016-03-21    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式