- 无标题文档
查看论文信息

中文题名:

 基于Spark的L-SimRank并行化研究与实现    

姓名:

 曹婍    

学生类型:

 学士    

学位名称:

 工学学士    

学校:

 中国人民大学    

院系:

 信息学院    

专业:

 计算机科学与技术    

第一导师姓名:

 杨刚    

完成日期:

 2015    

中文关键词:

 图分析算法   SimRank   L-SimRank   Spark   相似度  并行算法    

中文摘要:
衡量节点间相似度是图分析算法中非常基本的一个问题,可以作为社区发现、链路预测、商品推荐等工作的基础,SimRank就是其中一种流行的基于链接关系的相似度衡量算法。但其时间复杂度非常高,难以适应日渐增长的数据规模。而由UC伯克利AMP实验室开发的Spark是近年来兴起的一个分布式计算框架,具有超越Map Reduce的性能优势,前景广阔。Spark下的Graphx库也很好地支持了分布式环境下的图分析工作,包括点分割对图进行存储、基于边的Pregel模型对迭代图算法进行支持等。本论文主要对SimRank进行了研究,并针对单源节点问题对SimRank以及SimRank优化算法——L-SimRank进行了基于Spark平台的并行化研究与实现,以适应大规模数据需求,提高其可扩展性。同时对Spark平台的运行策略设定进行了初探,给出了特定数据规模、特定算法下的分区数设定建议。实验表明,基于Spark平台对SimRank以及L-SimRank进行并行化实现是可行高效且具有现实意义的。最终,基于以上的研究成果,设计并实现了基于Spark的SimRank相似度查询平台,支持文件上传、预处理、在线查询等功能。
开放日期:

 2016-03-21    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式