查看论文信息

中文题名：	基于Spark的L-SimRank并行化研究与实现
姓名：	曹婍
学生类型：	学士
学位名称：	工学学士
学校：	中国人民大学
院系：	信息学院
专业：	计算机科学与技术
第一导师姓名：	杨刚
完成日期：	2015
中文关键词：	图分析算法　　　SimRank　　　L-SimRank　　　Spark　　　相似度　　并行算法
中文摘要：	︿衡量节点间相似度是图分析算法中非常基本的一个问题，可以作为社区发现、链路预测、商品推荐等工作的基础，SimRank就是其中一种流行的基于链接关系的相似度衡量算法。但其时间复杂度非常高，难以适应日渐增长的数据规模。而由UC伯克利AMP实验室开发的Spark是近年来兴起的一个分布式计算框架，具有超越Map Reduce的性能优势，前景广阔。Spark下的Graphx库也很好地支持了分布式环境下的图分析工作，包括点分割对图进行存储、基于边的Pregel模型对迭代图算法进行支持等。本论文主要对SimRank进行了研究，并针对单源节点问题对SimRank以及SimRank优化算法——L-SimRank进行了基于Spark平台的并行化研究与实现，以适应大规模数据需求，提高其可扩展性。同时对Spark平台的运行策略设定进行了初探，给出了特定数据规模、特定算法下的分区数设定建议。实验表明，基于Spark平台对SimRank以及L-SimRank进行并行化实现是可行高效且具有现实意义的。最终，基于以上的研究成果，设计并实现了基于Spark的SimRank相似度查询平台，支持文件上传、预处理、在线查询等功能。﹀
开放日期：	2016-03-21

附件下载