中文题名: | 基于Spark的L-SimRank并行化研究与实现 |
姓名: | |
学生类型: | 学士 |
学位名称: | 工学学士 |
学校: | 中国人民大学 |
院系: | |
专业: | |
第一导师姓名: | |
完成日期: | 2015 |
中文关键词: | |
中文摘要: |
衡量节点间相似度是图分析算法中非常基本的一个问题,可以作为社区发现、链路预测、商品推荐等工作的基础,SimRank就是其中一种流行的基于链接关系的相似度衡量算法。但其时间复杂度非常高,难以适应日渐增长的数据规模。而由UC伯克利AMP实验室开发的Spark是近年来兴起的一个分布式计算框架,具有超越Map Reduce的性能优势,前景广阔。Spark下的Graphx库也很好地支持了分布式环境下的图分析工作,包括点分割对图进行存储、基于边的Pregel模型对迭代图算法进行支持等。本论文主要对SimRank进行了研究,并针对单源节点问题对SimRank以及SimRank优化算法——L-SimRank进行了基于Spark平台的并行化研究与实现,以适应大规模数据需求,提高其可扩展性。同时对Spark平台的运行策略设定进行了初探,给出了特定数据规模、特定算法下的分区数设定建议。实验表明,基于Spark平台对SimRank以及L-SimRank进行并行化实现是可行高效且具有现实意义的。最终,基于以上的研究成果,设计并实现了基于Spark的SimRank相似度查询平台,支持文件上传、预处理、在线查询等功能。
﹀
|
开放日期: | 2016-03-21 |