- 无标题文档
查看论文信息

中文题名:

 深网的测量技术及其系统研究    

姓名:

 王美琪    

学科名称:

 信息安全    

学生类型:

 学士    

学位名称:

 工学学士    

学校:

 中国人民大学    

院系:

 信息学院    

专业:

 信息安全    

第一导师姓名:

 石文昌    

完成日期:

 2016-05-28    

提交日期:

 2016-05-28    

中文关键词:

 深网 深网测量 Zmap 搜索引擎    

中文摘要:

随着互联网信息的不断扩充,越来越多的信息资源使得网络空间的内容愈加丰富。但是,传统的搜索引擎受技术等各种限制,导致大量信息隐藏在网络深海之中,变成“不可见”的深网信息。而另一方面,深网中可能存在违反法律、危害国家网络空间安全的敏感信息。因此,对深网进行发现、提取与测量工作十分必要。

目前对于深网信息的搜索与挖掘方面的研究仍然处于探索阶段,还有大量问题需要深入细致的研究。对于通过填写表单形成对后台在线数据库的查询而得到的动态页面,研究者已经在深网入口发现与识别、查询接口模式抽取,查询接口集成以及查询结果采集等方面进行了很多研究工作;而针对由于缺乏被指向的超链接而没有被搜索引擎引到的页面,尚未有比较成熟的研究成果。

围绕着深网测量技术,本文做了以下主要研究工作:

首先,对深网相关知识和国内外研究状况进行学习和分析,具体包括深网

的概念、价值,以及深网的发现、识别、验证技术等,并提出了本文的研究问题和方向;然后,介绍本文所应用的深网测量技术,包括深网的发现、识别与验证技术,介绍技术原理与方法;接下来,基于上述的深网测量技术,设计并实现了一个深网测量系统,介绍了系统的总体设计,模块化设计以及各模块的具体实现;最后,根据实验结果进行统计分析,对深网进行了初步的测量,并对下一步的工作做出展望。

目前对深网的研究虽然还只处于初期阶段,但是,随着人们对深网探索的不断深入,深网研究必将取得更大的突破和收获。

 

关键词:深网; 深网测量; Zmap; 搜索引擎

外文摘要:

With the continuously expanding of the Internet information, more and more information resources make the network space much larger. However, technical limitations of traditional search engines make a great deal of information hidden in the deep sea of network and become “invisible” deep web information. In addition, sensitive information which breaks the law and endangers the safety of cyber space exists in the deep web. Therefore, it is necessary to research on measurement techonology of the deep web. 

With lots of problems to solve, for now research on searching and digging deep web information is still in its exploring stage. For pages that can only be accessed by query interfaces provided by Web database, a great deal of research work is developed, such as the discovery and identification of the deep web entrance, mode extracting and integration of query interfaces, collection of results and so on. Yet for pages whose "invisibility" is caused by lacking hyperlinks pointed to them, there are still a number of challenging issues.

 Around deep web measurement technology, we make the following work:

 Firstly, study and analyze the related knowledge about deep web as well as the research status at home and abroad, including the concept, value, discovery, identification, authentication technology of the deep web. Moreover, the research question and direction is put forward. Secondly, our measurement technology is introduced, including its principle and technical method. Thirdly, a deep web measurement system is designed and implemented on account of the measuring technology above. Then we introduce the overall design of the system, modular design and the realization of each module. Finally, do the statistical analysis on the experimental results and make an outlook of the next step work. 

Research on deep web is only in its early stage, however, greater breakthrough and harvest will be made with the deepening exploration of the deep web.

Key Words:deep web; deep web measurement; Zmap; search engines

总页码:

 42    

参考文献:

[1] Price D.Surprising Facts and Stats About The Big Data Industry[EB/OL].http://cloudtweaks.com/2015/03/surprising-facts-and-stats-about-the-big-data-industry/.2016年4月28日访问.

[2] Cisco.The Zettabyte Era—Trends and Analysis[EB/OL]. http://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/VNI_Hyperconnectivity_WP.html. 2016年4月28日访问.

[3] 清华大学智能技术与系统国家重点实验室智能检索组.面向搜索引擎的用户行为分析[EB/OL]. http://www.thuir.cn/group/~YQLiu/slides/UserBehavior2011v2.pdf. 2016年4月28日访问.

[4] Liu Y, Zhang M, Ma S, et al. User Browsing Graph: Structure, Evolution and Application.[C]// International Conference on Web Search and Web Data Mining, WSDM 2009, Barcelona, Spain, February. 2009.

[5] 赵朋朋,高岭,崔忠明.基丁查询接口特征的Deep Web数据源自动分类[J].微电子学与计算机,2006,23(10):47-50

[6] Sherman C,Price G. The Invisible Web:Uncovering Information Sources Search Engines Can’t See[M].New York:Cyber Age Books,2001

[7] 刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489

[8] Bergman M K. The Deep Web: Surfacing Hidden Value[J]. Journal of Electronic Publishing, 2000, 50(1):476–481.

[9] 央广网.全球最大网络黑市“丝路”被破获 创建者面临终身监禁[EB/OL].http://china.cnr.cn/qqhygbw/20150214/t20150214_517758434.shtml.2016年5月1日访问.

[10] Maurice de Kunder.The size of the World Wide Web[EB/OL]. http://www.worldwidewebsize.com/.2016年5月1日访问.

[11] 王梦遥.2015年中国网页数量首破2000亿[N].新京报,2016-01-22.

[12] 高岭.DeepWeb分类搜索引擎关键技术研究[D].硕士学位论文,苏州大学,2007

[13] 郑冬冬,赵明明,崔志明.Deepweb爬虫研究与设计[J].清华大学学报(自然科学版),2005,45(S1):34~35

[14] 郑冬冬,崔志明.DeepWeb爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154~3158

[15] Wu P, Wen J R, Liu H, et al.Query selection techniques for efficient crawling of structured Web sources[C] //Proc. of the 22nd Int’l Conf. On Data Engineering.Atlanta:IEEE Computer Society, 2006:47-56 

[16] Bergholz A, Childlovskii B. Crawling for domain-specific hidden Web resources[C]// International Conference on Web Information Systems Engineering. 2004:125-133.

[17] Lage J P, Silva A S D, Golgher P B, et al. Automatic generation of agents for collecting hidden Web pages for data extraction[J]. Data & Knowledge Engineering, 2004, 49(2):177-196.

[18] Cope J, Craswell N, Hawking D. Automated Discovery of Search Interfaces on the Web[C]// Australasian Conference on Database Technologies. 2004:181--189.

[19] Zhang B Z. Bin He and Kevin Chen-Chuan Chang, Understanding Web Query Interfaces: Best-Effort Parsing with Hidden Syntax, SIGMOD ’04[J]. 2010.

[20] Arasu A, Garcia-Molina H. Extracting structured data from Web pages[C]// Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data, San Diego, California, USA, June 9-12, 2003. 2003:337--348.

[21] Crescenzi V, Mecca G, Merialdo P. RoadRunner: Towards Automatic Data Extraction from Large Web Sites[J]. Vldb Issn –3455 Sistedes, 2001:109--118.

[22] Wittenburg K, Weitzman L. Visual grammars and incremental parsing for interface languages[C]// Visual Languages, 1990. Proceedings of the 1990 IEEE Workshop on. 1990:111 - 118.

[23] Holt M M. Statistics and Data Analysis From Elementary to Intermediate[J]. Science, 2000, 299(5606):530.

[24] He H, Meng W, Yu C, et al. WISE-Integrator : An Automatic Integrator of Web Search Interfaces for E-Commerce[C]// International Conference on Very Large Data Bases-volume. 2003:357-368.

[25] Hammer J, García-Molina H, Nestorov S, et al. Template-Based Wrappers in the Tsimmis System[J]. Acm Sigmod Record, 1997, 26(2):532--535.

[26] Arocena G O, Mendelzon A O. WebOQL: restructuring documents, databases and Webs[J]. Proc of IEEE Icde, 1998, 5(3):24-33.

[27] Liu L, Pu C, Han W. XWRAP: an XML-enabled wrapper construction system for Web information sources[J]. Icde, 2000:611-621.

[28] Liu B, Grossman R, Zhai Y. Mining data records in web pages[J]. Kdd’, 2003:601-606.

[29] Meng X, Lu H, Wang H, et al. SG-WRAP: A Schema-Guided Wrapper Generator[J]. Proceeding of Icde, 2002:331-332.

[30] Raghavan S, Garcia-Molina H. Crawling the Hidden Web[J]. Vldb, 2003, 18(2):129--138.

[31] Doorenbos R B, Etzioni O, Weld D S. A scalable comparison-shopping agent for the World-Wide Web[C]// International Conference on Autonomous Agents. ACM, 1997:39--48.

[32] 姜芳艽, 孟小峰, 贾琳琳. Deep Web集成服务的不确定模式匹配[J]. 计算机学报, 2008, 31(8):1412-1421.

[33] Gao L, Zhao P P, Cui Z M. Automatic Judgment of Deep Web Query Interfaces[J]. Computer Technology & Development, 2007.

[34] 李文骏, 崔志明. 基于搜索引擎的Deep Web数据源发现技术[J]. 计算机技术与发展, 2008, 18(8):58-60.

[35] 徐和祥, 王鑫印, 王述云,等. 基于知识的Deep Web集成环境变化处理的研究[J]. 软件学报, 2008, 19(2):257-266.

[36] 马军, 宋玲, 韩晓晖,等. 基于网页上下文的Deep Web数据库分类[J]. 软件学报, 2008, 19(2):267-274.

[37] 陈鹏, 刘烈宏. 深度web资源搜索关键技术[J]. 北京航空航天大学学报, 2009, 35(1):13-17.

[38] Nelson M L, Sompel H V D, Liu X, et al. mod_oai: An Apache Module for Metadata Harvesting[J]. Proceedings of European Conference on Digital Libraries, 2005, abs/cs/0503069:509-510.

[39] Madhavan, Jayant, Ko, David, Kot等. Google's Deep Web crawl[J]. Proceedings of the Vldb Endowment, 2008, 1(2):1241-1252.

[40] 百度百科.百度阿拉丁平台[EB/OL]. http://baike.baidu.com/link?url=MHILFjaSXBHVv1J-Ai0Brbm_f8YYGebCAyt17M0HshSDMM_2RATbhV52tZIL2S7BsUoJZi3EdkaU_qeQsRzTg_. 2016年5月1日访问.

[41] Wolfram.Wolfram|Alpha:computational knowledge engine[EB/OL]. http://wolframalpha.com. 2016年5月1日访问.

[42] 百度百科.开放式目录. http://baike.baidu.com/link?url=j040eEnLxH79p46STdgwXfsSCgFVWHR6K4I_UJ8KD76tLyq4GzpHXVNcJhzcM0e50gKzQs1x8xPD9KamdExGea.2016年5月1日访问.

[43] The Censys Team at the University of Michigan.Internet-Wide Scan Data Repository[EB/OL].https://scans.io/.2016年5月1日访问.

[44] Durumeric Z, Wustrow E, Halderman J A. ZMap: fast internet-wide scanning and its security applications[C]// Usenix Conference on Security. USENIX Association, 2013:605-620.

[45] Alexa Internet,Inc.Alexa[EB/OL].http://www.alexa.com.2016年5月1日访问.

开放日期:

 2016-05-30    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式