关键词:深网; 深网测量; Zmap; 搜索引擎


With the continuously expanding of the Internet information, more and more information resources make the network space much larger. However, technical limitations of traditional search engines make a great deal of information hidden in the deep sea of network and become “invisible” deep web information. In addition, sensitive information which breaks the law and endangers the safety of cyber space exists in the deep web. Therefore, it is necessary to research on measurement techonology of the deep web. 

With lots of problems to solve, for now research on searching and digging deep web information is still in its exploring stage. For pages that can only be accessed by query interfaces provided by Web database, a great deal of research work is developed, such as the discovery and identification of the deep web entrance, mode extracting and integration of query interfaces, collection of results and so on. Yet for pages whose "invisibility" is caused by lacking hyperlinks pointed to them, there are still a number of challenging issues.

 Around deep web measurement technology, we make the following work:

 Firstly, study and analyze the related knowledge about deep web as well as the research status at home and abroad, including the concept, value, discovery, identification, authentication technology of the deep web. Moreover, the research question and direction is put forward. Secondly, our measurement technology is introduced, including its principle and technical method. Thirdly, a deep web measurement system is designed and implemented on account of the measuring technology above. Then we introduce the overall design of the system, modular design and the realization of each module. Finally, do the statistical analysis on the experimental results and make an outlook of the next step work. 

Research on deep web is only in its early stage, however, greater breakthrough and harvest will be made with the deepening exploration of the deep web.

Key Words:deep web; deep web measurement; Zmap; search engines




