- 无标题文档
查看论文信息

中文题名:

 基于Lucene的税务领域问答系统的研究和实现    

姓名:

 赵芊芊    

学科名称:

 信息工程    

学生类型:

 学士    

学位名称:

 工学学士    

学校:

 中国人民大学    

院系:

 信息学院    

专业:

 信息管理与信息系统    

第一导师姓名:

 杨小平    

完成日期:

 2016-05-19    

提交日期:

 2016-05-19    

中文关键词:

 自动问答系统税务本体知识库Lucene分析器中文分词余弦相似度    

外文关键词:

 Automatic question answering systemTaxationOntology knowledge base Lucene AnalyzerChinese SegmentationCosine similarity algorithm    

中文摘要:
& ltp& gt自动问答系统成为现在计算机应用的一个热门之一,它容许用户以符合人类的语言方式向系统提问,并以人类说话的方式返回给用户信息。用户可以迅速、精确地获取所需答案。问答系统分为开放性和封闭性两大类,前者不限定领域,用户可以提出任何感兴趣的问题,并得到答案;而后者解答特定领域的相关问题。由于税种众多,涉及诸多法律、法规,税务业务对于个人具有复杂性。对公司而言,使用员工解答将耗费不必要的人力、物力。因此,希望实现这样一个系统,能够对税务领域的税务问题进行解答。& lt/p& gt & ltp& gt本文按照税务业务的特点,构建了一个基于Lucene的自动问答系统。基于《简明税收知识问答》一书,获取税务领域常用问题和答案,再通过人工地进行动态拓展,构建税务领域本体知识库。因为Lucene框架功能强大,所以利用Lucene框架定制问答系统。中文分词是问答系统中的关键技术,它关系着系统对用户问题的理解是否准确,本文对Lucene的中文分析器分词效果进行了实验测试,选用分词效果最好的中文分析器。本文还使用余弦相似度算法,对备选答案进行排序,返回给最佳答案,如果无法解答,则由专家进行解答。通过自动问答和专家解答相结合,提供给用户更准确的答案,节省了公司人工成本,提高了解答效率。& lt/p& gt & ltp& gt关键词:自动问答系统税务本体知识库Lucene分析器中文分词余弦相似度& lt/p& gt
外文摘要:
& ltp& gtAutomatic question answering system is now one of a hotspot of computer application, which allows users to ask the system a question in natural language, and return the answer to the user in natural language. The user can obtain the information they need quickly and accurately.& lt/p& gt & ltp& gtThere are two kinds of question answering system, the open system and the closed system, the former is not limited to a field, the user can ask any questions they interested, and get the answer in any fields, while the later answers the problems in specific areas. Because of different categories of taxes, together with a number of laws and regulations, the taxation is complex to individuals. For the company, pure manual answer will consume a lot of manpower and material resources. Therefore, it is essential to achieve such a system, which can answer tax issues.& lt/p& gt & ltp& gtAccording to the acter of taxation, this paper designs and realizes an automatic question answering system based on Lucene. This system mainly includes three modules: the problem processing module, the information retrieval module, the answer extraction module. Based on the book "concise tax knowledge Q & A", common problems and answers in the tax field are obtained, and then through dynamic development of the field, the tax domain ontology knowledge base is constructed. Because the Lucene framework is powerful, the framework of Lucene is used to construct the question and answer system. Chinese word segmentation is the key technology of question answering system. It is related to accuracy of the system in understanding user&rsquos questions, so in this paper the Lucene Chinese analyzers&rsquo effects are tested, and the Chinese analyzer with best segmentation results is ed. This paper also use cosine similarity algorithm to sort the alternative answers, and to return the best answer to the user. If the system cannot answer the user, then the experts will answer the question. Through the combination of automatic question answering system and expert solution, it can provide more accurate answers to the users, saving the labor cost of the company, and improve the efficiency of the solution.& lt/p& gt & ltp& gt & lt/p& gt & ltp& gtKey word: Automatic question answering systemTaxationOntology knowledge baseLucene AnalyzerChinese SegmentationCosine similarity algorithm& lt/p& gt
总页码:

 27    

参考文献:

【1】 刘佐.简明税务知识问答[M].北京: 经济科学出版社, 2008.

【2】 张辉丽.计算机领域中文自动问答系统的研究[D].天津:天津大学硕士论文,2006:2-4,6-9

【3】 陈义.税务业务咨询问答系统[J].计算机应用与软件,2007,& #402):112-115

【4】 侯丽敏,张永强.面向课程的中文FAQ自动问答系统模型[J].计算机应用与现代化,2014,& #4010):20-24

【5】 AskJeeves:http://www.ask.com.2016年4月27日访问.

【6】 START system: http://sakharov.ai.mit.edu/start.2016年4月27日访问.

【7】 刘亚军.一种基于加权语义相似度模型的自动问答系统[J].东南大学学报,2014,(5):609-612

【8】 Voorhees E .The TREC-8 questio n answ ering track report[ A] .In :Proceedings of the 8 th Text Retrieval ConferenceNIS T[ C] .Gaithersburg , MD, 1999.77 82

【9】 Katz B, Lin J , Felshin S.Gathering know ledge for a question answering system from heterogeneous information sources [ A] .In :Proceedings of the ACL 2001 Workshop on Human Language Technology and KnowledgeManagement[ C] .Toulouse , France.2001

【10】 李素建.基于语义计算的语句相关度研究[ J].计算机工程与应用,2002, 38& #407):75-83

Li Sujian .Research of relevancy between sentences basedon semantic computation[ J] .Computer Engineering and Applications , 2002 , 38& #407):75 83& #40in Chinese)

【11】 王肖磊.自动问答系统的研究与应用[D].北京:北京邮电大学硕士论文,2015:5-7,12-13,26-29

【12】 刘里.自动问答系统研究综述[J].山东科技大学学报,2007,(4):74

【13】 陈丽莎.自动问答系统中基于WordNet的句子相似度计算研究与实现[D].广州: 华南理工大学硕士论文,2014:5-7

【14】 程显毅,朱倩,王进.中文信息抽取原理及应用[M].科学出版社:科学出版社,2010

【15】 吴全娥.汉语句子相似度计算及其在自动问答系统中的应用[D].西南大学,2011

【16】 Hatcher E, Gospodnetic O, McCandless M. Lucene in action[J].2004

【17】 刘件,魏程. 中文分词算法研究[J].微计算机应用,2008,08:11-16.

【18】 曹志娟,李祖枢,刘朝涛. 自动问答系统中的问题理解研究[J]. 计算机科学,2005,11:158-160+230.Lucene的全文检索的研究与应用_李永春

【19】 陈康,樊孝忠,刘杰,余正涛. 受限领域问答系统的中文问句分析研究[J]. 计算机工程,2008,10:25-27.

【20】 义天鹏.基于Lucene的中文分析器分词性能比较研究[J].计算机工程,2012,& #4022):279-282

【21】 当前几个主要的Lucene 中文分词器的比较[EB/OL].http://www. iteye.com/news/9637. 2016n年4月27日访问.

【22】 邢琪.基于Lucene的企业门户网站问答系统设计与实现[J].软件导刊,2015,& #407):109-110

【23】 季永华,许华虎,沈敏,等.自动答疑系统的研究与实现[J]. 计算机工程与应用,2005,41& #4014):224-225

【24】 罗刚.自己动手写搜索引擎[M].北京:电子工业出版社,2009

【25】 李亮.基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现[D].北京:中国地质大学,2010.

【26】 IKAnalyzer[EB/OL].http://baike.baidu.com/link?url=OnK5cwdXukt-zv7LMBtgmGHZG6BD2ujmUuyqYPg6j5r_yu2naCebOEba2uy8ZK305VoD9vDaboNgIxdESYK3Ha.2016n年4月27日访问.

【27】 黄香君.基于Ontology的电子税务集成方法[J].宁夏大学学报,2004& #402):147-149

开放日期:

 2016-05-19    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式