首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 234 毫秒
1.
基于SDD算法的中文农业搜索引擎设计与实现   总被引:1,自引:0,他引:1  
信息检索是当今社会的热点话题,但是一般的搜索引擎涵盖面太广,个性化、专业化程度不够.利用潜在语义索引(LSO的最新技术SDD(半离散矩阵分解)算法来解决大规模网页索引计算的问题,利用SDD算法建立起语义索引,成功构建了一个中文农业搜索引擎.  相似文献   

2.
SDD算法在中文农业网页信息检索的应用   总被引:4,自引:0,他引:4  
SDD(半离散矩阵分解)算法是潜在语义索引(LSI)的最新技术,弥补了传统SVD算法无法大规模应用的局限,具有压缩比大,响应时间短等优点.利用com技术实现了检索引擎的封装使得服务器端的维护变得轻松,有利于二次开发,同时能够作为一个对象嵌入ASP页面实现了B/S模式,降低了用户使用的门槛.由于SDD算法与具体的语言无关,因此应用面广,在中文领域,尤其是中文农业网页信息检索方面具有实用价值.本文在Microsoft Visual C++.NET开发平台上开发完成了SDD com组件,针对国家农业科学数据中心的10个主要大库共计十万余网页,分别建立索引文件,提供对外检索服务.实践证明SDD算法在中文农业网页检索上具有响应时间快,精度高等优点,是完全切实可行的.  相似文献   

3.
为了提高针对大规模农业信息的语义检索性能,提出一种基于改进的随机索引语义空间和潜在语义空间的农业信息检索模型(IRI&LSA)。利用120万张中文网页和2 000张分为4类的小规模中文农业网页,对IRI&LSA和两种分别基于单向量兰克泽斯算法(LAS2)和半离散矩阵分解算法(SDD)的常用潜在语义检索模型(LSA-LAS2和LSA-SDD)进行了对比实验。结果表明,IRI&LSA检索结果的平均F1值可达83%,明显高于LSA-LAS2(71%)和LSA-SDD(64%);IRI&LSA的检索速度分别是LSA-LAS2和LSA-SDD的3.6倍和4.9倍。研究结果表明,IRI&LSA适合应用于较大规模农业信息检索。  相似文献   

4.
陈燕红 《湖北农业科学》2014,(12):2913-2918
针对互联网农业信息的多样性、复杂性以及我国"三农"的特殊性,研究并实现了智能中文农业垂直搜索引擎AgriRoom,介绍了AgriRoom的体系架构和系统实现中涉及到的关键技术:基于网页分类和多元线性回归分析的信息过滤技术、物理存储模式的分页式倒排索引技术、基于随机索引和潜在语义分析的语义检索模型。该系统目前已投入使用,取得了较显著的应用效果。  相似文献   

5.
针对现代搜索引擎语义理解缺乏的问题,通过引入语义网的本体理论,构建了基于语义网的信息检索系统(SWB_IRS)的体系结构,并着重针对该体系结构的"Ontology-Webpage双层模型"和"相关度排序"两个关键模块进行了讨论.  相似文献   

6.
基于Lucene的“农搜”并行索引技术研究   总被引:1,自引:0,他引:1  
Lucene作为高度优化的倒排索引搜索引擎为搜索向垂直化和专业行业化发展提供了可能,打破了搜索的高技术壁垒.但在实际应用过程中遇到了两个主要问题:①随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;②搜索服务器的硬件门槛导致无法实现分布式索引.本文采用多台PC同时建索引再合并索引的方法形成了一个可扩展的搜索引擎解决方案.极大地缓解了建索引给搜索带来的问题.  相似文献   

7.
详细阐述了基于扩展SKOS模型的简单农业本体系统建设方法.应用主题相关度计算和改进Pagerank算法,设计开发了在线服务的搜索引擎系统,实现了带语义查询扩展.测试结果表明,应用该方法建立的搜索引擎获得了较好的网页相关度排名.  相似文献   

8.
搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具.互联网信息量爆炸式增长,对搜索引擎提出了新要求.论文陈述了搜索引擎的基本工作流程,讨论了网页信息采集技术、网页存储器与分析索引器技术.  相似文献   

9.
结合中国目前农业信息资源的发展现状分析了构建中文农业信息资源整合平台——专业农 业搜索引擎的必要性;介绍了农业专业搜索引擎的发展状况和趋势;描述了“中国农娃中文农业搜索 引擎”的整体架构,重点论述了实现中文农业搜索引擎的农业网站捕获、网页抓取机器人(Spider)、网 页自动分类(文本聚类)、网页索引和检索等关键技术和应用。  相似文献   

10.
现代搜索引擎中的搜索算法已经成为影响搜索引擎效率的一个关键,通过对现有搜索引擎中搜索算法的研究分析,提出了一种面向搜索引擎的基于集合模型的搜索算法,该方法利用集合运算方便并、交运算的特点,把检索问题转化为集合运算问题,这使得建立索引的过程和检索的过程简单化。实验表明,该方法能够有效的提高搜索引擎的搜索效率。  相似文献   

11.
文章从8个方面阐述了搜索引擎的评价体系,即:收录信息的完备性;收录信息的类型和质量;标引信息的深度和准确性;数据库更新的速度;检索功能的大小;响应时间的快慢;检索界面的友好性;检索结果的满意度。  相似文献   

12.
系统主要研究智能搜索系统在动物医学领域中的应用。该系统包括3个模块,分别是数据采集模块、数据预处理模块、数据应用模块。在数据处理的不同阶段,采用不同的处理技术和算法,有向量空间模型算法、SDD改进算法、网页自动分类技术、中文分词技术、数据压缩和搜索技术。  相似文献   

13.
提出了一种基于本体论的网页文档的标引算法,该算法利用本体论对提取的网页特征词汇进行概念歧义的消除,然后建立本体论与网页文档之间的映射关系,从而实现对网页文档进行语义标引。  相似文献   

14.
兰富军  李春霆  高海忠 《安徽农业科学》2010,38(9):4918-4919,4927
借助垂直搜索引擎技术,可以在海量的农业知识资源中快速、准确地查询到符合用户需求的信息。当前的农业主题垂直搜索引擎过滤技术存在着忽略WEB内容、易发生主题漂移等缺点,在详细分析当前算法特点的基础上,结合其中的PageRank算法,对其进行改进,形成针对农业信息的垂直搜索引擎过滤算法,对农业信息化的建设和农业数据资源的共享具有重要意义。  相似文献   

15.
介绍了LSI潜在语义索引在信息检索领域的运用。阐述了词项加权的3种方法,分析了矩阵的奇异值分解SVD在提取矩阵重要信息方面的作用,展示了对词项—文档矩阵的降秩近似是如何模拟人类理解语义的过程;比较了向量空间模型与LSI在搜索算法上的异同,通过对词项—文档矩阵进行文本挖掘的例子,指出了LSI在分析文档间内在联系所起到的作用。  相似文献   

16.
随着农业信息化、智能化的不断发展,农业信息量呈现井喷式增长,为广大农业从业者和农业科研人员提供便捷有效的信息检索方法是目前农业搜索引擎亟需解决的问题.为此,本文提出了基于Heritrix+Solr的农业信息垂直搜索引擎框架,并设计了适用于农业信息垂直搜索引擎的隐马尔科夫Web信息抽取模块和基于词典的mmseg4j中文分词模块,同时改进了页面排序算法,对进一步提升农业垂直搜索引擎的用户体验和工作效率具有一定的参考价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号