共查询到16条相似文献,搜索用时 234 毫秒
1.
基于SDD算法的中文农业搜索引擎设计与实现 总被引:1,自引:0,他引:1
信息检索是当今社会的热点话题,但是一般的搜索引擎涵盖面太广,个性化、专业化程度不够.利用潜在语义索引(LSO的最新技术SDD(半离散矩阵分解)算法来解决大规模网页索引计算的问题,利用SDD算法建立起语义索引,成功构建了一个中文农业搜索引擎. 相似文献
2.
SDD算法在中文农业网页信息检索的应用 总被引:4,自引:0,他引:4
SDD(半离散矩阵分解)算法是潜在语义索引(LSI)的最新技术,弥补了传统SVD算法无法大规模应用的局限,具有压缩比大,响应时间短等优点.利用com技术实现了检索引擎的封装使得服务器端的维护变得轻松,有利于二次开发,同时能够作为一个对象嵌入ASP页面实现了B/S模式,降低了用户使用的门槛.由于SDD算法与具体的语言无关,因此应用面广,在中文领域,尤其是中文农业网页信息检索方面具有实用价值.本文在Microsoft Visual C++.NET开发平台上开发完成了SDD com组件,针对国家农业科学数据中心的10个主要大库共计十万余网页,分别建立索引文件,提供对外检索服务.实践证明SDD算法在中文农业网页检索上具有响应时间快,精度高等优点,是完全切实可行的. 相似文献
3.
为了提高针对大规模农业信息的语义检索性能,提出一种基于改进的随机索引语义空间和潜在语义空间的农业信息检索模型(IRI&LSA)。利用120万张中文网页和2 000张分为4类的小规模中文农业网页,对IRI&LSA和两种分别基于单向量兰克泽斯算法(LAS2)和半离散矩阵分解算法(SDD)的常用潜在语义检索模型(LSA-LAS2和LSA-SDD)进行了对比实验。结果表明,IRI&LSA检索结果的平均F1值可达83%,明显高于LSA-LAS2(71%)和LSA-SDD(64%);IRI&LSA的检索速度分别是LSA-LAS2和LSA-SDD的3.6倍和4.9倍。研究结果表明,IRI&LSA适合应用于较大规模农业信息检索。 相似文献
4.
针对互联网农业信息的多样性、复杂性以及我国"三农"的特殊性,研究并实现了智能中文农业垂直搜索引擎AgriRoom,介绍了AgriRoom的体系架构和系统实现中涉及到的关键技术:基于网页分类和多元线性回归分析的信息过滤技术、物理存储模式的分页式倒排索引技术、基于随机索引和潜在语义分析的语义检索模型。该系统目前已投入使用,取得了较显著的应用效果。 相似文献
5.
6.
基于Lucene的“农搜”并行索引技术研究 总被引:1,自引:0,他引:1
Lucene作为高度优化的倒排索引搜索引擎为搜索向垂直化和专业行业化发展提供了可能,打破了搜索的高技术壁垒.但在实际应用过程中遇到了两个主要问题:①随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;②搜索服务器的硬件门槛导致无法实现分布式索引.本文采用多台PC同时建索引再合并索引的方法形成了一个可扩展的搜索引擎解决方案.极大地缓解了建索引给搜索带来的问题. 相似文献
7.
详细阐述了基于扩展SKOS模型的简单农业本体系统建设方法.应用主题相关度计算和改进Pagerank算法,设计开发了在线服务的搜索引擎系统,实现了带语义查询扩展.测试结果表明,应用该方法建立的搜索引擎获得了较好的网页相关度排名. 相似文献
8.
9.
10.
现代搜索引擎中的搜索算法已经成为影响搜索引擎效率的一个关键,通过对现有搜索引擎中搜索算法的研究分析,提出了一种面向搜索引擎的基于集合模型的搜索算法,该方法利用集合运算方便并、交运算的特点,把检索问题转化为集合运算问题,这使得建立索引的过程和检索的过程简单化。实验表明,该方法能够有效的提高搜索引擎的搜索效率。 相似文献
11.
马红 《农业图书情报学刊》2008,20(2):96-98,122
文章从8个方面阐述了搜索引擎的评价体系,即:收录信息的完备性;收录信息的类型和质量;标引信息的深度和准确性;数据库更新的速度;检索功能的大小;响应时间的快慢;检索界面的友好性;检索结果的满意度。 相似文献
12.
张戬慧 《东北农业大学学报》2009,40(9)
系统主要研究智能搜索系统在动物医学领域中的应用。该系统包括3个模块,分别是数据采集模块、数据预处理模块、数据应用模块。在数据处理的不同阶段,采用不同的处理技术和算法,有向量空间模型算法、SDD改进算法、网页自动分类技术、中文分词技术、数据压缩和搜索技术。 相似文献
13.
李学庆 《农业图书情报学刊》2010,22(8):175-176,182
提出了一种基于本体论的网页文档的标引算法,该算法利用本体论对提取的网页特征词汇进行概念歧义的消除,然后建立本体论与网页文档之间的映射关系,从而实现对网页文档进行语义标引。 相似文献
14.
15.
蔡豪源 《农业图书情报学刊》2016,28(7):5-9
介绍了LSI潜在语义索引在信息检索领域的运用。阐述了词项加权的3种方法,分析了矩阵的奇异值分解SVD在提取矩阵重要信息方面的作用,展示了对词项—文档矩阵的降秩近似是如何模拟人类理解语义的过程;比较了向量空间模型与LSI在搜索算法上的异同,通过对词项—文档矩阵进行文本挖掘的例子,指出了LSI在分析文档间内在联系所起到的作用。 相似文献