首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
随着农业新闻数据日益膨胀,保证以农业为主题的增量爬虫成为爬取农业信息的相关手段,增量爬虫的原理可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除出已经爬取的重复内容[[]]。文章结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。通过实验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆同时能有效提高增量爬取农业信息的效率,在增量信息爬取的过程中具有很好的应用价值[[]]。  相似文献   

2.
本文设计并实现了一个食品安全新闻的爬虫。为了提高爬虫爬取食品安全新闻数据的准确率,建立了本体模型,并用向量空间模型去除主题相关度小的新闻。结果表明该食品安全爬虫爬取有关食品安全新闻的准确率较高,达到了预期要求。  相似文献   

3.
该文从各大网页中采集到农作物生长信息的数据,特征数据主要包括农作物生长信息、种植环境、生长周期等。为了更好地完成网络爬取的任务,收集到更多符合条件的网页信息,该文主要运用架构方式实现农作物生长数据的爬取,采用Nutch框架实现分布式网络爬虫,并运用二级哈希算法完成两次URL映射计算。实验结果表明,随着时间的推移,相对于单机,分布式网络爬取能够获取更大的数据信息量,工作效率更高。  相似文献   

4.
随着互联网信息的快速增长和大数据掀起的热潮,如何保证主题数量的增量爬取再次成为获取信息的必要手段,增量爬虫能够以较少的资源实现信息的快速更新,从而提高信息检索的准确率。文章结合林产品贸易Web信息的特点,提出了一种适用于林产品贸易Web信息的基于优先级增量爬取方法,网页更新的优先级伴随着抓取而动态改变。最后通过实验证明随着抓取信息的增加该方法在保证网页质量的同时能有效的降低系统的资源使用,在海量信息爬取的过程中具有很好的应用价值。  相似文献   

5.
随着农业新闻数据日益膨胀,以农业为主题的增量爬虫成为爬取农业信息的重要手段。增量爬虫可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除已经爬取的重复内容。本文结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。试验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆的同时能有效提高增量爬取农业信息的效率,在增量信息爬取过程中具有很好的应用价值。  相似文献   

6.
针对网络新闻传播的特性,文章从聚焦爬虫的角度,重点分析了新闻实时搜索方法与技巧,同时也对新闻中的图片和音视频文件提取方法以及文本分类法进行简要论述。并针对网络爬虫易受到网站屏蔽的问题,给出一些解决方法。  相似文献   

7.
应用网络爬虫技术、Bomb后端云和移动应用开发技术设计了一套移动农业信息服务系统。从农业数据获取、农业数据存储和农业数据显示3个方面分析了移动农业信息服务系统中数据传输处理的过程,得到了通过网络爬虫技术获取农业数据,借助Bmob移动云平台存储农业数据和通过移动终端将农业数据可视化具有一定优势的结论。  相似文献   

8.
网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。  相似文献   

9.
互联网时代传统口碑逐步演变为网络口碑,对旅游景区网络口碑进行综合评价显得尤为必要。以全国十大山岳型旅游景区为研究对象,围绕旅游要素构建4个维度32个网络口碑搜索关键词,采用层次分析法对关键词赋权,运用网络爬虫技术搜取2017年11月—2018年10月各景区正、负面网络舆情信息,将信息数量标准化,进而计算各景区网络口碑指数、网络关注指数,绘制矩阵分析图。结果显示:网络舆情数量与游客出行活动量之间高度相关,正面舆情数量与负面舆情数量相关性较强,相关系数为0.839;以风景著称的景区较以宗教文化著称的景区网络关注度更高。  相似文献   

10.
汪斌  张云伟  刘健  陈晶 《安徽农业科学》2009,37(20):9699-9700
针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于该设计方案的主题爬虫在抓取农业信息主题网页时的准确率、全面率及成功率明显优于普通爬虫。  相似文献   

11.
随着我国科学技术水平的提升,网络的发展速度逐渐的变快,在这一时代发展背景下,不管是网页的预处理数量,还是网页的搜索引擎品质都产生了很大的变化,其水平有着极为显著化的提高。在设计搜索引擎时期,设计人员需要对网页的便利性进行分析,进一步的去优化网络爬虫。本文主要就网络爬虫的特征进行探究,制定出较为完善且合理的网站优化措施,使得数据信息的预处理工作可以进展的更为顺畅。为了更为深入的探究面向网络爬虫的网站优化措施,本文以我国,某一农业企业网站优化为例,对企业网站的更新频率以及网站链接等要素进行综合性的探究,进一步的优化设计方案的内容。  相似文献   

12.
农产品价格主题搜索引擎的研究与实现   总被引:1,自引:0,他引:1  
当前农业垂直搜索引擎无法预测农产品价格趋势,难以满足农业生产者行情分析需要。文章设计农产品价格主题搜索引擎。首先网络爬虫从农业综合网站搜集网页,对网页进行转码、去重、提取内容等处理;使用主题相关度算法计算网页的主题相关度,用分类器对网页分类,将与主题相关的网页解析、存储;最后提取农产品价格及其影响因素信息。结果表明,系统可搜集农产品价格信息及影响农产品价格因素信息,为后续农产品价格预测提供数据支持。  相似文献   

13.
正随着互联网新媒体的迅猛发展,网络编辑成为非常受欢迎的工作职业。网络编辑从业人员素质的高低,直接影响着网络媒体队伍的整体水平,及网站内容是否成功。据初步统计,中国当前网络编辑人员超过600万,在未来的10年,网络媒体编辑的从业人员还会继续增长。网络编辑人力资源结构趋向多元化发展,既有新闻和计算机专业人才,也有涉及到中文、法律、财经、历史、外语,以及各行业知识的专业人才。1新时代网络编辑应具备的素质  相似文献   

14.
基于微博内容对用户进行分类,为建设健康绿色的社交平台提供技术参考。改进支撑向量基算法(SVM)实现多分类支持向量基模型,基于微博内容将用户分为4类,利用新浪微博API使用网络爬虫获取微博内容数据;然后对文本进行分词降维和特征词权重计算;最后设计一个微博内容实时爬取和识别系统,实现了基于支撑向量基算法的水军实时检测。研究结果表明,提出的方法能够成功识别出正常用户和3类水军。  相似文献   

15.
孙素芬  罗长寿  张峻峰  于峰  张树亮 《安徽农业科学》2007,35(22):6993-6994,6997
应用中间件、元搜索及网络爬虫等技术与思想构建农业信息资源整合系统,以期对已有的农业信息资源进行整合,从而为用户提供方便服务。  相似文献   

16.
采用聚焦爬虫可以提高搜索引擎的检索效率,聚焦爬虫经常使用正则表达式来进行有效的信息检索,着重分析了网页检索中常用的正则表达式,为搜索引擎的构建提供帮助。  相似文献   

17.
Web服务器中恶意Iframe插入的防范   总被引:2,自引:1,他引:1  
在网站运行管理中,经常会遇到网页被恶意Iframe插入的情况,致使网站不能正常运行.本文对服务器中出现的现象进行了分析,并提出了多种解决方法,以保障网页服务器的安全.  相似文献   

18.
聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主题相关网页数所占比例明显高于最佳搜索和广度优先搜索算法的比例,具有更高的搜索效率。  相似文献   

19.
[目的]为科学评价学术论文的社会影响力,以对学术论文影响力进行全面的评价,探索中文环境下Altmetrics指标评价体系;[方法]笔者以图书情报与数字图书馆研究领域的文献为研究对象,利用Python语言编写网络爬虫程序,追溯相关文献在社交网络平台来源,获取相关数据开展指标研究;[结果/结论]分析并探索了Altmetrics指标的数据来源与以及具体指标,初步构建了中文环境下图书情报与数字图书馆研究领域Altmetrcis指标评价体系,但由笔者研究学科的限制,针对该指标评价体系对其他学术领域的适用性问题,今后还需进一步开展相关研究来验证和比较。  相似文献   

20.
由于故障或恶意节点,收集或报告的传感器数据可能是错误的,基于此,提出了一种基于邻域的无线传感器网络恶意节点检测方案。计算机模拟结果表明,除非恶意节点的行为与正常节点相似,否则大多数恶意节点根据其自身读数报告都会被正确检测到。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号