期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨广召《现代农业科技》2021,2(2)

随着农业新闻数据日益膨胀,保证以农业为主题的增量爬虫成为爬取农业信息的相关手段,增量爬虫的原理可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除出已经爬取的重复内容[[]]。文章结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。通过实验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆同时能有效提高增量爬取农业信息的效率,在增量信息爬取的过程中具有很好的应用价值[[]]。相似文献

2.

基于本体的食品安全新闻爬虫的设计与实现

张瀚驰杨璐方雄武郑丽敏《农业网络信息》2015,(5)

本文设计并实现了一个食品安全新闻的爬虫。为了提高爬虫爬取食品安全新闻数据的准确率,建立了本体模型,并用向量空间模型去除主题相关度小的新闻。结果表明该食品安全爬虫爬取有关食品安全新闻的准确率较高,达到了预期要求。相似文献

3.

网络爬虫技术在农业生产数据获取中的研究和应用

《农业工程技术:农产品加工》2021,(3)

该文从各大网页中采集到农作物生长信息的数据,特征数据主要包括农作物生长信息、种植环境、生长周期等。为了更好地完成网络爬取的任务,收集到更多符合条件的网页信息,该文主要运用架构方式实现农作物生长数据的爬取,采用Nutch框架实现分布式网络爬虫,并运用二级哈希算法完成两次URL映射计算。实验结果表明,随着时间的推移,相对于单机,分布式网络爬取能够获取更大的数据信息量,工作效率更高。相似文献

4.

基于林产品贸易Web信息增量爬虫的研究

许美田世全陈钊《农业网络信息》2016,(2):18-21

随着互联网信息的快速增长和大数据掀起的热潮,如何保证主题数量的增量爬取再次成为获取信息的必要手段,增量爬虫能够以较少的资源实现信息的快速更新,从而提高信息检索的准确率。文章结合林产品贸易Web信息的特点,提出了一种适用于林产品贸易Web信息的基于优先级增量爬取方法,网页更新的优先级伴随着抓取而动态改变。最后通过实验证明随着抓取信息的增加该方法在保证网页质量的同时能有效的降低系统的资源使用,在海量信息爬取的过程中具有很好的应用价值。相似文献

5.

农业新闻数据源增量爬虫的应用探析

《现代农业科技》2021,(2)

随着农业新闻数据日益膨胀,以农业为主题的增量爬虫成为爬取农业信息的重要手段。增量爬虫可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除已经爬取的重复内容。本文结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。试验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆的同时能有效提高增量爬取农业信息的效率,在增量信息爬取过程中具有很好的应用价值。相似文献

6.

聚焦时尚智能新闻采集系统研究

周益军何锋考张斌《农业网络信息》2014,(5):51-53

针对网络新闻传播的特性,文章从聚焦爬虫的角度,重点分析了新闻实时搜索方法与技巧,同时也对新闻中的图片和音视频文件提取方法以及文本分类法进行简要论述。并针对网络爬虫易受到网站屏蔽的问题,给出一些解决方法。相似文献

7.

基于网络爬虫的移动农业信息服务系统的设计与实现

申聪戴小鹏樊振宇《湖南农业科学》2017,(6)

应用网络爬虫技术、Bomb后端云和移动应用开发技术设计了一套移动农业信息服务系统。从农业数据获取、农业数据存储和农业数据显示3个方面分析了移动农业信息服务系统中数据传输处理的过程,得到了通过网络爬虫技术获取农业数据,借助Bmob移动云平台存储农业数据和通过移动终端将农业数据可视化具有一定优势的结论。相似文献

8.

基于协程模型的分布式爬虫框架

杨济运刘建勋姜磊彭桃文一凭卢厅《湖南农业大学学报(自然科学版)》2014,(3):126-133

网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。相似文献

9.

基于爬虫技术的山岳型旅游景区网络口碑评价研究

邱燕《安徽农业大学学报》2019,28(2):43-50

互联网时代传统口碑逐步演变为网络口碑,对旅游景区网络口碑进行综合评价显得尤为必要。以全国十大山岳型旅游景区为研究对象,围绕旅游要素构建4个维度32个网络口碑搜索关键词,采用层次分析法对关键词赋权,运用网络爬虫技术搜取2017年11月—2018年10月各景区正、负面网络舆情信息,将信息数量标准化,进而计算各景区网络口碑指数、网络关注指数,绘制矩阵分析图。结果显示：网络舆情数量与游客出行活动量之间高度相关,正面舆情数量与负面舆情数量相关性较强,相关系数为0.839;以风景著称的景区较以宗教文化著称的景区网络关注度更高。相似文献

10.

一种面向农业信息主题网络爬虫的设计

汪斌张云伟刘健陈晶《安徽农业科学》2009,37(20):9699-9700

针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于该设计方案的主题爬虫在抓取农业信息主题网页时的准确率、全面率及成功率明显优于普通爬虫。 相似文献

11.

面向网络爬虫的网站优化策略

《农家参谋》2020,(5)

随着我国科学技术水平的提升,网络的发展速度逐渐的变快,在这一时代发展背景下,不管是网页的预处理数量,还是网页的搜索引擎品质都产生了很大的变化,其水平有着极为显著化的提高。在设计搜索引擎时期,设计人员需要对网页的便利性进行分析,进一步的去优化网络爬虫。本文主要就网络爬虫的特征进行探究,制定出较为完善且合理的网站优化措施,使得数据信息的预处理工作可以进展的更为顺畅。为了更为深入的探究面向网络爬虫的网站优化措施,本文以我国,某一农业企业网站优化为例,对企业网站的更新频率以及网站链接等要素进行综合性的探究,进一步的优化设计方案的内容。相似文献

12.

农产品价格主题搜索引擎的研究与实现 总被引：1，自引：0，他引：1

孟繁疆姬祥袁琦刘东侯哲鹏《东北农业大学学报》2016,(9):64-71

当前农业垂直搜索引擎无法预测农产品价格趋势,难以满足农业生产者行情分析需要。文章设计农产品价格主题搜索引擎。首先网络爬虫从农业综合网站搜集网页,对网页进行转码、去重、提取内容等处理;使用主题相关度算法计算网页的主题相关度,用分类器对网页分类,将与主题相关的网页解析、存储;最后提取农产品价格及其影响因素信息。结果表明,系统可搜集农产品价格信息及影响农产品价格因素信息,为后续农产品价格预测提供数据支持。相似文献

13.

在网络编辑和选题策划上的思考

李杰《现代农业》2018,(9)

正随着互联网新媒体的迅猛发展,网络编辑成为非常受欢迎的工作职业。网络编辑从业人员素质的高低,直接影响着网络媒体队伍的整体水平,及网站内容是否成功。据初步统计,中国当前网络编辑人员超过600万,在未来的10年,网络媒体编辑的从业人员还会继续增长。网络编辑人力资源结构趋向多元化发展,既有新闻和计算机专业人才,也有涉及到中文、法律、财经、历史、外语,以及各行业知识的专业人才。1新时代网络编辑应具备的素质相似文献

14.

基于内容和支撑向量基算法的微博用户识别和分类

《金陵科技学院学报》2017,(2)

基于微博内容对用户进行分类,为建设健康绿色的社交平台提供技术参考。改进支撑向量基算法(SVM)实现多分类支持向量基模型,基于微博内容将用户分为4类,利用新浪微博API使用网络爬虫获取微博内容数据;然后对文本进行分词降维和特征词权重计算;最后设计一个微博内容实时爬取和识别系统,实现了基于支撑向量基算法的水军实时检测。研究结果表明,提出的方法能够成功识别出正常用户和3类水军。相似文献

15.

农业信息资源整合系统研究与应用

孙素芬罗长寿张峻峰于峰张树亮《安徽农业科学》2007,35(22):6993-6994,6997

应用中间件、元搜索及网络爬虫等技术与思想构建农业信息资源整合系统,以期对已有的农业信息资源进行整合,从而为用户提供方便服务。相似文献

16.

正则表达式在垂直搜索引擎中的应用

张斌《农业网络信息》2010,(8):162-163

采用聚焦爬虫可以提高搜索引擎的检索效率,聚焦爬虫经常使用正则表达式来进行有效的信息检索,着重分析了网页检索中常用的正则表达式,为搜索引擎的构建提供帮助。相似文献

17.

Web服务器中恶意Iframe插入的防范 总被引：2，自引：1，他引：1

刘天颖张彬石立桩蔺维维《农业网络信息》2008,(8)

在网站运行管理中,经常会遇到网页被恶意Iframe插入的情况,致使网站不能正常运行.本文对服务器中出现的现象进行了分析,并提出了多种解决方法,以保障网页服务器的安全. 相似文献

18.

基于自适应免疫进化算法的聚焦爬虫搜索策略

刘丽杰许楠李盼池《黑龙江八一农垦大学学报》2012,24(4):61-64

聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主题相关网页数所占比例明显高于最佳搜索和广度优先搜索算法的比例,具有更高的搜索效率。相似文献

19.

基于中文期刊高被引论文的Altmetrics指标评价体系研究

张瑶《农业图书情报学刊》2019,(5):37-42

[目的]为科学评价学术论文的社会影响力,以对学术论文影响力进行全面的评价,探索中文环境下Altmetrics指标评价体系;[方法]笔者以图书情报与数字图书馆研究领域的文献为研究对象,利用Python语言编写网络爬虫程序,追溯相关文献在社交网络平台来源,获取相关数据开展指标研究;[结果/结论]分析并探索了Altmetrics指标的数据来源与以及具体指标,初步构建了中文环境下图书情报与数字图书馆研究领域Altmetrcis指标评价体系,但由笔者研究学科的限制,针对该指标评价体系对其他学术领域的适用性问题,今后还需进一步开展相关研究来验证和比较。相似文献

20.

无线传感器网络中基于邻域的恶意节点检测

杨治秋陈丽敏张丹《湖北农业科学》2020,59(5)

由于故障或恶意节点,收集或报告的传感器数据可能是错误的,基于此,提出了一种基于邻域的无线传感器网络恶意节点检测方案。计算机模拟结果表明,除非恶意节点的行为与正常节点相似,否则大多数恶意节点根据其自身读数报告都会被正确检测到。相似文献