共查询到20条相似文献,搜索用时 187 毫秒
1.
随着农业新闻数据日益膨胀,保证以农业为主题的增量爬虫成为爬取农业信息的相关手段,增量爬虫的原理可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除出已经爬取的重复内容[[]]。文章结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。通过实验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆同时能有效提高增量爬取农业信息的效率,在增量信息爬取的过程中具有很好的应用价值[[]]。 相似文献
2.
3.
《农业工程技术:农产品加工》2021,(3)
该文从各大网页中采集到农作物生长信息的数据,特征数据主要包括农作物生长信息、种植环境、生长周期等。为了更好地完成网络爬取的任务,收集到更多符合条件的网页信息,该文主要运用架构方式实现农作物生长数据的爬取,采用Nutch框架实现分布式网络爬虫,并运用二级哈希算法完成两次URL映射计算。实验结果表明,随着时间的推移,相对于单机,分布式网络爬取能够获取更大的数据信息量,工作效率更高。 相似文献
4.
5.
6.
7.
8.
网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。 相似文献
9.
邱燕 《安徽农业大学学报》2019,28(2):43-50
互联网时代传统口碑逐步演变为网络口碑,对旅游景区网络口碑进行综合评价显得尤为必要。以全国十大山岳型旅游景区为研究对象,围绕旅游要素构建4个维度32个网络口碑搜索关键词,采用层次分析法对关键词赋权,运用网络爬虫技术搜取2017年11月—2018年10月各景区正、负面网络舆情信息,将信息数量标准化,进而计算各景区网络口碑指数、网络关注指数,绘制矩阵分析图。结果显示:网络舆情数量与游客出行活动量之间高度相关,正面舆情数量与负面舆情数量相关性较强,相关系数为0.839;以风景著称的景区较以宗教文化著称的景区网络关注度更高。 相似文献
10.
11.
12.
农产品价格主题搜索引擎的研究与实现 总被引:1,自引:0,他引:1
当前农业垂直搜索引擎无法预测农产品价格趋势,难以满足农业生产者行情分析需要。文章设计农产品价格主题搜索引擎。首先网络爬虫从农业综合网站搜集网页,对网页进行转码、去重、提取内容等处理;使用主题相关度算法计算网页的主题相关度,用分类器对网页分类,将与主题相关的网页解析、存储;最后提取农产品价格及其影响因素信息。结果表明,系统可搜集农产品价格信息及影响农产品价格因素信息,为后续农产品价格预测提供数据支持。 相似文献
13.
正随着互联网新媒体的迅猛发展,网络编辑成为非常受欢迎的工作职业。网络编辑从业人员素质的高低,直接影响着网络媒体队伍的整体水平,及网站内容是否成功。据初步统计,中国当前网络编辑人员超过600万,在未来的10年,网络媒体编辑的从业人员还会继续增长。网络编辑人力资源结构趋向多元化发展,既有新闻和计算机专业人才,也有涉及到中文、法律、财经、历史、外语,以及各行业知识的专业人才。1新时代网络编辑应具备的素质 相似文献
14.
《金陵科技学院学报》2017,(2)
基于微博内容对用户进行分类,为建设健康绿色的社交平台提供技术参考。改进支撑向量基算法(SVM)实现多分类支持向量基模型,基于微博内容将用户分为4类,利用新浪微博API使用网络爬虫获取微博内容数据;然后对文本进行分词降维和特征词权重计算;最后设计一个微博内容实时爬取和识别系统,实现了基于支撑向量基算法的水军实时检测。研究结果表明,提出的方法能够成功识别出正常用户和3类水军。 相似文献
15.
16.
采用聚焦爬虫可以提高搜索引擎的检索效率,聚焦爬虫经常使用正则表达式来进行有效的信息检索,着重分析了网页检索中常用的正则表达式,为搜索引擎的构建提供帮助。 相似文献
17.
18.
聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别页面主题相关性,并采用自适应免疫进化算法这种搜索策略指导聚焦爬虫的爬行,实验结果证明,该算法下载的主题相关网页数所占比例明显高于最佳搜索和广度优先搜索算法的比例,具有更高的搜索效率。 相似文献
19.
张瑶 《农业图书情报学刊》2019,(5):37-42
[目的]为科学评价学术论文的社会影响力,以对学术论文影响力进行全面的评价,探索中文环境下Altmetrics指标评价体系;[方法]笔者以图书情报与数字图书馆研究领域的文献为研究对象,利用Python语言编写网络爬虫程序,追溯相关文献在社交网络平台来源,获取相关数据开展指标研究;[结果/结论]分析并探索了Altmetrics指标的数据来源与以及具体指标,初步构建了中文环境下图书情报与数字图书馆研究领域Altmetrcis指标评价体系,但由笔者研究学科的限制,针对该指标评价体系对其他学术领域的适用性问题,今后还需进一步开展相关研究来验证和比较。 相似文献