排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。 相似文献
2.
目前现有业务过程模型研究的共同特点便是基于单机环境来构建业务过程库,并基于传统关系数据库来管理业务过程模型,完成相关的检索、存储等操作。为提高大规模业务过程模型检索与存储的效率,本文提出一种新的业务过程模型管理方法。该方法采用基于Hadoop大数据处理平台对业务过程模型进行管理,并采用Map/Reduce编程框架和HDFS文件系统分别对业务过程模型进行检索和存储,提高了业务过程模型存储效率,减少了模型检索匹配的时间。通过原型系统进行试验验证评估,证明了所提方法在存储和检索效率方面高于单机环境。 相似文献
1