首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 437 毫秒
1.
[目的/意义]科技文献摘要往往由承担特定功能的部分构成,利用深度学习对科技文献摘要结构功能进行识别有助于实现科技文献文本深度分析。[方法/过程]本文将科技文献摘要特征功能识别任务转换为文本分类问题,将结构功能分为“引言-方法 -结果 -结论 (Introduction-Methods-Results-Conclusions,IMRC)”4类,基于摘要句内容及其上下文特征,利用BERT、BERT-Bi LSTM、BERT-TextCNN、ERNIE等模型构建分类器,实现摘要结构功能自动识别。[结果/结论]在eHealth领域3 130篇文献数据集上开展实验,结果表明:ERNIE模型的各项指标均高于其他模型,BERT-TextCNN模型在短句子上效果更好,而BERT-Bi LSTM模型对于长句子的识别效果更好。本研究有助于实现科技文献摘要文本的细粒度功能理解,对文献结构的解析能够服务于科技文献深度挖掘和基于文献的知识发现。  相似文献   

2.
[目的/意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法/过程]将文本分类常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT模型结合3种采样策略进行深度主动学习训练,在共19 847条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30个样本标注的迭代实验进行测试。[结果/结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT模型配合判别性主动学习采样函数,具有最优的新闻文本分类效果和最低的标注数据需求。  相似文献   

3.
自动分类是数据挖掘和机器学习中非常重要的研究领域。针对难以获得大量有类标签的训练集问题,提出了基于小规模训练集的增量式贝叶斯Bayes分类,给出增量式Bayes分类机理参数计算及其算法。对算法分两种情况处理,第一种情况是新增样本有类别标签,利用现有分类器检验其类标签,如果匹配则保留当前分类器,否则利用新样本修正分类器;第二种情况是新增样本无类别标签,则利用现有分类器为其训练类标签,然后利用新样本来修正分类器。试验结果表明,该算法是可行有效的,比Naive Bayes分类算法有更高的精度。增量式Bayes分类算法的提出为分类器的更新提供了一条新途径。  相似文献   

4.
基于集成学习的数据流分类问题已成为当前研究热点之一,而集成学习存在集成规模大、训练时间长、时空复杂度高等不足,为此提出了一种基于蚁群优化的选择性集成数据流分类方法,用蚁群优化算法挑选出优秀的基分类器来构建集成分类模型。该方法首先对所有基分类器采用交叉验证计算分类精度,同时采用Gower相似系数求出基分类器之间的差异性,然后把分类精度和分类器差异性作为分类器挑选标准,从全部基分类器中选出一部分来构建集成模型,最终挑选的基分类器不仅具有良好的分类精度,同时保持一定差异性。在标准仿真数据集上对构建的集成分类模型进行仿真试验,结果表明,该方法与传统集成方法相比在准确率和稳定性方面均有显著提高。  相似文献   

5.
[目的/意义]近代文献中的图像作为重要的历史史料,日益受到人文学者的重视,大规模图像资源的深度标注也随之成为图像数据基础设施建设的重要组成部分,利用深度学习对海量图像进行内容解析是图像研究的新方向。本文的研究目的,是通过基于EfficientNet的迁移学习在近代文献图像分类中的实证研究,解决大规模近代文献图像的自动分类问题,提高其在实际应用中的准确率和效率。[方法/过程]本文的研究方法,是根据近代文献图像中的特征分析,采用7 645张近代文献图像数据集,通过裁切、白平衡、色调分离、仿射变换等图像增强手段串行叠加,提高样本图像的多样性,并通过对深度学习算法的研究,使用微调的简化EfficientNet深度卷积神经网络模型进行迁移学习,最终得到了在近代文献图像分类上表现良好的模型。[结果/结论]本文的研究结论,是根据实验结果发现,该模型有效提高了图像分类效率和分类准确性,对于解决近代文献中大规模图像的自动分类具有一定的推广价值。  相似文献   

6.
传统的基于支持向量机的单类分类器因计算复杂度高而无法满足大规模数据实时处理的需求,在线学习方法为解决该问题提供了一种有效途径.本文在挖掘样本数据在特征空间分布性状的基础上,提出了一种基于凸壳的在线单类学习机(One-class Online Classifier based on Convex Hull,OOCCH).该方法首先使用凸壳的定义选择能代表特征空间中数据分布的凸壳向量对应的原始样本作为训练样本来缩减训练集的规模;其次在分类器在线更新阶段利用凸壳向量动态地调整分类器的训练样本.理论分析证明了OOCCH的有效性,与现有的在线单类分类器的实验比较,OOCCH在训练时间和分类性能方面有显著优势.  相似文献   

7.
[目的/意义]为了提高大豆叶片图像的分类精度与效率,进一步对大豆叶片图像进行存储与管理。[方法/过程]本文利用深度学习方法,针对肉眼观察准确率较低且不同人群分类结果差异较大的大豆叶片图像数据提出了一种自动分类方法。本研究首先对大豆叶片进行ROI感兴趣区域划分,进而利用分水岭分割方法对大豆叶片进行提取,最后通过深度学习高效精确的实现了大豆叶片的分类识别。[结果/结论]通过分析大豆叶片形态图像特点后,基于深度学习开展了对大豆叶片形态的分类识别的研究,达到了较高的识别准确率。  相似文献   

8.
文本分类中特征提取方法的比较与研究   总被引:1,自引:0,他引:1  
介绍了进行文本分类的关键技术,着重介绍了常用的文本特征提取方法.选取支持向量机方法作为文本分类器方法,选取不同特征提取方法应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(WET)为两种性能优异的特征提取方法.该结论可为分类性能进一步的优化研究奠定理论和实践基础.  相似文献   

9.
目的在地面激光雷达点云分类任务中多存在特征维度较高的问题,然而当点云数量较多,分类任务中构造较高维度的特征往往需要较多的计算成本和运行内存。为了解决这一问题,本研究提出用近邻点构造5个几何特征训练成熟分类器,以期在将林分点云分为地面、树干与枝叶3个类别的同时达到降低特征维度的目的。方法在构造特征的过程中采用近邻值为140的快速KDtree搜索近邻点,获得近邻点后利用其计算协方差矩阵特征值、法向量、曲率、方差和最大高程差构造5个几何特征训练分类器。为了检验本研究构造的特征在林分点云分类中的稳定性,分类器分别采用随机森林和xgboost做比较研究。本研究的实验数据均来自地面激光雷达扫描获得的单站蒙古栎人工林点云数据。结果使用随机森林和xgboost分类器训练的模型在测试集中正确估计样本数量和样本总量的比值分别为0.932 1和0.936 3。这两个分类器在地面、树干和枝叶这3个类别中的查准率达到0.97、0.93、和0.91以上,且在这3个类别中的分类结果中xgboost较随机森林均有千分级的优势。结论结果表明本研究构造的特征能够完成林分点云分类任务,在保证点云分类准确率的基础上,既减少了特征维度,又有助于提高特征计算效率,具有较高的稳定性。本研究的分类结果可为林分参数反演和生物量估计等研究奠定基础。   相似文献   

10.
水稻害虫图像识别技术研究   总被引:1,自引:0,他引:1  
李文斌 《安徽农业科学》2014,(23):8043-8045
[目的]解决水稻害虫传统识别方法的低时效性问题。[方法]采用数字图像处理方法对水稻害虫进行图像识别和分类,对水稻害虫的虫体面积、虫体周长、偏心率、形状参数、似圆度、叶状性、球形性等几何形状特征进行提取和研究,并采用支持向量机(SVM)分类器对水稻害虫二化螟、三化螟、稻飞虱、卷叶螟进行分类。[结果]利用所建立的6个特征判别函数对4种水稻害虫进行判别分类,识别率达到96.67%,说明这6个经过筛选的特征具有很强的判别性。[结论]支持向量机分类器的识别方法很好地解决水稻害虫传统识别方法的低时效性问题。支持向量机以风险最小化为原则,兼顾训练误差与测试误差的最小化,具体体现在分类模型的选择和模型参数的选择上。  相似文献   

11.
[目的/意义]随着面向典籍的数字人文研究的不断深入,对基于文本内容的细粒度分类要求不断提高,合理的分类已成为数字化典籍研究和有效利用的关键。[方法/过程]研究利用分面分类思想,以典籍文本数据及相关典籍词典为研究对象,结合概念语义信息,组织并描述典籍内容数据特征。[结果/结论]本文构建的分类体系突破典籍数量、体裁和种类的限制,从政治、经济、文化、社会和军事5个维度将典籍内容进行有序的组织与揭示,对典籍数字资源的深度开发和利用具有重要价值。  相似文献   

12.
[目的/意义]数字人文方兴未艾,为古籍知识关联的实现提供了重要现代科技手段。对古籍内容挖掘与知识关联进行研究,有助于提升古籍资源开发水平与服务质量,推动中华优秀传统文化创造性转化、创新性发展。[方法/过程]通过文献综述和网络调研,梳理数字人文视角下古籍知识关联的研究,探讨古籍知识关联的关键环节,通过古籍知识关联应用举例分析古籍知识关联的壁垒。[结果/结论]数字人文视角下,从文献单元层次的组织深入到知识单元层次的组织,借助数据分析技术、机器学习、可视化技术等,可实现古籍知识关联。古籍知识关联起点是文献组织,基础是古籍数据,本质是知识组织。古籍知识关联可进行方志与家谱挖掘、钤印知识网络发现、特定时期与地域学者研究脉络与交往分析等,但在实施中仍面临知识元处理难度大、技术要求高、集成平台少等壁垒。  相似文献   

13.
鲍彤  罗瑞  郭婷  贵淑婷  任妮 《南方农业学报》2022,53(7):2068-2076
【目的】研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑。【方法】通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库。采用BERT对农业问句进行字符编码,利用文本卷积神经网络(TextCNN)提取问句高维度特征对农业问句进行分类。【结果】在词向量对比实验中,BERT字向量与TextCNN结合时农业问句分类F1值达93.32%,相比Word2vec字向量提高2.1%。在深度学习模型的分类精度对比方面,TextCNN与Word2vec和BERT字向量结合的F1值分别达91.22%和93.32%,均优于其他模型。在农业问句的细分试验中,BERT-TextCNN在栽培技术、田间管理、土肥水管理和其他4个类别中分类F1值分别为86.06%、90.56%、95.04%和85.55%,均优于其他深度学习模型。超参数设置方面,BERT-TextCNN农业问句分类模型卷积核大小设为[3,4,5]、学习率设为5e-5、迭代次数设为5时效果最优,该模型在数据样本不均衡的情况下,对于农业问句的平均分类准确率依然能达93.00%以上,可满足农业智能问答系统的问句分类需求。【建议】通过阿里NLP等开源平台提升数据标注质量;在分类过程中补充词频和文档特征,提高模型分类精度;农业相关政府职能部门加强合作,积极探索农业技术数字化推广和服务新模式。  相似文献   

14.
对基于向量空间模型的文本分类所涉及的关键技术:特征选取、特征向量表示方法、特征向量的维数、文本分类的评价标准进行了分析和研究.为了对比和验证文本分类在特征词选取方法,特征向量表示方法以及在不同维数下对分类的影响,选择了1 600篇中文农业网页进行正交实验,并对这些因素进行比较和分析,选出分类效果最好的组合.研究表明,当使用综合文档频(DFD)特征词选取方法选取特征词,用词频表示特征向量,特征向量维数为300维时,有较好的分类效果,平均查准率可以达到92.63%,平均召回率可以达到91.5%.  相似文献   

15.
文章简要介绍了在构建国家农业科学数据共享平台过程中,研究和开发的B/S结构的农业科学知识内容揭示系统主要设计思想、方法和技术,介绍了农业古籍知识资源组织、开发和利用的深入探讨,以及对古籍图像进行知识内容标引的尝试,实现了通过古籍知识点进行全文的检索,该项研究对农业科学数据共享平台的知识资源开发与共享,具有重要的现实意义。  相似文献   

16.
[目的/意义]总结归纳中国公共图书馆基于馆藏古籍文献资源所开发出的文创产品的类型和开发模式,并在此基础上提出针对该类产品的开发优化建议。[方法/过程]采取网络调研分析法,选择有代表性的线上商店作为研究对象,以载体、实体元素为划分依据将古籍文创产品分类。[结果/结论]对于古籍文创产品的开发,要加强产品的宣传力度,深挖古籍内涵,拓宽元素获取渠道,提高产品的科技含量。  相似文献   

17.
中国古代救荒书研究综述   总被引:1,自引:0,他引:1  
卜风贤  邵侃 《古今农业》2009,(1):102-112
近年来,学术界在对中国古代救荒书的认识和整理、研究方面作了具有学术价值和现实意义的探索,并在救荒书的概念界定、古籍整理、分类研究、著者研究,救荒思想研究、救荒减灾技术研究等诸多方面取得了一定的成果,形成颇多论著。但是,由于受史料的分散零乱以及灾害学学科分化不完全等因素的制约,救荒书的专题研究尚处起步阶段,唯考其成果,多呈单篇独段,鲜有全面深入的宏卷巨帙,今后迫切需要加强对中国古代救荒书的系统化研究。  相似文献   

18.
[目的/意义]通过分析图书被引用次数与豆瓣读书平台图书评分之间的相关性,探究社会化阅读平台图书评分数据作为学术图书Altmetrics评价指标数据的可用性。[方法/过程]分别获取各大类图书被引用次数与豆瓣评分数据,通过皮尔逊相关分析和斯皮尔曼相关分析,比较不同大类图书被引用次数与豆瓣评分之间的相关系数,揭示社会化阅读平台图书评分数据作为Altmetrics评价数据的可用性。[结果/结论]社会化阅读平台图书评分数据具有一定的Altmetrics评价可用性,不同大类图书的社会化阅读平台图书评分数据可用性存在差异。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号