首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
特征提取方法在文本分类过程中起着重要作用,文本分类的效果受特征提取方法选择的直接影响。采取信息增益和文档频率2种特征提取方法,对朴素贝叶斯分类模型的查全率和准确率进行验证比较。研究表明,朴素贝叶斯分类器的分类效果随着维数的增加先增加后减少;在维数一定时,信息增益(IG)的分类效果明显好于文档频率(DF)的分类效果。  相似文献   

2.
[目的/意义]开展面向数字人文的古籍触发动词识别及分类研究,对于古籍文本的深层次挖掘和内容揭示具有重大的意义。本文利用深度学习分类算法,探索依据古籍触发词进行事件句文本多元分类的自动化方法。[方法/过程]在构建了典籍事件触发词分类体系和触发词典的基础上,选取4个不同类别的事件句文本作为实验数据,利用Onehot和Tokenizer对类别标签和句子文本进行分别编码后,输入Bi-LSTM模型中训练分类器,并通过调整参数设置了对比实验,采取通用的评价指标分析了分类器的性能。[结果/结论]经过多次训练和调整之后得到的分类器,在测试集的评估中精确度达到了0.95,证明基于深度学习的实验方法和构建的触发词数据集能够有效的帮助我们实现古籍事件句文本的自动化多元分类。  相似文献   

3.
为了保证人们对蔬菜的安全食用,研究了蔬菜叶片农药残留的无损检测方法。标准营养液无土栽培生菜样本,在成熟期按4种不同浓度,分别为1.250、0.830、0.600、0.375 mL/L,将氰戊菊酯农药雾状均匀喷洒至生菜叶片上,8 h后采集生菜叶片高光谱数据。采用标准归一化(SNV)算法对原始光谱进行预处理,分别利用基于非监督特征提取方法主成分分析(PCA)、局部保留投影(LPP)与基于监督特征提取方法线性判别分析(LDA)、局部保留投影(SLPP)对降噪后的光谱数据进行特征提取,统一选用支持向量机(SVM)作为分类器。利用相同的训练样本与测试样本进行分类试验,对生菜叶片农药残留浓度分类鉴别的结果为,PCA-SVM分类正确率为82.14%,LPP-SVM分类正确率为85.71%,LDA-SVM分类正确率为89.29%,SLPP-SVM分类正确率达到92.86%。结果表明,与非监督特征提取算法相比,监督特征提取算法由于充分利用了样本的类别特性,使得分类器对降维后的数据更加敏感,分类精度更高,其中SLPP-SVM的分类效果最好。  相似文献   

4.
【目的】准确的作物空间分布是农业估产、作物长势和病虫害防控等农业遥感监测的重要基础信息。选择合适的特征和分类器对作物空间信息的提取有重要意义。【方法】文章基于北安市的Landsat 8时间序列数据探究了特征提取和分类器选择对作物分类的影响。首先,基于Google Earth Engine (GEE)平台提取光谱、植被指数、纹理和物候时序特征;其次,将不同特征及其组合输入最小距离法(Minimum Distance Classification,MDC)、朴素贝叶斯(Na?ve Bayes,NB)、K最近邻法(K-Nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)和随机森林(Random Forest,RF) 5种分类器比较精度;最后,计算分离性指数(Separability Index,SI)评估特征对识别作物的贡献度,辅助验证分类器的分类结果。【结果】研究结果表明:(1)4类特征中光谱特征分类精度最高,3种特征组合中光谱+植被指数精度最高,但相较于光谱特征精度提仅提高0.6%,说明时序光谱特征足以得到较好的作物分类结果,提取的其他特征对精度提升作用不明显;(2)通过比较5种分类器的精度均值和标准差,性能最好的是RF,其次是SVM,MDC的性能最差;(3)在特征分离性方面,光谱特征最好,其次是植被指数、物候和纹理特征。【结论】光谱时序特征结合RF分类器效率最高,能得到较好的作物识别效果。文章能为作物分类特征提取和分类器选择提供参考和依据。  相似文献   

5.
基于朴素贝叶斯的渔业文本分类器研究   总被引:1,自引:0,他引:1  
通过阐述朴素贝叶斯文本分类器的算法原理及其用于建立渔业文本分类器的优点,给出了基于朴素贝叶斯的渔业文本分类器的基本结构,并用实验验证了该结构的性能。结果表明,基于渔业词库的朴素贝叶斯渔业文本分类器具有比普通文本分类器更好的性能。  相似文献   

6.
为了提高基于油中溶解气体分析(dissolved gas analysis, DGA)的变压器故障诊断正确率,弥补单子空间特征提取的局限性,提出了基于双子空间特征提取的变压器故障分层诊断模型.首先,将DGA测试样本在一个子空间内进行特征提取后,为避免核函数及其参数的选择难题,以及利用多核支持向量机(multiple-kernel support vector machine, MKSVM)鲁棒性强和精度高的特点,采用MKSVM作为分类器对测试样本进行预测.依据预测结果将测试样本分为难分类和易分类样本,对易分类样本直接进行分类识别;对难分类样本则将该样本再次投影到另一子空间进行特征提取后,同样采用MKSVM作为分类器对难分类样本进行预测,综合两次预测结果进行分类识别,实现两分类MKSVM的双子空间特征提取算法.最后,根据故障特征,建立基于双子空间特征提取算法的变压器故障分层诊断模型.诊断实例表明,该模型具有较高的诊断正确率和推广能力.  相似文献   

7.
在文本分类系统中,特征选择方法是一种有效的降维方式,针对互信息方法存在负相关和对低频词倚重的不足,文中对互信息方法进行了改进并用于类内特征提取。在SVM和KNN分类器下,将互信息和改进后的互信息方法用于特征提取实验,实验结果表明改进后的互信息方法简单可行,能够提高所选特征子集的有效性。  相似文献   

8.
对基于向量空间模型的文本分类所涉及的关键技术:特征选取、特征向量表示方法、特征向量的维数、文本分类的评价标准进行了分析和研究.为了对比和验证文本分类在特征词选取方法,特征向量表示方法以及在不同维数下对分类的影响,选择了1 600篇中文农业网页进行正交实验,并对这些因素进行比较和分析,选出分类效果最好的组合.研究表明,当使用综合文档频(DFD)特征词选取方法选取特征词,用词频表示特征向量,特征向量维数为300维时,有较好的分类效果,平均查准率可以达到92.63%,平均召回率可以达到91.5%.  相似文献   

9.
从数字图书馆应用文本分类的重要性入手, 介绍了文本分类的含义及基本技术, 重点分析了文本分类中常用的两种特征提取方法:互信息算法和 统计量算法, 指出两种算法存在的不足并提出相应的改进措施。  相似文献   

10.
蒙古文字特征信息选取技术的研究   总被引:1,自引:0,他引:1  
蒙古文字作为1种在蒙古族等少数民族地区流行的语言文字,研究它的特征提取方法对促进民族地区的信息与科技发展都是大有裨益的.特别是连笔字的识别,因字母切分的困难使得识别难度大增.针对这种情况,我们提出1套手写体蒙古文字特征提取技术,依次采用了基于蒙古文自身结构特征的粗分类和细分类特征提取技术,以及结合了HMM模型与遗传算法的多分类器设计技术等.  相似文献   

11.
文本分类中特征质量的好坏,会直接影响到分类的准确率,从特征提取这一环节出发,实现了一种改进的基于基尼指数的特征提取方法Gini,提出一种全局和局部特征提取相融合的特征提取方法。当MI、IG、CE、WET、Gini与χ2这6种特征提取方法用于SVM分类实验时,发现Gini全局特征提取能力强,χ2方法适合局部特征提取;当Gini与χ2两种方法相融合进行特征提取时表现出较强的特征提取能力,明显优于全局和局部的提取效果.  相似文献   

12.
在工程系统可靠性评估中,由于马尔可夫方法和蒙特卡罗方法分别存在对元件寿命模型限于指数分布和仿真结果具有随机性的缺点,而电力设备中元件寿命分布类型不确定,影响了可靠性评估的有效性和准确性.针对这一问题,本文利用可修复系统事后维修模型(RSS)方法,采用威布尔模型对电力设备FYXF-03发电机原动系统仿真器进行可靠性评估,其仿真精度高、仿真结果具有确定性,为电力设备的可靠性评估、维修和保养计划的制订、以及可靠性设计时的元件选型提供了参考.  相似文献   

13.
川南常羽乌骨鸡羽色、肤色的遗传研究   总被引:2,自引:1,他引:2  
本研究用川南常羽乌骨鸡的三种羽色(黑羽、麻羽、白羽)进行纯繁和杂交来研究乌骨鸡羽色和肤色的遗传现象。试验结果表明,所用常羽乌骨鸡的黑羽主要为杂合型,白羽是隐性,麻羽的遗传尚待进一步研究。乌骨鸡的肤色存在杂合类型,黑羽和麻羽鸡的肤色相对较为稳定遗传。乌骨类型可保持不变,各部位色素沉着有高度相关。川南常羽乌骨鸡经统警选育可培育出黑羽和白羽品系。乌肤性状主要受遗传控制,应着重对乌肤进行选择。  相似文献   

14.
A language-independent means of gauging topical similarity in unrestricted text is described. The method combines information derived from n-grams (consecutive sequences of n characters) with a simple vector-space technique that makes sorting, categorization, and retrieval feasible in a large multilingual collection of documents. No prior information about document content or language is required. Context, as it applies to document similarity, can be accommodated by a well-defined procedure. When an existing document is used as an exemplar, the completeness and accuracy with which topically related documents are retrieved is comparable to that of the best existing systems. The results of a formal evaluation are discussed, and examples are given using documents in English and Japanese.  相似文献   

15.
为了充分有效地利用羽毛资源,综述了羽毛的组成与结构特点,分析了羽毛可应用的领域,总结了羽毛不同的水解方法以及各种方法最新的研究进展,探讨了羽毛的利用前景,以期为生产和科研活动提供指导。  相似文献   

16.
对三个快羽系、三个慢羽系及其九个杂交组合共1440只雏鸡在42日龄内的羽速羽型特征作了研究。结果表明:1、出壳时的羽型可根据主翼羽与覆主翼羽的绝对差度分为六型。2、在42日龄内,三个快羽系的羽型特征较一致;而三个慢羽系的羽型却有较大的差异。3、亲本对杂交鸡的羽型影响在品系间有差异。4、在42日龄内的不同阶段,羽速(即快、慢羽)的鉴别要按不同部位的羽型特征的差异来进行。  相似文献   

17.
采用等级评定方法将永康市陆生脊椎动物分为优势种32种,常见种137种,稀有种76种和罕见种11种4个等级。资源类型有毛皮动物23种,药用动物106种,食用动物90种,农林有益动物140种,有害动物23种,观赏动物198种,羽用动物32种。提出了资源开发利用及经济种类的驯养和饲养的方法,分析了资源下降的原因,探讨了资源保护的措施。  相似文献   

18.
采用等级评定方法将永康市陆生脊椎动物分为优势种32种,常见种137种,稀有种76种和罕见种11种4个等级。资源类型有毛皮动物23种,药用动物106种,食用动物90种,农林有益动物140种,有害动物23种,观赏动物198种,羽用动物32种。提出了资源开发利用及经济种类的驯养和饲养的方法,分析了资源下降的原因,探讨了资源保护的措施。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号