首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
对基于向量空间模型的文本分类所涉及的关键技术:特征选取、特征向量表示方法、特征向量的维数、文本分类的评价标准进行了分析和研究.为了对比和验证文本分类在特征词选取方法,特征向量表示方法以及在不同维数下对分类的影响,选择了1 600篇中文农业网页进行正交实验,并对这些因素进行比较和分析,选出分类效果最好的组合.研究表明,当使用综合文档频(DFD)特征词选取方法选取特征词,用词频表示特征向量,特征向量维数为300维时,有较好的分类效果,平均查准率可以达到92.63%,平均召回率可以达到91.5%.  相似文献   

2.
文本分类中特征提取方法的比较与研究   总被引:1,自引:0,他引:1  
介绍了进行文本分类的关键技术,着重介绍了常用的文本特征提取方法.选取支持向量机方法作为文本分类器方法,选取不同特征提取方法应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(WET)为两种性能优异的特征提取方法.该结论可为分类性能进一步的优化研究奠定理论和实践基础.  相似文献   

3.
针对信息挖掘中的文本自动分类问题,提出了一种基于自组织特征映射网络的分类方法。网络由输入层和竞争层组成。输入层节点与竞争层节点实行全互连接。输入层完成分类样本的输入,竞争层提取输入样本所隐含的模式特征,并对其进行自组织,在竞争层将分类结果表现出来。分无监督和有监督两个阶段完成对网络的分类训练。该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

4.
基于朴素贝叶斯的渔业文本分类器研究   总被引:1,自引:0,他引:1  
通过阐述朴素贝叶斯文本分类器的算法原理及其用于建立渔业文本分类器的优点,给出了基于朴素贝叶斯的渔业文本分类器的基本结构,并用实验验证了该结构的性能。结果表明,基于渔业词库的朴素贝叶斯渔业文本分类器具有比普通文本分类器更好的性能。  相似文献   

5.
本体在知识管理和语义网中扮演着越来越重要的角色,但本体的构建是一项费力又费时的工作,为此本文提出一种基于文本分类模式下的本体自动构建方法。该方法以形式化概念理论分析作为基础,计算出概念之间的相关度,以概念间的相关度和它们在文档中出现的频率矩阵构建本体概念图。实验结果表明,在文档分类模式下自动构建本体支持目前的信息分类系统,形成的本体有利于更好地共享和重用,促进语义Web的本体的升级。  相似文献   

6.
文本分类中特征质量的好坏,会直接影响到分类的准确率,从特征提取这一环节出发,实现了一种改进的基于基尼指数的特征提取方法Gini,提出一种全局和局部特征提取相融合的特征提取方法。当MI、IG、CE、WET、Gini与χ2这6种特征提取方法用于SVM分类实验时,发现Gini全局特征提取能力强,χ2方法适合局部特征提取;当Gini与χ2两种方法相融合进行特征提取时表现出较强的特征提取能力,明显优于全局和局部的提取效果.  相似文献   

7.
在文本分类系统中,特征选择方法是一种有效的降维方式,针对互信息方法存在负相关和对低频词倚重的不足,文中对互信息方法进行了改进并用于类内特征提取。在SVM和KNN分类器下,将互信息和改进后的互信息方法用于特征提取实验,实验结果表明改进后的互信息方法简单可行,能够提高所选特征子集的有效性。  相似文献   

8.
KNN和SVM算法在中文文本自动分类技术上的比较研究   总被引:3,自引:0,他引:3  
中文文本分类技术在中文信息智能处理方面具有十分重要的作用,比如:中文信息检索和搜索引擎等,KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。  相似文献   

9.
基于朴素贝叶斯分类的柑橘叶片溃疡病诊断   总被引:1,自引:0,他引:1  
为实现准确、快速地识别柑橘叶片溃疡病,提出一种基于朴素贝叶斯分类的柑橘叶片溃疡病诊断方法。基于不同病害程度的叶片数码图像,根据颜色空间特征,构建基于朴素贝叶斯的柑橘叶片溃疡病斑识别模型,并对比分析朴素贝叶斯分类、固定阈值分割、自适应阈值分割、支持向量机分割对柑橘叶片溃疡病的诊断能力。结果表明:基于朴素贝叶斯分类的柑橘叶片溃疡病斑分割效果较好,误分割率仅为3.58%,远远优于阈值法和支持向量机。在运行效率方面,4种算法耗时排序为固定阈值法自适应阈值法朴素贝叶斯法支持向量机法,但均在较合理的范围内;结合前期准备时间,朴素贝叶斯法的运行效率最佳。综上所述,朴素贝叶斯分类算法在柑橘叶片溃疡病诊断方面具有快速、精准的应用能力,可以为果树从业者精确诊断果树病害严重度提供新思路。  相似文献   

10.
针对信息挖掘中的文本自动聚类问题,提出了一种基于模糊向量空间模型的核聚类算法。首先对聚类文本进行模糊特征提取得到模糊特征项集,然后依据模糊特征项集对每篇文本计算特征项的文档频数,进而得出每篇文本的模糊特征向量。最后利用高斯核函数将每篇文本的特征向量映射到高维特征空间,在高维特征空间中利用核聚类算法实施文本聚类。该方法在特征提取时充分考虑了特征项在文档中的位置信息,使自动聚类原则更接近手工聚类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

11.
在文本分类系统中,特征选择方法是一种有效的降维方法,在分析了几种常用的特征选择评价函数之后,根据其算法特点,对算法进行改进从而实现类内特征提取。实验结果证明改进后的类内特征选择方法简单可行、有助于提高所选特征子集的有效性。  相似文献   

12.
施明登  周鹏  白铁成 《安徽农业科学》2014,(29):10381-10383
针对干果图像信息量大、分类精度低和耗时多的特点,提出利用Bag of Words模型提取图片的代表特征,并采用朴素贝叶斯分类器指导特征矩阵分类。结果表明,图像分类精度能达到80%,分类处理时间约为2 s。通过增加学习样本来进一步提高分类精度,将Bag of Words应用于干果图像识别和分类是可行的。  相似文献   

13.
介绍文本信息自动分类系统ITC98(IntelligentTextClassify)的总体结构及特点,对借鉴人类文本分类方式设计的启发式编码子系统作了讨论。  相似文献   

14.
一种基于粗糙集理论的特征选择方法   总被引:3,自引:3,他引:0  
目的 特征集中特征质量的好坏能够影响到文本分类的精度,所以选择一种好的特征选择方法对于文本分类的效果起着重要的作用.方法 粗糙集理论为研究不精确数据的分析、推理,挖掘数据间的关系、发现潜在的知识提供了有效的工具.提出了一种基于粗糙集的特征选择方法.结果 通过实验结果表明该方法利用粗糙集的约简理论降低了特征维数,同时保证了分类性能.使用该方法进行特征选择时比目前常用的特征选择方法获得较好的分类效果.结论 粗糙集的属性约简理论可以用在规则提取和特征选择上,利用粗糙集的属性约简理论进行特征选择时能够获得较理想的分类效果.  相似文献   

15.
从数字图书馆应用文本分类的重要性入手, 介绍了文本分类的含义及基本技术, 重点分析了文本分类中常用的两种特征提取方法:互信息算法和 统计量算法, 指出两种算法存在的不足并提出相应的改进措施。  相似文献   

16.
张怡卓  谭菲 《安徽农业科学》2014,(1):141-143,152
纹理一致性影响着实木地板档次,针对目前实木地板纹理分类速度慢、精度低的问题,提出一种适合区分直纹、抛物纹、乱纹3类纹理的在线检测方法。方法首先对纹理图像进行缩小,运用视觉心理学的Tamura方法提取粗糙度、对比度、方向度、线性度、规整度、粗略度等6个纹理特征;同时在原图像提取反映图像全局信息的灰度均值、方差、熵等3个统计量;然后,运用主成分分析法(PcA)对3类纹理9个特征进行降维融合操作;最后,采用线性判别分析方法(LDA)构建3类纹理的辨识模型。采用200幅实木地板纹理图像进行实验,当主成分个数为7时,分类正确率稳定达到85%,较传统Tamura方法的83%和全局基本统计量的70%有所提高;特征提取时间为0.5548S,比缩小前图像的Tamura特征提取时间55.7000S明显减低,而分类正确率没有明显变化。  相似文献   

17.
潜在语义分析(LSA)是一种知识提取和表示的理论和方法.它通过对大量文本集进行统计分析,消除同义词和多义词影响,提高了文本分类处理的精度.本文将主要介绍LSA方法的基本思想和实现方法并讨论LSA在中文文本分类中的应用.  相似文献   

18.
特征提取广泛应用于模式识别中。它去除原始样本的冗余信息,提取出有助于样本表示或分类的简洁有用的信息。线性鉴别分析(LDA)属于传统的监督特征提取方法,它旨在寻找最小化类内散度(方差)同时最大化类间散度(方差)的低维线性投影子空间。提出一种新的特征提取方法,旨在改进LDA,该方法在LDA的基础上,增加了每个类的中心点与该类边界异类样本的近邻关系,通过类中心对边界异类样本的排斥,扩大了类与类相互的边距,增强了类的可分性。YaleB人脸数据库和CENPARMI手写阿拉伯数字库中的实验结果,证明了新方法确实能够提高分类效果。  相似文献   

19.
在图像分类和检索中,如何对图像进行特征提取及提取图像的哪些特征信息,影响着图像分类的准确性。提出了一种基于颜色的特征提取算法,同时利用最新的多层的深度学习算法对图像进行分类。结果表明,该研究提出的图像分类方法比传统图像分类算法准确度有较大的提高。  相似文献   

20.
中国农林文献数据库的分类标引方法   总被引:1,自引:0,他引:1  
中国农林文献数据库的分类标引方法吴泽宜(中国农科院科技文献信息中心北京100081)分类标引是根据主题分析的结果,对信息赋予分类标识的过程。分类标引用的检索语言称分类语言。分类语言包括等级体系分类语言(体系分类法)和分析综合分类语言(组配分类法)两种...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号