首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种文本多级分类方法研究
引用本文:肖红,刘淑华.一种文本多级分类方法研究[J].长江大学学报,2008,5(2):92-95.
作者姓名:肖红  刘淑华
作者单位:大庆石油学院计算机与信息技术学院,黑龙江,大庆,163318;大庆油田有限责任公司第二采油厂,黑龙江,大庆,163414
摘    要:针对目前基于规则和基于统计的文本分类方法存在的不足,提出了一种新颖的基于规则和K-近邻分类相融合的文本分类方法。首先,对描述文本特征的传统向量空间模型进行了扩充,给出了具体的扩展模型。然后,基于扩展模型提出了一种规则的表示方法,并为每一条规则赋予了一个强弱系数,根据这个系数可以对识别的文本按级别排序。最后,通过设定一个阀值,将级别低于阀值的文本过滤掉。该方法可有效地排除被K-近邻分类误识别的那些文本,从而在一定程度上提高了分类的正确率。通过小数据集测试实验结果表明,该方法是有效的、可行的。

关 键 词:文本分类  K-近邻分类算法  向量空间模型

Study of Multi-level Text Classification Based on Combination of Rule and KNN Algorithm
XIAO Hong,LIU Shu-hua.Study of Multi-level Text Classification Based on Combination of Rule and KNN Algorithm[J].Journal of Yangtze University,2008,5(2):92-95.
Authors:XIAO Hong  LIU Shu-hua
Abstract:
Keywords:text classification  KNN algorithm  vector space model
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号