共查询到20条相似文献,搜索用时 296 毫秒
1.
针对水稻种子相似度高、识别困难等问题,提出一种线性判别分析(Linear discriminant analysis,LDA)和贝叶斯分类(Bayes)相结合的分类识别方法,以提高水稻种子分类识别速度和识别准确率.通过对4类水稻种子(楚粳7号、马坝油粘、玉杨糯、玉针香)的图像进行裁剪和分割等预处理操作,提取出水稻种子图像的颜色特征、几何特征和纹理特征.利用线性判别分析、主成分分析、因子分析和局部线性嵌入对特征数据进行分析降维,并分别选择Bayes、K-邻近、支持向量机、多层感知机分类器对原始特征数据和降维数据进行分类识别研究.为提高模型泛化能力,通过图像增强技术对稻种原始数据集进行样本扩充,利用图像增强技术模拟多种环境对水稻种子图片数据集进行增强处理,结果显示,基于数据增强后的LDA Bayes模型运行时间为0.019 s,识别准确率为99.4%.与其他模型比较,该模型具有更强的鲁棒性和适用性,能高效地分类识别不同环境下的水稻种子,可为水稻种子分类识别提供一种新方法. 相似文献
2.
罗新 《农业图书情报学刊》2018,(4):18-22
面对海量、异构、动态的文本信息,对文本进行自动分类具有重要的意义。近年来,逐步发展起来的群集智能理论和方法为文本分类提供了一种新的智能化手段。笔者将群集智能中发展较为成熟的粒子群智能算法尝试性地引入到文本分类领域。构建了文本预处理模型,该模型是文本分类模型的基础。构建了基于PSO的文本分类模型Text PSO-Miner,并在文本集的向量空间矩阵上进行测试和比较。Text PSO-Miner的各项性能指标都优于经典的分类模型(SVM,KNN,NB)和基于ACO的文本分类模型。结果表明:Text PSO-Miner文本分类模型能够更好地应用于文本分类。 相似文献
3.
遥感影像分类是遥感信息提取的重要手段,是目前遥感技术中的热点研究内容,有效地选择合适的分类方法是提高遥感影像分类精度的关键。BP神经网络具有收敛快和自学习、自适应性强的特点。在遥感图像分类中,BP神经网络能充分利用样本集的信息,自动建立分类模型,但由于BP神经网络的权值和阀值能直接影响BP神经网络模型的分类精度,因此该研究通过遗传算法来确定BP神经网络的最优权值和阀值,从而提高BP神经网络的分类精度。以LandsatTM遥感图像作为数据源,以长江中游一武汉市为研究地区,建立了基于BP神经网络模型的遥感分类模型和基于遗传算法改进BP神经网络模型的分类模型,对分类结果进行了定量分析。结果表明:在样本相同的情况下,基于遗传算法改进BP神经网络的遥感影像分类精度要高于BP神经网络的遥感影像分类精度。 相似文献
4.
一种基于粗糙集理论的特征选择方法 总被引:3,自引:3,他引:0
目的 特征集中特征质量的好坏能够影响到文本分类的精度,所以选择一种好的特征选择方法对于文本分类的效果起着重要的作用.方法 粗糙集理论为研究不精确数据的分析、推理,挖掘数据间的关系、发现潜在的知识提供了有效的工具.提出了一种基于粗糙集的特征选择方法.结果 通过实验结果表明该方法利用粗糙集的约简理论降低了特征维数,同时保证了分类性能.使用该方法进行特征选择时比目前常用的特征选择方法获得较好的分类效果.结论 粗糙集的属性约简理论可以用在规则提取和特征选择上,利用粗糙集的属性约简理论进行特征选择时能够获得较理想的分类效果. 相似文献
5.
提出一种新颖的基于决策树方法的电能质量扰动自动分类方法.该方法首先对采集到的扰动信号进行小波多分辨率分解,扰动信号在每个小波分解尺度的能量分布构成一个特征向量;然后利用CART决策树算法从这些特征向量构成的训练样本中自动提取相应的分类规则,得到决策树分类模型,并将该模型应用到电能质量扰动测试数据中.仿真结果表明所提电能质量扰动数据分类挖掘方法的有效性和鲁棒性. 相似文献
6.
提出了一种基于禁忌搜索的模糊神经网络分类器设计算法.该方法首先从训练样本中自动获取分类规则,构成模糊神经网络的初始网络结构,然后采用基于禁忌搜索和梯度下降法的混合算法同时优化模糊神经网络的结构和参数.使用IRIS数据集对所提出的方法进行性能测试,结果表明该方法能使用较少的分类规则获得很好的分类效果. 相似文献
7.
8.
罗新 《农业图书情报学刊》2016,(11):50-54
文本分类作为处理大量文本数据的关键技术,可以在较大程度上解决"信息爆炸"所带来的问题。Breiman提出的随机森林算法具有良好的泛化性和鲁棒性、对噪声不敏感、能处理连续属性的特点,很适合用来建立文本分类模型。笔者将随机森林算法尝试性引入文本分类领域,构建基于随机森林的文本分类模型,并在标准文本测试集Reuters-21578进行测试和比较,结果表明:(1)该模型可以较好地应用于文本分类;(2)与基于CART、REPTree和J48的文本分类模型的结果相比较,基于随机森林的文本分类模型的效果最好,F1-Measure达到了0.777;(3)基于随机森林的文本分类模型操作方便、直观有效、评价结果可靠,为文本分类研究提供了新思路。 相似文献
9.
10.
11.
KNN和SVM算法在中文文本自动分类技术上的比较研究 总被引:3,自引:0,他引:3
中文文本分类技术在中文信息智能处理方面具有十分重要的作用,比如:中文信息检索和搜索引擎等,KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。 相似文献
12.
【目的】准确获取红富士苹果的分级指标,为实现多特征融合的苹果分级提供依据。【方法】以均值滤波、全局亮度均衡化与图像裁剪方法,预处理实验所需的苹果图像;使用K-means聚类算法、OTSU最大类间方差法,将苹果灰度图转换为二值图;利用二值图与苹果原图的异或运算,提取苹果轮廓;采用苹果的二值图计算苹果的果实区域大小;使用颜色空间转换RGB-HSV中H通道划分果实红色区域;通过构建掩膜、形态学操作判断果体是否含有缺陷及计算其面积;构建最小外接矩形计算苹果的果径及果形;利用KNN分类算法实现多特征融合的苹果在线自动分级。【结果】基于K-means聚类与KNN分类相结合的苹果在线分级方法,在优于传统图像阈值分割效果的基础上,特级果分级准确率为97.14%,一级果分级准确率为100%,二级果分级准确率为93.75%,等外果分级准确率为100%,综合分级准确率达到97%。【结论】100个苹果测试准确率达到97%,验证了该分级方法的可行性与准确性。 相似文献
13.
Several typical supervised clustering methods such as Gaussian mixture model-based supervised clustering (GMM), k- nearest-neighbor (KNN), binary support vector machines (SVMs) and multiclass support vector machines (MC-SVMs) were employed to classify the computer simulation data and two real microarray expression datasets. False positive, false negative, true positive, true negative, clustering accuracy and Matthews' correlation coefficient (MCC) were compared among these methods. The results are as follows: (1) In classifying thousands of gene expression data, the performances of two GMM methods have the maximal clustering accuracy and the least overall FP+FN error numbers on the basis of the assumption that the whole set of microarray data are a finite mixture of multivariate Gaussian distributions. Furthermore, when the number of training sample is very small, the clustering accuracy of GMM-Ⅱ method has superiority over GMM- Ⅰ method. (2) In general, the superior classification performance of the MC-SVMs are more robust and more practical, which are less sensitive to the curse of dimensionality, and not only next to GMM method in clustering accuracy to thousands of gene expression data, but also more robust to a small number of high-dimensional gene expression samples than other techniques. (3) Of the MC-SVMs, OVO and DAGSVM perform better on the large sample sizes, whereas five MC-SVMs methods have very similar performance on moderate sample sizes. In other cases, OVR, WW and CS yield better results when sample sizes are small. So, it is recommended that at least two candidate methods, choosing on the basis of the real data features and experimental conditions, should be performed and compared to obtain better clustering result. 相似文献
14.
蔡豪源 《农业图书情报学刊》2016,28(7):5-9
介绍了LSI潜在语义索引在信息检索领域的运用。阐述了词项加权的3种方法,分析了矩阵的奇异值分解SVD在提取矩阵重要信息方面的作用,展示了对词项—文档矩阵的降秩近似是如何模拟人类理解语义的过程;比较了向量空间模型与LSI在搜索算法上的异同,通过对词项—文档矩阵进行文本挖掘的例子,指出了LSI在分析文档间内在联系所起到的作用。 相似文献
15.
[目的]探索一种有效的组合预测方法,用于定量构效关系(QSAR)的研究分析。[方法]提出一种基于支持向量机回归(SVR)与K-最近邻法(KNN)的组合预测方法:以均方误差(MSE)最小为择优准则,对SVR实施核函数寻优;基于最优核函数以SVR进行描述符筛选并得到保留描述符;以"多轮末尾强制淘汰法"阐述各保留描述符对预测精度影响的程度;基于保留描述符,以不同KNN预测值反映样本集异质性并构建子模型,最后基于SVR以留一法实施组合预测。运用该组合预测方法研究磺酰脲和三唑并嘧啶磺酰胺类除草剂QSAR建模。[结果]建模结果表明,基于SVR与KNN的组合预测方法在参比模型中预测精度最高,具有结构风险最小、非线性、能有效克服过拟合、泛化推广能力优异等优点。[结论]基于SVR与KNN的组合预测具有许多优点,在QSAR研究中应用前景广泛。 相似文献
16.
17.
18.
19.
Damashek M 《Science (New York, N.Y.)》1995,267(5199):843-848
A language-independent means of gauging topical similarity in unrestricted text is described. The method combines information derived from n-grams (consecutive sequences of n characters) with a simple vector-space technique that makes sorting, categorization, and retrieval feasible in a large multilingual collection of documents. No prior information about document content or language is required. Context, as it applies to document similarity, can be accommodated by a well-defined procedure. When an existing document is used as an exemplar, the completeness and accuracy with which topically related documents are retrieved is comparable to that of the best existing systems. The results of a formal evaluation are discussed, and examples are given using documents in English and Japanese. 相似文献
20.
基于TWDTW的时间序列GF-1 WFV农作物分类 总被引:1,自引:0,他引:1
【目的】焉耆盆地是新疆重要的特色农产品生产基地,农作物种植结构较为复杂。利用时间序列的遥感数据对研究区内的农作物进行分类识别,获得不同农作物的空间分布、种植面积等信息,为政府部门制定粮食政策、经济计划提供重要依据。同时探讨时间加权的动态时间弯曲(time weighted dynamic time warping,TWDTW)方法在农作物分类识别中的适用性以及高分一号(GF-1)WFV在农业领域的应用潜力。【方法】以新疆焉耆盆地为研究区域,利用2018年作物生长季的GF-1 WFV时间序列数据集计算归一化植被指数(NDVI),基于TWDTW方法开展农作物分类识别研究。分别采集不同作物的样本点,形成各作物NDVI的标准序列。利用TWDTW相似性匹配算法计算每个待分类像元与不同作物标准序列间的相似度距离,距离值越小则相似性越高,通过对比确定像元的农作物类型,得到最终的分类结果,同时根据时间序列NDVI曲线建立决策树(decision trees,DTs)分类规则,人工设置分类阈值得到分类结果,并与TWDTW方法的结果进行对比分析。【结果】2种方法的分类结果较为一致,辣椒的种植范围最广,小麦主要分布在焉耆盆地北部和西部的农二师二十一团,番茄和甜菜的种植分布较为零星。在种植面积统计中,辣椒的种植面积最大,其后依次为番茄、小麦和甜菜。利用野外样本点对决策树和TWDTW两种方法的分类结果进行精度验证,总体精度分别为89.58%和90.97%,kappa系数为0.804和0.830,TWDTW方法的分类精度相比于决策树法略有提高。【结论】相比于决策树分类方法,TWDTW方法的分类精度略有提高的同时,分类结果客观可靠,而且算法不受地域因素限制,具有较强的灵活性和适用性。基于密集时相的GF-1 WFV数据集,采用TWDTW算法对农作物进行分类,得到较好的分类结果,能够满足农业部门的管理决策需求,该方法在农业领域具有较大的应用和推广价值。 相似文献