首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于word2vec和LSTM的饮食健康文本分类研究
引用本文:赵明,杜会芳,董翠翠,陈长松.基于word2vec和LSTM的饮食健康文本分类研究[J].农业机械学报,2017,48(10):202-208.
作者姓名:赵明  杜会芳  董翠翠  陈长松
作者单位:中国农业大学,中国农业大学,中国农业大学,公安部第三研究所
基金项目:信息网络安全公安部重点实验室开放课题项目(61503386)
摘    要:为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。

关 键 词:文本分类  word2vec  词向量  长短期记忆网络  K-means++
收稿时间:2017/1/13 0:00:00

Diet Health Text Classification Based on word2vec and LSTM
ZHAO Ming,DU Huifang,DONG Cuicui and CHEN Changsong.Diet Health Text Classification Based on word2vec and LSTM[J].Transactions of the Chinese Society of Agricultural Machinery,2017,48(10):202-208.
Authors:ZHAO Ming  DU Huifang  DONG Cuicui and CHEN Changsong
Institution:China Agricultural University,China Agricultural University,China Agricultural University and The Third Research Institute, Ministry of Public Security
Abstract:text classification;word2vec;word embedding;long-short term memory network;K-means++
Keywords:text classification  word2vec  word embedding  long-short term memory network  K-means++
本文献已被 CNKI 等数据库收录!
点击此处可从《农业机械学报》浏览原始摘要信息
点击此处可从《农业机械学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号