• 首页
  • 期刊简介
  • 编委会
  • 投稿指南
  • 收录情况
  • 杂志订阅
  • 联系我们
引用本文:张舒雅,王占刚.基于Spark和改进的TF-IDF算法的用户特征分析[J].软件工程,2016,19(10):9-14.【点击复制】
【打印本页】   【下载PDF全文】   【查看/发表评论】  【下载PDF阅读器】  
←前一篇|后一篇→ 过刊浏览
分享到: 微信 更多
基于Spark和改进的TF-IDF算法的用户特征分析
张舒雅,王占刚
(天津工业大学计算机科学与软件学院,天津 300388)
摘 要: 使用朴素贝叶斯分类算法,结合Spark内存计算框架,对用户观看视频及次数信息进行分析,建立用户性 别和年龄区间的分类模型;然后利用特征项的权重优化模型,考虑到每个特征项在各个类别中的权重对分类结果的影 响,提出了一种基于特征项与类别间相关性的TFC-IDFC权重计算方法,并与传统的TF-IDF权重计算方法进行比较, 通过正确率和F1值两个指标,证明考虑到特征项与类别的相关性所提出的TFC-IDFC权重使得分类模型的分类能力更 好。
关键词: Spark;用户特征;贝叶斯;分类;TF-IDF
中图分类号: TP391    文献标识码: A
User Characteristic Analysis Based on Spark and the Improved TF-IDF Algorithm
ZHANG Shuya,WANG Zhangang
( School of Computer Science and Software Engineering, Tianjin Polytechnic University, Tianjin 300388, China)
Abstract: 
Keywords: spark;user characteristics;Bayes;classification;TF-IDF


版权所有:软件工程杂志社
地址:辽宁省沈阳市浑南区新秀街2号 邮政编码:110179
电话:0411-84767887 传真:0411-84835089 Email:semagazine@neusoft.edu.cn
备案号:辽ICP备17007376号-1
技术支持:北京勤云科技发展有限公司

用微信扫一扫

用微信扫一扫