新闻个性化推荐的模型设计
2018年1月30日 16:15 作者:lunwwcom随着网络信息化的飞速发展,信息的数量和种类均呈爆炸式增长,逐步出现信息过载和泛滥的现象,用户难以从海量信息中及时找到自己关注的内容。个性化推荐理论和技术的诞生,为解决该问题提出了很好的解决办法,它是一种崭新的智能、高效的信息服务方式,通过分析用户的历史行为数据,预测用户可能感兴趣的需求,准确为用户提供个性化的信息推荐服务。
新闻内容模型
新闻的文本特征可以通过新闻隐藏的主题、关键词、标签来表示,新闻主题聚类通过LDA 挖掘得到。通过LDA 主题模型训练出新闻主题分类,以及每篇文本的主题分布和主题的词分布。实现步骤为先做分词处理,然后生成向量,根据向量去做主题聚类。数据预处理。新闻文本是以网页html标签的形式存在的,由于格式、规范等各种不一致,通过文本预处理,转化为计算机可直接处理的规范化格式。最关键的步骤就是分词,提取有价值的词,去除停用词,降低数据维度,为后续的文本分类工作减轻压力,提高效率。中文分词相对英文分词要复杂,本文通过现有CJK 规范为每个词之间插入空格,然后通过Mahout 自带英文分词技术完成该过程。
LDA 主题聚类模型。LDA 是一个三层贝叶斯模型,主题的分布和词的分布不是确定的,是一种对文本进行无监督聚类的方法。假设文本是由一系列潜在主题随机混合而成,主题是由词汇表中所有的词混合而成,不同文本的主要区别在于其主题混合比例不同 。在训练集合中,通过LDA 模型计算每个文本都包含一个主题数维度的向量,这个向量表示每个主题在该篇文章中的出现概率,概率越高,这个主题在该文章中的权重就越大。并通过对每个词在主题中的概率计算,完成关键词的概率分布。根据以上原理计算入库新闻的主题分布,表示为:z={(主题1,概率1),(主题2,概率2),…,(主题p,概率p)}
混合模型生成。为了更准确计算新闻的相似性,引入关键词和标签属性生成向量。关键词可以通过TF-IDF(词频- 逆向文档频率)的方法,计算特征词权重,表示为:d={(关键词1,概率1),(关键词2,概率2),…, (关键词n,概率n)} ,n 代表所有关键词的个数。标签属性按照栏目类别划分,栏目的新闻内容具有一定的相似性,标签向量表示为:t={ 标签1,标签2,…, 标签m} ,m 代表所有标签的个数。结合以上内容设计新闻内容的混合模型如下所示:M=k1zi+ k2dj+ k3tm(1)其中, k1 代表主题模型计算得信息主题特征的权值,k2 代表关键词特征的权值,k3 代表标签的权值。用户兴趣模型将用户的隐含主题偏好与关键词兴趣相结合,考虑新闻的时效性,构建完整的个性化兴趣偏好的用户兴趣模型,准确、完整的用户兴趣模型可以很好的提高推荐准确性。用户兴趣模型表示方式为:F={Z,K,T (} 2)其中,Z、K、T 分别表示用户主题偏好向量、关键词权值序列和新闻标签关注程度,取值范围为0 到1 的实数。下面对模型的主要内容进行介绍:
(1)用户主题偏好。用户主题偏好通过访问过的新闻主题聚类得出,由一组向量表示:Z={ 主题1,主题2,…, 主题y},其中,y 代表所有主题的个数,属性值代表用户对各主题的偏好程度。(2)关键词权值序列。用户在浏览新闻的过程中,会对含有某些关键词的新闻感兴趣,通过向量空间和TF-IDF 计算关键词的序列及其权值,表示为:K={( 关键词1,概率1),( 关键词2,概率2),…,( 关键词j,概率j)}其中,j 代表用户感兴趣的关键词的个数,并用权值表示用户对各关键词的感兴趣的程度。(3)新闻标签关注程度。用户对新闻用户在面对海量新闻时,个性化的推荐系统可以通过分析用户行为来预测用户的阅读偏好,使其能够尽快地找到用户可能感兴趣的信息。本文围绕新闻推荐系统中文本内容挖掘和用户兴趣表达的问题,应用混合模型对新闻个性化推荐的模型设计进行了研究。标签的关注程度由一组向量表示:T={ 标签1,标签2,…标签q},其中,q 代表所有标签的个数,Tc 代表用户对第c 个标签的关注程度,是一个权值,计算公式表示为:Tc=So表示用户对该标签下新闻的阅读量,S 表示用户全部的阅读量。(4)用户兴趣度更新。用户浏览网页的行为和习惯反映了用户的兴趣特征,兴趣偏好是一个逐渐变化的过程,当某一个兴趣得不到加强,随着时间的推移兴趣会逐渐减弱,而且很难与用户偶然性的浏览相区分,通过添加衰减因子更新新闻兴趣主题特征权重的方法更新用户对新闻主题的新鲜度,公式如下所示:Z i=λ(t)Z′ i 其中,Z i 表示主题i 新的权值;λ(t)为时间衰减因子;Z′ i表示其原有权值。定义用户的兴趣衰减系数如下公式所示:λ(t)=ek(t - t0)(0<k<1)k 值的大小决定了特征值权重的衰减速度。k 值越大,衰减速度越快。t 表示现在访问时间,t0 表示上次访问时间。新闻推荐生成
用户推荐新闻列表由新闻内容模型与用户兴趣模型计算向量相似性,通过余弦相似度方法实现,计算结果在0-1 之间,结果越接近1,相似度越大,通过定义一个阈值判断新闻的推荐结果。本文定义阈值为0.7,通过有效新闻的推荐效果来验证阈值是否正确,如果对用户推荐新闻篇数过少或者推荐用户范围过小,将值调整为0.6,以此类推进行判断。
另外,在新闻推荐中,为用户推荐还未产生兴趣偏好的新闻(未通过主题模型计算出的新闻),防止推荐主题过分收敛,增加推荐的多样性和新颖性。基于ItemCF 的关键是找到与被访问新闻a“最近邻”的相似的新闻b。相似度的值越大,则新闻a 与新闻b 就越相似,那么在预测的新闻推荐的过程中,新闻b 的评分的权重值就越大。同样采用余弦相似度算法来计算新闻之间的相似度。计算结果按权值从高到低排序,推荐其中的前3 个插入新闻兴趣推荐列表中一同给用户。如果用户对这类新闻非常感兴趣,会随着用户的访问行为改变用户的主题偏好。文章简要描述了一个新闻推荐系统的主要架构和模块,新闻文本特征模型、用户兴趣模型和新闻推荐的生成。本文所做的工作十分有限,要进一步完善用户兴趣表达,提高新闻文本主题隐形含义的更精准表达,满足用户对新闻推荐服务的差异化需求,提高个性化新闻推荐的准确率及用户满意度,还有很多问题有待研究。
(作者单位:陆军装甲兵学院信息管理中心)