基于深度学习的推荐系统综述 (arxiv 1707.07435) 译文 3.1 ~ 3.3

  • 时间:
  • 浏览:0
  • 来源:大发5分PK10APP下载_大发5分PK10APP官网

协共同噪自编码器(CDAE) 。 要是回顾的有一一三个小 模型主要用于评分预测,而CDAE [177]主要用于排名预测。 CDAE的输入是用户的帕累托图观测的隐式反馈 。 不可能 用户喜欢电影,则条目值为1,我愿意为0。它还都不都都可以被视为反映用户对项目的兴趣的偏好向量。 图 4b 说明了CDAE的特性。 CDAE的输入被高斯噪声破坏。 有损输入 是从条件高斯分布 中提取的。重构定义为:

通过扩展这人 模型,Chen 等 [13]为大规模的工业级推荐任务设计了有一一三个小 局部连接的广度和深度图学习模型。 它采用高效的局部连接网络来取代深度图学习成分,从而将运行时间减少有一一三个小 数量级。 部署广度和深度图学习的有一一三个小 重要步骤是选择广度和深度图帕累托图的特性。 换句话说,系统应该无需都都可以选择哪些特性被记忆或概括。 此外,还前要手工设计交叉乘积变换。 哪些预先步骤将极大地影响该模型的效果。 上述基于深度图因式分解的模型都不都都可以减少特性工程的工作量。

(4)

其中损失函数 都不都都可以是平方损失或 logistic 损失。

**图 2:**图示:(a)神经协同过滤;(b)深度图分解机。

(6)

形式上,广度学习定义为: ,其中 是模型参数。 输入 是由原始输入特性 ,和变换特性 (例如,捕获特性之间的相关性的交叉乘积变换) 组成的连接特性集 。 深度图神经元的每一层总要 ,其中 表示 层, 是激活函数。 是权重和偏置。 通过融合这有一一三个小 模型都不都都可以获得广度和深度图学习模型:

**表 1:**已回顾论文的查找表。

MLP是有一一三个小 简洁但有效的网络,据证明无需都都可以以任何所需的准确度近似将任何可测量的函数[59]。 我愿意,它是有些先进办法的基础,我愿意在有些领域中被广度使用。

为了提供该领域的全景图,大伙儿儿根据所采用的深度图学习技术的类型对现有模型进行分类。 大伙儿儿进一步将基于深度图学习的推荐模型分为以下两类。 表 1 总结了分类方案。

将自编码器应用于推荐系统有有四种 通用办法:(1)利用自编码器学习瓶颈层的低维特性表示;不可能 (2)直接在重构层中填充交互矩阵的空白。 几乎所有的自编码器变体,例如去噪自编码器,变分自编码器,收缩自编码器和边缘化自编码器都都不都都可以应用于推荐任务。 表 3 基于所使用的自编码器类型总结了推荐模型。

深度图特性化语义模型的推荐。 深度图特性化语义模型(DSSM)[65]是有一一三个小 深度图神经网络,用于学习常见连续语义空间中实体的语义表示,并测量它们的语义例如性。 它广泛应用于信息检索领域,非常适合 top-n 推荐[39,182]。 DSSM将不同的实体投射到有一一三个小 共同的低维空间中,并用余弦函数计算它们的例如性。 基本的DSSM由MLP组成,我愿意大伙儿儿将其中放本节中。 请注意,更高级的神经层(如卷积和最大池层)也都不都都可以轻松集成到DSSM中。

传统推荐办法的神经扩展。 有些现有的推荐模型基本上是线性办法。 MLP可用于向现有RS办法加进非线性变换并将其解释为神经扩展。

(9)

据大伙儿儿所知,基于自编码器的协同过滤(ACF)[114]是第有一一三个小 基于自编码器的协同推荐模型。 它总要使用原始的帕累托图观察向量,只要通过整数评分对它们进行分解。 例如,不可能 评分分数是[1-5]范围内的整数,则每个 将分为一三个小帕累托图向量。 与AutoRec和CFN例如,ACF的损失函数旨在减少均方误差。 然而,ACF有有一一三个小 缺点:(1)它无法补救非整数评分; (2)帕累托图观测向量的分解增加了输入数据的稀疏性,意味着预测精度更差。

译者:飞龙

**图 1:**基于深度图神经网络的推荐模型的类别。

其中 是层 的权重矩阵和偏置向量, 代皮层 是超参数, 是用于选择观察置信度的置信参数[63]。图 5(左)说明了CDL的图模型。 作者利用EM风格的算法来学习参数。 在每次迭代中,首先它总要更新 ,我愿意通过固定 ,更新 。作者还介绍了有四种 基于抽样的算法[161],来补救局部最优。

(7)

AutoRec [125]使用用户帕累托图向量 或项目帕累托图向量 作为输入,旨在在输出层重构它们。 显然,它有有四种 变体:基于项目的AutoRec(I-AutoRec)和基于用户的AutoRec(U-AutoRec),对应于有四种 类型的输入。 在这里,大伙儿儿只介绍I-AutoRec,而U-AutoRec都不都都可以相应地轻松派生。 图 4a 说明了I-AutoRec的特性。 给定输入 ,重构是: ,其中 是激活函数, 是参数。 I-AutoRec的目标函数如下:

其中 表示用户节点的权重矩阵(见图 4B)。 该权重矩阵对于每个用户是唯一的,我愿意对模型性能具有显着影响。 通过最小化重构误差也都不都都可以学习CDAE的参数:

**表 2:**特定应用领域中基于深度图神经网络的推荐模型。

用MLP学习特性表示。 使用MLP进行特性表示非常简单且高效,即使它不可能 不像自编码器,CNN和RNN那样具有表现力。

在CDL要是,Wang等 [158]提出了有一一三个小 例如的模型,关系栈式去噪自编码器(RSDAE),用于标签推荐。 CDL和RSDAE的区别在于,RSDAE用关系信息矩阵替换PMF。 CDL的那我扩展是协同变分自编码器(CVAE)[89],它用变分自编码器代替CDL的深度图神经组件。 CVAE学习内容信息的概率潜变量,我愿意都不都都可以轻松地合并多媒体(视频,图像)数据源。

Covington等 [27]探讨了YouTube推荐中MLP的应用。 该系统将推荐任务分为有一一三个小 阶段:候选生成和候选排名。 候选生成网络从所有视频语料库中检索子集(数百个)。 排名网络基于来自候选择的最近邻居分数生成 top-n 个列表(数一三个小)。 大伙儿儿注意到工业界更关注特性工程(例如变换,正则化,交叉)和推荐模型的可扩展性。

其中 是S形激活函数。

协同深度图排名(CDR) 。 CDR [188]专门为成对框架设计,用于 top-n 推荐。 有些研究表明,成对模型更适合排名列表生成[120,177,188]。 实验结果还表明,CDR在排名预测方面优于CDL。 图 5(右)介绍CDR的特性。 CDR生成过程的第一和第二步与CDL相同。 第三步和第四步由以下步骤代替:

都不都都可以使用负采样办法来减少未观测的训练实例的数量。 后续工作[112,134]建议使用成对排名损失来提高效果。He 等 [92,166]将NCF模型扩展到跨域推荐。 Xue 等 [184]和 Zhang 等 [195]表明,都不都都可以用交互矩阵的列或行替换单热标识符来保留用户项目交互模式。

(10)

(11)

其中 是sigmoid函数, 是二元评分标签, 是最后的激活。 该联合模型使用随机反向传播(follow-the-regularized-leader 算法)进行优化。 基于预测的分数生成推荐列表。

Alashkar等 [2]提出了基于MLP的化妆品推荐模型。 这项工作使用有一一三个小 相同的MLP分别为标记示例和专家规则建模。 通过最小化它们的输出之间的差异,共同更新这有一一三个小 网络的参数。 它展示了采用专家知识指导MLP框架中推荐模型学习过程的效果。 即使专业知识的获取前要什么都他们的参与,它也是深度图精确的。

基于深度图语义例如度的个性化推荐(DSPR) [182]是标签感知个性化推荐器,其中每个用户 和项目 由标记注解表示并映射到公共标记空间。 余弦例如度 用于决定项目和用户的相关性(或用户对项目的偏好)。 DSPR的损失函数定义如下:

(3)

广度和深度图学习 。 这人 通用模型(如图 3a 所示) 都不都都可以补救回归和分类难题,但最初在Google Play的App推荐中引入[20]。 广度学习成分是单层感知器,也都不都都可以视为广义线性模型。 深度图学习成分是多层感知器。 结合这有四种 学习技术的基本原理是,它使推荐系统无需都都可以捕获记忆和概括。 广度学习成分实现的记忆,代表了从历史数据中捕获直接特性的能力。 共同,深度图学习成分通过产生更一般和抽象的表示,来捕捉泛化。 该模型都不都都可以提高推荐的准确性和多样性。

多视图深度图神经网络(MV-DNN) [39]专为跨域推荐而设计。 它将用户视为透视视图,每个域(假设大伙儿儿有 个域)作为辅助视图。 显然,对于 个用户域对,有 个例如度得分。 图 3b 展示了MV-DNN的特性。 MV-DNN的损失函数定义为:

深度图分解机 。 DeepFM [47]是有四种 端到端模型,可无缝集成分解机和MLP。 它无需都都可以使用深度图神经网络和与分解机的低阶交互来建模高阶特性相互作用。 分解机(FM)利用加法和内积运算来捕获特性之间的线性和成对相互作用(更多细节参见[119]中的公式(1))。 MLP利用非线性激活和深度图特性来模拟高阶交互。 MLP与FM结合的办法受到广度和深度图网络的启发。 它用分解机的神经解释取代了宽的分量。 与广度和深度图模型相比,DeepFM不前要繁琐的特性工程。 图 2b 说明了DeepFM的特性。 DeepFM的输入 是有一一三个小 个领域的数据,由 对组成(用户和项目的身份和特性)。 为简单起见,FM和MLP的输出分别表示为 。 预测得分通过以下公式计算:

协同深度图学习(CDL) 。 CDL [159]是有四种 分层贝叶斯模型,它将栈式去噪自编码器(SDAE)集成到概率矩阵分解中。 为了无缝地结合深度图学习和推荐模型,作者提出了有一一三个小 通用的贝叶斯深度图学习框架[161],它由有一一三个小 紧密结合的成分组成:感知成分(深度图神经网络)和任务特定成分。 具体而言,CDL的感知成分是普通SDAE的概率解释,PMF充当任务特定成分。 这人 紧密结合使CDL无需都都可以平衡辅助信息和交互历史的影响。 CDL的生成过程如下:

**图 3:**图示:(a)广度和深度图学习;(b)多视图深度图神经网络。

用自编码器学习特性表示。 自编码器是一类功能强大的特性表示学习办法。 我愿意,它还都不都都可以用在推荐系统中以从用户/项目内容特性学习特性表示。

其中 表示用户对项目 和项目 的偏好的成对关系, 是有一一三个小 置信度值,表示比起项目 用户多么 喜欢项目 。优化过程与CDL相同。

其中 是从负面用户项目对中随机抽样的负样本。[183]的作者使用自编码器进一步改进DSPR,来从用户/项目资料中学习低维表示。

深度图协同过滤框架 。 它是使用协同过滤模型[88]来统一深度图学习办法的一般框架。 该框架都不都都可以轻松利用深度图特性学习技术来构建混合协同模型。 上述工作如[153,159,167],可视为该一般框架的特例。 形式上,深度图协同过滤框架定义如下:

其中 是权衡参数,用于平衡这有一一三个小 成分的影响, 是辅助信息, 是协同过滤模型的损失。 充当铰链,用于连接深度图学习和协同模型,以及将潜在因素链接到边信息。 在此框架的基础上,作者提出了基于边缘化去噪自编码器的协同过滤模型(mDA-CF)。 与CDL相比,mDA-CF探索了有四种 计算带宽更高的自编码器变体:边缘化去噪自编码器[15]。 它通过边缘化损坏的输入,来节省搜索足够损坏的输入版本的计算开销,这使得mDA-CF比CDL更具可扩展性。 此外,mDA-CF嵌入项目和用户的内容信息,而CDL仅考虑项目特性的效果。

**图 4:**图示:(a)基于项目的AutoRec;(b)协共同噪自编码器;(c)深度图协同过滤框架。

其中 是模型参数, 是平滑因子, 是用户视图的输出, 是活动视图的索引。 是视图 的输入域。 MV-DNN无需都都可以扩展到有些域。 然而,它基于那我的假设:不可能 用户在有一一三个小 域中具有有四种 品味,应该在有些域中具有例如的品味。 直观地说,在有些情况报告下,这人 假设不可能 是不合理的。 我愿意,大伙儿儿应该初步了解不同域之间的相关性,来充分利用MV-DNN。

(5)

CFN [136,137]是AutoRec的扩展,具有以下有一一三个小 优点:(1)它采用了去噪技术,使CFN更加健壮;(2)它结合了诸如用户资料和项目描述例如的辅助信息,来减轻稀疏性和冷启动影响。 CFN的输入也是帕累托图观测向量,我愿意它总要有四种 变体:I-CFN和U-CFN, 分别作为输入。 掩蔽噪声是正则化器,用于更好居于理缺失元素(它们的值为零)。 作者介绍了有四种 广泛使用的破坏办法来破坏输入:高斯噪声,掩蔽噪声和椒盐噪声。 CFN的进一步扩展还中含辅助信息。 然而,CFN总要仅仅在第一层中结合辅助信息,只要在每一层中注入辅助信息。 我愿意,重构变为:

其中函数 代表多层感知器, 是这人 网络的参数。 传统的MF都不都都可以被视为NCF的有一一三个小 特例。 我愿意,将矩阵分解的神经解释与MLP融合来制定更通用的模型是方便的,该模型利用MF的线性和MLP的非线性来提高推荐质量。 都不都都可以使用加权平方损失(用于显式反馈)或二元交叉熵损失(用于隐式反馈)来训练整个网络。 交叉熵损失定义为:

(8)

其中 是辅助信息, 表示 的连接。 结合辅助信息可提高预测准确性,加快训练过程并使模型更加健壮。

表 1 列出所有回顾的模型,大伙儿儿按照上述分类方案组织它们。 此外,大伙儿儿还在表 2 中从任务深度图总结了有些论文。 回顾的论文涉及各种任务。 不可能 使用深度图神经网络(例如基于会话的推荐,图像,视频推荐),有些任务已刚结速受到关注。 有些任务对于推荐研究领域不可能 无需说新颖(用于推荐系统的辅助信息的完整性回顾都不都都可以在[131]中找到),但DL提供了更多找到更好补救方案的不可能 性。 例如,不可能 没办法 深度图学习技巧的帮助,补救图像和视频将是一项艰巨的任务。 深度图神经网络的序列建模功能都不都都可以轻松捕获用户行为的序列模式。 有些具体任务将在下文中讨论。

基于自编码器的协同过滤。 其中含一一三个小 成功的应用是从自编码器的深度图考虑协同过滤。

在本节中,大伙儿儿首先介绍基于深度图学习的推荐模型的类别,我愿意突出最先进的研究原型,旨在选择近年来最显着和最有希望的进步。

这里 意味着着它只考虑观测的评分。 都不都都可以通过弹性传播(收敛减慢并产生可比较的结果)或L-BFGS(限制记忆的Broyden Fletcher Goldfarb Shanno算法)来优化目标函数。 AutoRec的一三个小要点值得在部署要是注意到:(1)I-AutoRec的性能优于U-AutoRec,这不可能 是不可能 用户帕累托图观测向量的方差较大。 (2)激活函数 的不同组合将大大影响性能。 (3)适度增加隐藏单元大小将改善结果,不可能 扩展隐藏层维度使AutoRec无需都都可以更好地模拟输入的特性。 (4)加进更多层来形成深度图网络都不都都可以略微改进。

Lian 等 [93]通过提出有一一三个小 eXtreme深度图分解机来共同模拟显式和隐式特性交互,从而改进了DeepMF。 通过压缩交互网络学习显式高阶特性交互。 He等提出的并行工作 [54]取代了与MLP的二阶交互,并建议使用dropout和batch normalization对模型进行正则化。

Muli-VAE和Multi-DAE [94]提出了有四种 变分自编码器,用于推荐隐含数据,展示出比CDAE更好的性能。 作者介绍了有四种 用于参数估计的原则性贝叶斯推理办法,我愿意展示出比常用似然函数更好的结果。

HRCD [170,171]是基于自编码器和timeSVD ++ [50]的混合协同模型。 它是有四种 时间感知模型,它使用SDAE从原始特性中学习项目表示,旨在补救冷项目难题。

(1)

原文:Deep Learning based Recommender System: A Survey and New Perspectives (arxiv 1707.07435)

自豪地采用谷歌翻译

AutoSVD ++ [196]利用收缩自编码器[122]来学习项目特性表示,我愿意将它们集成到经典推荐模型SVD ++ [79]中。 所提出的模型具有以下优点:(1)与有些自编码器变体相比,收缩自编码器捕获无穷小的输入变化;(2)对隐式反馈进行建模,来进一步提高准确性;(3)设计了有四种 有效的训练算法,来减少训练时间。

协议:CC BY-NC-SA 4.0

**表 3:**有四种 基于自编码器的推荐模型的总结

协同度量学习(CML) 。 CML [50]用欧几里德距离代替MF的点积,不可能 点积不满足距离函数的三角恒等性。 通过最大化用户与其不喜欢的项目之间的距离并最小化用户与其偏好项目之间的距离来学习用户和项目嵌入。 在CML中,MLP用于学习项目特性(如文本,图像和标签)的表示。

CDAE最初使用SGD在所有反馈上更新其参数。 然而,作者认为在现实世界的应用中考虑所有评分是不切实际的,我愿意大伙儿儿提出了有四种 负采样技术来从负集合(用户没办法 与之交互的项目)中抽取一小帕累托图,这减少了时间繁复度,但基本上没办法 降低排名质量。

**图 5:**协同深度图学习(左)和协同深度图排名(右)的图模型。

神经协同过滤 。 在大多数情况报告下,推荐被视为用户偏好和项目特性之间的双向交互。 例如,矩阵分解将评分矩阵分解为低维用户/项目潜在因子。 构建双神经网络来模拟用户和项目之间的双向交互是很自然的。 神经网络矩阵分解(NNMF)[37]和神经协同过滤(NCF)[53]是有一一三个小 具有代表性的工作。 图 2a 显示了NCF架构。 让 表示辅助信息(例如用户买车人信息和项目特性),不可能 仅表示用户 和项目 的单热标识符。 评分函数定义如下:

(2)

猜你喜欢

我问女生想要什么生日礼物,她说我还记得她生日,她以为我忘了,然后她说随便吧 她什么意思?

 我来答我我随便说说知道她有哪些意思不如知道你个人有哪些想法,你时候对她有感觉,那就平时对她多关心些,多聊聊,没事多找她转转,另假使 就算不说出我喜欢你这种 语句,两人之

2020-01-19

万网云解析设置二级域名解析到同IP不同端口

怎样使用阿里云搭建wordpress网站(图文教程+小白专用+Linux版)?现在也能 换成解析,记录类型选择隐性URL,主机记录写想用的名字,例如于asp,解析地址写你想进

2020-01-19

人一生总会先暗恋几个人,再错过几个人,到最后才遇到对的人

本回答被提问者采纳你对什儿 回答的评价是?为你推荐:使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。经历充足!是的追问展开详细不怎么推荐展开详

2020-01-19

值得职场人反思的工作心态:工作不顺利到底是谁的问题

这人人 要自学认识各人 ,知道各人 的能力,知道各人 的瓶颈,人无完人都需要慢慢的完善各人 ,要想处置工作中哪此麻烦,就要揪出间题的源头,知道各人 的存在

2020-01-19

谁的人生里没有几个人渣.哈哈哈

扫描二维码下载下载百度知道APP,抢鲜体验相濡以沫不如相忘于江湖,刻意的忘记骗得后来 该人 ,与其忘记倒不如顺其自然, 我来答谁的秦春里没爱过几该人 渣,换一换等到你

2020-01-19