- wireless sensor networks
- entry
- sparity
- entities
- symmetric, high-dimensional, and sparse (SHiDS) matrices
- sensor node
- imputation
- missing values
- collaborative filtering (CF)
- K-nearest neighborhood (KNN) model
- latent factor (LF) model
- matrix factorization (MF) technique
- An MF-based LF model
- interpretability and scalability
- multiplicative-updated non-negative MF model
- non-negative matrix completion model
- weighted NMF model
- a non-negative LF (NLF) model
- a single NLF-dependent, non-negative, and multiplicative update (SLF-NM) learning scheme
- the DF-SNLF model with SLF-NM learning scheme
- double factorization (DF) technique
- the triple factorization (TF) technique
- the TF-SNLF model
- NLF information
- l2-norm regularization
- inequality constraints
- Lagrangian-multiplier technique
极大实体集合间的不完备交互关系
https://zhuanlan.zhihu.com/p/364331726
wireless sensor networks
无线传感器网络(Wireless Sensor Networks, WSN)是一种分布式传感网络,它的末梢是可以感知和检查外部世界的传感器。WSN中的传感器通过无线方式通信,因此网络设置灵活,设备位置可以随时更改,还可以跟互联网进行有线或无线方式的连接。通过无线通信方式形成的一个多跳自组织网络。
entry
字节
矩阵中的元素可以叫elements, items,或者entries。没错,就是那么简单。
sparity
entities
无线传感器网络是一种无线网络,包括大量循环的、自定向的、微小的、低功耗的设备,称为传感器节点(motes)。这些网络当然覆盖了大量的空间分布的、小型的、电池供电的嵌入式设备,这些设备通过网络来收集、处理数据,并将数据传输给运营商,它控制了计算和处理的能力。节点是微型计算机,它们共同工作形成网络。
undirected relationship
无向
在学术上来讲,英文文献中出现的”social network “应被理解为”社会网络”,而非狭义的社交网络。社交网络的分析单位(unit of analysis) 通常是”人”, 比如我们会说某人的社交网络比较大广;此外,社交网络这个概念中”network tie “的性质也侧重在指代人与人之间的交互、沟通、互动、情感上面。
symmetric, high-dimensional, and sparse (SHiDS) matrices
sensor node
Sensor node: sensing, data processing, and communicating capacity
传感器节点: 感知、数据处理和通信能力imputation
In statistics, imputation is the process of replacing missing data with substituted values. There are three main problems that missing data causes: missing data can introduce a substantial amount of bias, make the handling and analysis of the data more arduous, and create reductions in efficiency.[1]
在统计中, 插补是用替换值替换缺失数据的过程。 数据丢失会导致三个主要问题:数据丢失会带来大量偏差,使数据的处理和分析更加艰巨,并导致效率降低。[1]
missing values
使用数据挖掘技术对现实世界的数据进行分析和处理,常常面临包含缺失值的观察结果。挖掘数据集的主要挑战是存在缺失值。应使用插补方法对数据集中的缺失值进行插补,以提高数据挖掘方法的准确性和性能。存在使用 k 最近邻算法来估算缺失值的现有技术,但确定适当的 k 值可能是一项具有挑战性的任务。还有其他现有的基于硬聚类算法的插补技术。当记录没有很好地分离时,例如在丢失数据的情况下,硬聚类在许多情况下提供的描述工具很差。一般来说,依赖于相似记录的插补比依赖于整个数据集记录的插补更准确。提高记录之间的相似性可以提高插补性能。本文提出了两种数值缺失数据插补方法。最初提出了一种混合缺失数据插补方法,称为 KI,它结合了 k 最近邻和迭代插补算法。使用 k-最近邻算法 (kNN) 通过记录相似性发现每个缺失记录的最佳最近邻集。为了提高相似度,kNN 会自动估计一个合适的 k 值。然后使用迭代插补方法通过使用所选记录之间的全局相关结构对不完整记录的缺失值进行插补。然后提出了一种增强的混合缺失数据插补方法,称为 FCKI,它是 KI 的扩展。它集成了模糊 c 均值、k 最近邻和迭代插补算法来插补数据集中的缺失数据。选择模糊 c-means 算法是因为记录可以同时属于多个集群。这可以导致相似性的进一步改进。FCKI 搜索一个集群,而不是整个数据集,以找到最好的 k 近邻。它应用两个级别的相似性来实现更高的插补精度。通过对三种类型的缺失数据使用具有不同缺失率的 15 个数据集来评估所提出的插补技术的性能;马卡,马,马纳尔。这些不同的缺失数据类型是在这项工作中产生的。本文使用不同大小的数据集来验证模型。因此,通过三个措施将所提出的插补技术与其他缺失数据插补方法进行比较;均方根误差 (RMSE)、归一化均方根误差 (NRMSE) 和平均绝对误差 (MAE)。结果表明,与其他缺失数据插补方法相比,所提出的方法实现了更好的插补精度,并且所需的时间显着减少。
collaborative filtering (CF)
推荐算法中放在第一位要介绍的一定是协同过滤算法了(collaborative filtering,CF),CF算法的汇总的是所有的
行为对,有点像朋友推荐,比如用户A和用户B都喜欢差不多的东西(item相似),用户B喜欢某样东西,但是用户A还没有喜欢,那么此时就将用户B喜欢的item推荐给用户A。(User-Based CF),还有一种协同推荐,即对比数据(item),发现itemA和itemB类似(即被差不多的users喜欢),就把某user的所有喜欢的item的类似item过滤出来作为候选推荐给该user。
协同过滤(collaborative filtering)是一种在推荐系统中广泛使用的技术。该技术通过分析用户或者事物之间的相似性,来预测用户可能感兴趣的内容并将此内容推荐给用户。这里的相似性可以是人口特征的相似性,也可以是历史浏览内容的相似性,还可以是个人通过一定机制给与某个事物的回应。比如,A和B是无话不谈的好朋友,并且都喜欢看电影,那么协同过滤会认为A和B的相似度很高,会将A喜欢但是B没有关注的电影推荐给B,反之亦然。K-nearest neighborhood (KNN) model
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。latent factor (LF) model
这里我想给大家介绍另外一种推荐系统,这种算法叫做潜在因子(Latent
Factor)算法。这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的 @邰原朗 所介绍的算法误差(RMSE)会小不少,效率更高。我下面仅利用基础的矩阵知识来介绍下这种算法。
算法的思想是这样:每个用户(user)都有自己的偏好,比如A喜欢带有小清新的、吉他伴奏的、王菲等元素(latent factor),如果一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也就是用元素去连接用户和音乐。每个人对不同的元素偏好不同,而每首歌包含的元素也不一样。
隐语义模型LFM(Latent Factor Model)是主题模型中的一种,跟其他主题模型一样,LFM也需要定义若干“主题”,来表示个中隐含的关系,这些“主题”是模糊而不是明确的,通过统计用户行为的方式聚类计算得出。在LFM的推荐例子中,“主题”就可以认为代表item的分类,而分类的个数,需要事先定义。
这种带有隐因子的机器学习模型通常称为隐语义模型(Latent Factor Model,LFM),因为隐因子的概念最早在文本领域被提出,用于找到文本的隐含语义,所以隐因子有时也称隐语义。而矩阵分解是隐语义模型的代表,在很多地方,会直接使用隐语义模型代表矩阵分解的这一类模型。隐语义模型的在推荐算法中的优势是对用户和物品信息中的隐含结构进行建模,从而能够挖掘更加深层次的用户和物品关系。matrix factorization (MF) technique
Matrix Factorization的原理比较简单,就是将一个矩阵 D 分解为 U 和 V 的乘积,即对于一个特定的规模为mn 的矩阵 D,估计出规模分别为 mk 和 n*k 的矩阵U和V,使得 U V T UV^TUV
T
的值尽可能逼近矩阵 D 。一般来讲,k 的取值应该满足 k ≤ m i n { m , n } k ≤ min {m,n}k≤min{m,n} ,这样矩阵分解才有意义。如果在推荐系统中,D 代表用户对商品的行为矩阵的话,那么 U 和 V 则分别代表 embedding, 表示的用户和商品向量。
以公式来表示的话,就是发现数据中的潜在结构 ;
- 它有一个优雅的概率解释(probabilistic interpretation);
- 容易扩展到一些指定特定先验信息的领域 ;
-
An MF-based LF model
基于矩阵分解的推荐算法的核心假设是用隐语义(隐变量)来表达用户和物品,他们的乘积关系就成为了原始的元素。这种假设之所以成立,是因为我们认为实际的交互数据是由一系列的隐变量的影响下产生的(通常隐变量带有统计分布的假设,就是隐变量之间,或者隐变量和显式变量之间的关系,我们往往认为是由某种分布产生的。),这些隐变量代表了用户和物品一部分共有的特征,在物品身上表现为属性特征,在用户身上表现为偏好特征,只不过这些因子并不具有实际意义,也不一定具有非常好的可解释性,每一个维度也没有确定的标签名字,所以才会叫做 “隐变量”。而矩阵分解后得到的两个包含隐变量的小矩阵,一个代表用户的隐含特征,一个代表物品的隐含特征,矩阵的元素值代表着相应用户或物品对各项隐因子的符合程度,有正面的也有负面的。
interpretability and scalability
跨模态相似性查询已成为管理图像和文本等多模态数据集的一个突出研究课题。现有的研究通常通过设计复杂的深度神经网络模型来关注查询准确性,很少同时考虑查询效率和可解释性,这是跨模态语义查询处理系统在大规模数据集上的重要特性。在这项工作中,我们研究了图像和文本的多粒度通用语义嵌入表示,并通过开发具有可解释性的新型多粒度跨模态查询 (MCQI) 框架将可解释的查询索引集成到深度神经网络中。主要贡献如下:(1)通过整合粗粒度和细粒度语义学习模型,提出了一种多粒度的跨模态查询处理架构,以保证查询处理的适应性和通用性。(2)为了捕捉图像和文本之间的潜在语义关系,该框架结合了LSTM和注意力模式,提高了跨模态查询的查询精度,为可解释的查询处理构建了基础。(3) 提出了索引结构和相应的最近邻查询算法,以提高可解释查询的效率。(4) 提出了一种分布式查询算法来提高我们框架的可扩展性。与广泛使用的跨模态数据集上的最新方法相比,实验结果表明了我们的 MCQI 方法的有效性。(2)为了捕捉图像和文本之间的潜在语义关系,该框架结合了LSTM和注意力模式,提高了跨模态查询的查询精度,为可解释的查询处理构建了基础。(3) 提出了索引结构和相应的最近邻查询算法,以提高可解释查询的效率。(4) 提出了一种分布式查询算法来提高我们框架的可扩展性。与广泛使用的跨模态数据集上的最新方法相比,实验结果表明了我们的 MCQI 方法的有效性。(2)为了捕捉图像和文本之间的潜在语义关系,该框架结合了LSTM和注意力模式,提高了跨模态查询的查询精度,为可解释的查询处理构建了基础。(3) 提出了索引结构和相应的最近邻查询算法,以提高可解释查询的效率。(4) 提出了一种分布式查询算法来提高我们框架的可扩展性。与广泛使用的跨模态数据集上的最新方法相比,实验结果表明了我们的 MCQI 方法的有效性。(3) 提出了索引结构和相应的最近邻查询算法,以提高可解释查询的效率。(4) 提出了一种分布式查询算法来提高我们框架的可扩展性。与广泛使用的跨模态数据集上的最新方法相比,实验结果表明了我们的 MCQI 方法的有效性。(3) 提出了索引结构和相应的最近邻查询算法,以提高可解释查询的效率。(4) 提出了一种分布式查询算法来提高我们框架的可扩展性。与广泛使用的跨模态数据集上的最新方法相比,实验结果表明了我们的 MCQI 方法的有效性。
multiplicative-updated non-negative MF model
non-negative matrix completion model
weighted NMF model
我们前面讲的算法都是针对显式反馈的评分矩阵的,因此当数据集只有隐式反馈时,应用上述矩阵分解直接建模会存在问题。主要有两方面的原因,首先,隐式反馈数据集中只存在正样本,即 rij=1,∀rij∈R。此时,不能够只使用正样本进行优化,而忽略了未观测样本,否则会造成 trivial 但是无用的解,例如把所有的隐向量都预测成向量空间中的同一个点上。其次,不能够把所有的未观测样本都当做是负样本,因为这些未观测的样本既可能是用户不喜欢,也有可能是用户未曾看到但是实际上是喜欢的。虽然可以把预测用户行为看成一个二分类问题,猜用户会不会做某件事,但实际上收集到的数据只有明确的一类:而用户明确 “不干” 某件事的数据却没有明确表达。这类问题在业内称为 One-Class,One-Class 数据也是隐式反馈的通常特点。
为了解决该问题,引入 WRMF (weighted regularized matrix factorization)。该方法对每个训练样本都加一个权重,来表征用户对物品偏好的置信度。这个权重通常使用隐式反馈行为的次数或者一些量化指标的转换,比如浏览次数或观看时间等。权重可以减少未知样本的影响力,这些未知样本的权重一般的比观测样本的权重小的多。a non-negative LF (NLF) model
非负潜在因子模型
在本文中,提出了一种改进的基于双因子分解的对称和非负潜在因子(Im-DF-SNLF)模型来估计对称、高维和稀疏(SHiDS)矩阵中的缺失数据。Im-DF-SNLF模型的主要思想有四点:1)考虑到实际工程中数据的多样性,考虑不同情况下的非负潜在因子(NLF),以更好地反映条目之间的潜在关系;2)同时采用l2范数正则化和拉格朗日乘子技术处理过拟合,满足潜在因子(LFs)的非负约束;3)利用基于梯度的交替方向(EGAD)方法加速模型训练,刚性保证LFS的非负性;和 4) 提供了严格的证明,证明在给定的目标函数平滑且具有 Lipschitz 连续梯度的假设下,设计的算法可以在 O(1/ε) 内找到 ε-最优解,并且上学习率的界限由 1/2 给出。最后,给出了公共数据集的实验结果,以证明我们提出的带有 EGAD 的 Im-DF-SNLF 模型的有效性。a single NLF-dependent, non-negative, and multiplicative update (SLF-NM) learning scheme
the DF-SNLF model with SLF-NM learning scheme
double factorization (DF) technique
the triple factorization (TF) technique
the TF-SNLF model
用于无向,稀疏和大规模网络的改进的对称和非负矩阵分解模型:基于三因子分解的方法
在实际工程中普遍存在的无向,稀疏和大规模网络至关重要,因为它们通常包含各种模式的丰富信息。矩阵分解(MF)技术是从LF模型中提取有用的潜在因子(LFs)的有效方法,它直接产生了所谓的MF模型。但是,大多数MF模型无法维持一些经常遇到的约束,例如LF的非负性和目标网络的对称性。另外,尽管其潜在的获得计算和存储的有效性的能力,但是由于有限的LF的数量,当前开发的基于双因子分解(DF)的模型仍然遭受预测精度低的问题。为了解决上述问题,根据三因子分解(TF)技术提出了一种新颖的MF模型,从而建立了基于TF的对称和非负潜因子(SNLF)模型。与传统的基于DF的SNLF模型相比,该基于TF的SNLF模型具有:1)对称性和非负性约束;2)高精度的理想性能;3)算法的收敛性;和4)相当低的存储量和计算复杂度。此外,为了减少过度拟合以进一步提高模型性能,正则化被精确地考虑到所提出的基于TF的SNLF模型中。在真实数据集上的实验表明,所提出的基于TF的SNLF模型具有极大的能力,可以提高丢失数据的估计精度,并以少量的计算和存储成本为代价,保证目标网络的对称性和LF的非负性。负担。而且,很容易实现数据分析。NLF information
与实际行为相关的隐性反馈信息可以对称地反映消费者的偏好,这是有价值的,值得深入研究。考虑到隐含数据固有的不确定性和模糊性,如何在这些数据中刻画消费者的偏好一直是一个关键而困难的问题。在本文中,提出了一种模糊分析-非负潜在因子(FP-NLF)模型来解决这个问题。首先,设计了模糊分析 (FP) 程序来表征各个级别的消费者偏好,其中引入模糊集来管理隐式数据的不确定性和模糊性。提供了两个系列的策略来确定不同场景和商业意图的综合偏好。随后,在数据特别稀疏的情况下,采用非负潜在因子(NLF)模型进行预测。最后,最终产生更高质量的推荐,只推荐满足给定偏好水平的产品。此外,通过真实数据的案例研究进行了详细论证,结果通过对比分析揭示了我们方案的可行性和优越性。最后,敏感性分析探讨了改变策略权重的影响,可以为制定有目的的策略以更好地服务消费者提供指导。以真实数据为例进行详细论证,结果通过对比分析揭示了我们方案的可行性和优越性。最后,敏感性分析探讨了改变策略权重的影响,可以为制定有目的的策略以更好地服务消费者提供指导。以真实数据为例进行详细论证,结果通过对比分析揭示了我们方案的可行性和优越性。最后,敏感性分析探讨了改变策略权重的影响,可以为制定有目的的策略以更好地服务消费者提供指导。
l2-norm regularization
L1,L2 范数即 L1-norm 和 L2-norm,自然,有L1、L2便也有L0、L3等等。因为在机器学习领域,L1 和 L2 范数应用比较多,比如作为正则项在回归中的使用 Lasso Regression(L1) 和 Ridge Regression(L2)。
还有就是 L1 最重要的一个特点,输出稀疏,会把不重要的特征直接置零,而 L2 则不会;
什么是正则化
正则化是为了避免 过拟合(overfitting) 采取的一种手段。它通过对回归系数中的较大值做罚项来实现。简单来说,它能够减少参数、缩小(简化)模型。这样更加流形化、更加 简约(parsimonious) 的模型往往会在实际预测的时候表现更加良好。正则化给更加复杂的模型加上罚项后,再将潜在模型从过拟合最轻到最严重排序,有最小“过拟合”得分的模型一般认为在预测能力上是最佳的
- L1 正则化 增加了一项大小等于系数离散程度绝对值的 L1 罚项。可以通过 L1 产生稀疏的模型(如系数很少的模型);一些系数可以归零并去除。Lasso 回归 用的就是这个方法。
inequality constraints
你知道怎样找到湖上两点之间最短的陆路距离吗?这种障碍物和解的边界通常被称为不等式约束。Lagrangian-multiplier technique
拉格朗日乘子法
在讨论不同约束执行策略的数值性质时,我们讨论过虽然拉格朗日乘子法严格执行约束,但它在数值解中有一些不受欢迎的性质。也就是说,它对解的初始估计很敏感,可能需要直接线性求解器。这些不利因素仍然存在,但在不平等限制下,还有一个额外的挑战。具体来说,就是约束可能并不总是活跃的。
拉格朗日乘数法(英语:Lagrange multiplier,以数学家约瑟夫·拉格朗日命名),在数学中的最优化问题中,是一种寻找多元函数在其变量受到一个或多个条件的约束时的极值的方法。这种方法可以将一个有n个变量与k个约束条件的最优化问题转换为一个解有n + k个变量的方程组的解的问题。这种方法中引入了一个或一组新的未知数,即拉格朗日乘数,又称拉格朗日乘子,或拉氏乘子,它们是在转换后的方程,即约束方程中作为梯度(gradient)的线性组合中各个向量的系数。