基础问题
基础问题 https://segmentfault.com/a/1190000038658674
高效稳健的数据系统是保障各项业务运行的基石。 数据系统主要可以划分为: 分布式文件系统,如HDFS。 数据收集,包括移动端埋点,服务端日志,第三方数据等 数据仓库,长期保存结构化数据,Hive,提供数据清洗,特征工程等功能。 数据湖,长期保存非结构化数据,如S3,Minio。 数据库,线上服务使用的数据源,按...
Logistic Regression –
因子分解机 # 原理 FM能处理数据高度稀疏场景,SVM则不能; FM具有线性的计算复杂度,而SVM依赖于support vector。 FM能够在任意的实数特征向量中生效。 –
GBDT+LR –
深度模型主要是在深度学习后崛起的,主要通过深度学习网络做了自动特征交叉。 # 模型 AutoRec Deep Crossing NeuralCF PNN WDL FNN DeepFM NFM AFM DIN DIEN DRN
树模型以决策树为基本原型。 树模型5 6 # DT 决策树是一种基本的分类和回归方法。和我们之前学过的逻辑斯特回归,线性回归等算法不同,他们要么只能做回归要么只能做分类,而决策树既可以做分类也可以做回归。主要包括:ID3,C4.5,CART。 物理含义:表示定义在特征空间上的条件概率分布,也就是把$$P(y)$...
AB Test ExperimentRoom ExperimentLayer ExperimentGroup Experiment
协同过滤利用了用户对标的物的行为相似性来推荐。 # 原理 协同过滤1 24(Collaborative Filter,CF)主要用于召回,主要分为ItemCF和UserCF。 协同过滤的核心是怎么计算标的物之间的相似度以及用户之间的相似度。我们可以采用非常朴素的思想来计算相似度。我们将用户对标的物的评分(或者隐...
Page 8 / 14