machine-learning
  • Welcome
  • 动手学深度学习
    • 1. 前言
    • 2. 预备知识
    • 3. 线性神经网络
    • 4. 多层感知机
    • 5. 深度学习计算
    • 6. 卷积神经网络
    • 7. 现代卷积神经网络
    • 8. 循环神经网络
    • 9. 现代循环神经网络
    • 10. 注意力机制
    • 11. 优化算法
    • 12. 计算性能
    • 13. 计算机视觉
    • 14. 自然语言处理:预训练
    • 15. 自然语言处理:应用
    • 16. 附录:深度学习工具
  • 百面机器学习
    • 1. 特征工程
    • 2. 模型评估
    • 3. 经典算法
    • 4. 降维
    • 5. 非监督学习
    • 6. 概率图模型
    • 7. 优化算法
    • 8. 采样
    • 9. 前向神经网络
    • 10. 循环神经网络
    • 11. 强化学习
    • 12. 集成学习
    • 13. 生成式对抗网络
    • 14. 人工智能的热门应用
  • 百面深度学习
    • 1. 卷积神经网络 CNN
    • 2. 循环神经网络 RNN
    • 3. 图神经网络 GNN
    • 4. 生成模型
    • 5. 生成式对抗网络 GAN
    • 6. 强化学习 RL
    • 7. 元学习
    • 8. 自动化机器学习 AutoML
    • 9. 计算机视觉 CV
    • 10. 自然语言处理 NLP
    • 11. 推荐系统
    • 12. 计算广告
    • 13. 视频处理
    • 14. 计算机听觉
    • 15. 自动驾驶
  • 统计学习方法
  • 推荐系统实践
    • 1. 推荐系统
    • 2. 特征工程
    • 3. Embedding
    • 4. 精排
    • 5. 召回
    • 6. 粗排/重排
    • 7. 多任务/多场景
    • 8. 冷启动
    • 9. 评估调试
    • 10. 自我修养
  • 深度学习推荐系统
    • 1. 推荐系统
    • 2. 进化之路
    • 3. 深度学习的应用
    • 4. Embedding
    • 5. 多角度审视
    • 6. 工程实现
    • 7. 评估方法
    • 8. 前沿实践
    • 9. 知识框架
  • 强化学习的数学原理
    • 1. 基础概念
    • 2. 贝尔曼公式
    • 3. 贝尔曼最优公式
    • 4. 值迭代与策略迭代
    • 5. 蒙特卡洛方法
    • 6. 随机近似与随机梯度下降
    • 7. 时序差分方法
    • 8. 值函数近似
    • 9. 策略梯度方法
    • 10. Actor-Critic方法
Powered by GitBook
On this page
  • 5.1 K-means 聚类 ****
  • 5.2 GMM 高斯混合模型 **
  • 5.3 SOM 自组织映射神经网络 ***
  • 5.4 聚类算法的评估 ***
  1. 百面机器学习

5. 非监督学习

Previous4. 降维Next6. 概率图模型

Last updated 3 years ago

数据聚类;特征变量关联

5.1 K-means 聚类 ****

  • 代价函数:样本距离所属簇中心 误差平方和

  • 具体步骤

    • 预处理,e.g. 归一化,离群点处理(欧氏距离 / 非凸 -> 核函数)

    • 随机选取 K 个簇中心(elbow method, gap statistic)

    • 定义代价函数 J(c,μ)=min⁡μmin⁡c∑i=1M∣∣xi−μci∣∣2J(c,\mu)=\min_\mu\min_c\sum_{i=1}^M ||x_i-\mu_{c_i}||^2J(c,μ)=minμ​minc​∑i=1M​∣∣xi​−μci​​∣∣2

    • 迭代直至收敛:分配到最近 + 重新计算簇中心

  • 优缺点

    • 缺点:初始点 和 离群点 影响,局部最优,无法解决分布差异较大,不适合离散分类

    • 优点:可伸缩 和 高效 O(NKt)O(NKt)O(NKt)

  • 缺点改进

    • 缺点:预先确定 K,局部最优,噪声敏感,样本只能被划分到单一簇

    • K-means++:距离当前 n 个聚类中心越远的点,有更高可能被选为第 n+1 个聚类中心

    • ISODATA:迭代自组织数据分析法,K-means + 分裂 + 合并

      • 预期的聚类中心数目 K0K_0K0​,每类最少样本数 NminN_{min}Nmin​,最大方差 σ\sigmaσ,聚类中心间最小距离 DminD_{min}Dmin​

  • 收敛性证明

    • 本质:EM算法(Expectation-Maximization algorithm)

    • 函数单调有界必收敛,但只保证收敛到 local optimum

5.2 GMM 高斯混合模型 **

  • 同样使用 EM 算法迭代计算,GMM 理论上可以拟合任意类型分布

    • E-step:计算每个点由每个分模型生成的概率

    • M-step:改进每个分模型的 均值、方差、权重

  • GMM 与 K-means

    • 相同:聚类,指定 K 值,EM 算法求解,局部最优

    • 优点:给出样本属于某类的概率,聚类 & 概率密度估计,可以生成新的样本点

5.3 SOM 自组织映射神经网络 ***

  • 两层神经网络,竞争学习,输入层 和 输出层(竞争层)== 聚类个数,有拓扑关系

  • 子过程:初始化,竞争,合作,适应,迭代

  • 与 K-means 的区别:不需要指定 K,受噪声影响小 但 准确率低,可视化为拓扑关系图

  • 超参数

    • 输出层神经元数量:样本类别数,或者尽可能多、再减少

    • 输出层节点的排列:实际需要,一维 / 二维

    • 初始化权值:从训练集中抽取 m 个输入样本作为初始权值

    • 设计拓扑领域:使得领域不断缩小

    • 设计学习率:学习率下降

5.4 聚类算法的评估 ***

  • 常见的数据簇特点:中心(球形分布)、密度(稠密)、连通(图结构)、概念(共同性质)

  • 聚类评估子任务

    • 估计聚类趋势(是否存在非随机的簇结构)

      • 随着 N 增加,聚类误差没有剧烈变化,则不存在非随机簇结构

      • 霍普金斯统计量(Hopkins Statistic)样本点最近距离 v.s. 随机生成点最近距离

    • 判定数据簇数:elbow method, gap statistic

    • 测定聚类质量

  • 人工构造数据集

    • 聚类误差是否随 N 增加而单调变化

    • 聚类误差对实际聚类结果的影响

    • 邻近数据簇的聚类准确性

    • 密度较大差异的数据簇的聚类效果

    • 样本数量较大差异的数据簇的聚类效果

p(x)=∑i=1KπiN(x∣μi,Σi)p(x)=\sum_{i=1}^K \pi_i N(x|\mu_i,\Sigma_i)p(x)=∑i=1K​πi​N(x∣μi​,Σi​),是生成模型,需要提前指定 K 值

轮廓系数 s(p)=b(p)−a(p)max⁡{a(p),b(p)}s(p)=\frac{b(p)-a(p)}{\max\{a(p),b(p)\}}s(p)=max{a(p),b(p)}b(p)−a(p)​

a(p)a(p)a(p) 是簇内其他店平均距离,反映簇紧凑程度

b(p)b(p)b(p) 是最小的其他簇平均距离,反映与其他簇分离程度

均方根标准误差 RMSSTD={∑i∑x∈Ci∣∣x−ci∣∣2P∑i(ni−1)}12RMSSTD=\{\frac{\sum_i\sum_{x\in C_i}||x-c_i||^2}{P\sum_i(n_i-1)}\}^{\frac12}RMSSTD={P∑i​(ni​−1)∑i​∑x∈Ci​​∣∣x−ci​∣∣2​}21​,可以看作归一化的标准差

R−squared=∑x∈D∣∣x−c∣∣2−∑i∑x∈Ci∣∣x−ci∣∣2∑x∈D∣∣x−c∣∣2R-squared=\frac{\sum_{x\in D} ||x-c||^2 - \sum_i\sum_{x\in C_i} ||x-c_i||^2}{\sum_{x\in D} ||x-c||^2}R−squared=∑x∈D​∣∣x−c∣∣2∑x∈D​∣∣x−c∣∣2−∑i​∑x∈Ci​​∣∣x−ci​∣∣2​,代表聚类后 平方误差和 的改进幅度

改进的 Hubert Γ\GammaΓ 统计,通过数据对的不一致性来评估聚类的差异

Γ=2n(n−1)∑x∈D∑y∈Dd(x,y)dx∈Ci,y∈Cj(ci,cj)\Gamma=\frac{2}{n(n-1)}\sum_{x\in D}\sum_{y\in D}d(x,y)d_{x\in Ci, y\in C_j}(c_i,c_j)Γ=n(n−1)2​∑x∈D​∑y∈D​d(x,y)dx∈Ci,y∈Cj​​(ci​,cj​)