| 任务 | 学习类型 | 说明 |
|---|---|---|
| 分类(Classification) | 有监督 | 预测离散类别标签 |
| 回归(Regression) | 有监督 | 预测连续数值 |
| 聚类(Clustering) | 无监督 | 按相似性分组,类别未知 |
| 关联分析(Association) | 无监督 | 发现项目间共现规律 |
| 异常检测(Anomaly Detection) | — | 发现偏离正常的样本 |
| 序列分析(Sequential Pattern) | — | 发现时序数据中的规律 |
SAS Institute 提出的数据挖掘五步过程框架:
目的:提高数据质量,使数据适合挖掘。四大步骤:清洗 → 集成 → 变换 → 规约。
常见数据质量问题:缺失值、噪声、异常值/离群点、不一致性、重复数据。
将多个异构数据源合并为统一数据集。
在保持信息完整性的前提下压缩数据规模,提升挖掘效率。
从现有属性构建新特征,如用"收入/支出"构造"消费比"属性。
| Lift 值 | 含义 |
|---|---|
| Lift > 1 | 正相关:X 的出现提升了 Y 出现的可能 |
| Lift = 1 | X 与 Y 相互独立 |
| Lift < 1 | 负相关:X 的出现抑制了 Y 出现 |
| 事务 | 商品 |
|---|---|
| T1 | A, B, C |
| T2 | A, B |
| T3 | B, C, D |
| T4 | A, C |
| T5 | B, D |
1-项集支持度:A=3, B=4, C=3, D=2 → 均 ≥ 2,全为频繁1-项集 L₁
候选2-项集:{A,B}=2 ✓,{A,C}=2 ✓,{B,C}=2 ✓,{B,D}=2 ✓,{A,D}=1 ✗(删除),{C,D}=1 ✗(删除)
频繁2-项集 L₂:{A,B},{A,C},{B,C},{B,D}
候选3-项集:{A,B,C} 的所有2-子集 {A,B},{A,C},{B,C} 均在 L₂ ✓ → 计算支持度 = 2 ≥ 2 → 频繁
分类(Classification)是一种有监督的数据挖掘任务:根据已知类别的训练样本,学习出一个分类模型(分类器),用来预测新样本所属的类别标签。
| 维度 | 分类 | 聚类 |
|---|---|---|
| 学习方式 | 有监督 | 无监督 |
| 类别信息 | 类别预先已知 | 类别未知 |
| 依据 | 类标签 | 样本相似性 |
| 典型算法 | 决策树、KNN、朴素贝叶斯 | K-Means、层次聚类 |
| 预测正类(P) | 预测负类(N) | |
|---|---|---|
| 实际正类 | TP(真正例) | FN(假负例) |
| 实际负类 | FP(假正例) | TN(真负例) |
树形结构:内部节点 = 属性测试,叶节点 = 类别,分支 = 测试结果。
缺点:偏向取值数量多的属性(如 ID 列)。
| 算法 | 度量 | 树结构 | 特点 |
|---|---|---|---|
| ID3 | 信息增益(最大) | 多叉 | 偏向多值属性 |
| C4.5 | 信息增益率(最大) | 多叉 | 克服 ID3 缺点 |
| CART | 基尼指数(最小) | 二叉 | 可做分类与回归 |
惰性学习,不建立显式模型。对新样本找 K 个最近邻,多数投票决定类别。
| # | 天气 | 温度 | 打球? |
|---|---|---|---|
| 1 | 晴 | 热 | 否 |
| 2 | 晴 | 凉 | 是 |
| 3 | 阴 | 热 | 是 |
| 4 | 雨 | 凉 | 否 |
| 5 | 阴 | 凉 | 是 |
问:天气=晴,温度=凉 → 预测是否打球?
P(是)=3/5,P(否)=2/5 | P(晴|是)=1/3,P(凉|是)=2/3,P(晴|否)=1/2,P(凉|否)=1/2
聚类(Clustering):将数据集中的对象划分为若干组(簇/Cluster),使得同一簇内对象相似度高,不同簇间对象相似度低。无监督学习,类别和标签事先未知。
目标:最大化簇内相似度,最大化簇间差异。
| 维度 | 聚类 | 分类 |
|---|---|---|
| 学习方式 | 无监督 | 有监督 |
| 类别已知 | 否 | 是 |
| 类别数量 | 通常未知 | 已知 |
| 依据 | 相似性 | 类标签 |
| 类型 | 代表算法 | 特点 |
|---|---|---|
| 划分方法 | K-Means, K-Medoids | 指定 k 个互不重叠的簇 |
| 层次方法 | AGNES(凝聚式)、分裂式 | 逐步合并/分裂,形成树状结构 |
| 密度方法 | DBSCAN | 可发现任意形状的簇 |
| 网格方法 | STING | 基于单元格统计信息 |
将 n 个对象划分为 k 个互不重叠的簇,每个对象归属欧氏距离最近的质心所在簇。
思路与 K-Means 相同,但用实际数据点(Medoid,中心点)而非均值代表簇,选取使簇内总距离最小的实际样本点。
| K-Means | K-Medoids(PAM) | |
|---|---|---|
| 簇代表 | 均值(可能不是实际点) | 实际数据点(Medoid) |
| 抗噪/异常值 | 弱 | 强 |
| 计算效率 | 高 | 较低 |
| 适用数据类型 | 数值型 | 数值型/非数值型均可 |
文本挖掘(Text Mining):从非结构化或半结构化文本数据中,自动提取有用知识、模式或结构的过程。又称文本数据挖掘、知识发现(KDD in Text)。
目标:原始文本 → 可供算法处理的数值特征向量。
用词频向量表示文档,忽略词序。每个维度对应词表中的一个词,值为出现次数。
文档表示为高维 TF-IDF 向量,相似度用余弦相似度衡量:
| 类型 | 挖掘对象 | 目标 |
|---|---|---|
| Web 内容挖掘 | 网页文本、图像等内容 | 分类、聚类、信息抽取 |
| Web 结构挖掘 ★ | 超链接拓扑结构 | 发现网页重要性、社区结构 |
| Web 使用挖掘 | 用户访问日志(Web Log) | 分析用户行为、个性化推荐 |
将网页重要性分为两个维度,相互强化(Mutual Reinforcement):
| PageRank | HITS | |
|---|---|---|
| 计算时机 | 离线(预计算,与查询无关) | 在线(查询时针对结果计算) |
| 针对性 | 全局重要性,与查询主题无关 | 针对特定查询主题 |
| 输出 | 单一 PR 分值 | Authority + Hub 两个分值 |
| 效率 | 高(预计算好) | 较低(实时计算) |
| 抗干扰 | 对链接农场有一定抵抗 | 易受链接操纵干扰 |
| 章节 | 最高频考点 |
|---|---|
| 第4章 | SEMMA 五步顺序;Min-Max / Z-score 归一化公式;数据规约 vs 变换的区别;皮尔逊相关系数检测冗余 |
| 第5章 | 支持度/置信度/提升度公式;Apriori 先验性质(反单调性);连接步+剪枝步的执行顺序;FP-Growth 的改进点 |
| 第6章 | 信息增益/增益率/基尼指数公式及各自选择标准;朴素贝叶斯条件独立假设;拉普拉斯平滑;朴素贝叶斯手算 |
| 第7章 | 聚类 vs 分类对比;K-Means 四步流程;SSE 目标函数;K-Means vs K-Medoids 对比(抗噪性) |
| 第8章 | TF-IDF 公式及含义直觉;文本预处理四步骤顺序;VSM 余弦相似度;中文分词工具 jieba |
| 第9章 | PageRank 公式(d=0.85)及理解要点;HITS 的 Authority/Hub 定义;两算法离线 vs 在线对比 |