PCA实际上选择最大的特征向量，进行PCA时，不考虑label，即为非监督的。这就可能会导致进行PCA后，将原本可分的数据变的不可分。这时需要进行LDA（线性判别分析）

SVM常用的核函数：多项式（映射到$m_2$维度）、高斯（映射到无穷维）、双曲正切函数

聚类结果好坏的判定：J（越小越好），直观的看见silhouette

Sequential leader clustering

高斯混合算法，多个高斯分布，概率和为1。经典EM算法：期望最大,初值很重要，最后得到局部最优

基于密度的算法：DBSCAN（density-based spatial cluster of application with noise）不用事先确定k，连通性（朋友的朋友）

层次聚类

关联规则：

频繁集（Frequent itemsets）：两个同时被购买
关联规则（association rule）：买了一本书会买另一本
序列模式（Sequential pattern）

支持度（support）：即频率，即多少个transactions（itemset）中包含了该item或itemset
置信度（confidence）：简单来说就是条件概率，即P（Y｜X）：num（包含itemset的transaction）/num（包含itemset中的某个item的transaction）

关联规则的挖掘：找到所有满足支持度大于阈值，置信度大于阈值的规则

误区：
1.求的的置信度很大时，也有可能小于原始事件本身发生的概率
2.当两个item出现概率差别很大时，会误认为出现概率高的item一定会是的概率低的item发生。
3.两个时间相关，不代表两者之间有因果关系

The Apriori Method
key idea：1.频繁集的子集必定频繁； 2.一个item不频繁则其超集不频繁；

步骤：
1.生成确定大小的itemset
2.扫描数据库，看看哪些是频繁的
3.将已知频繁的itemset组合
4.进行2

比如对于大小为2的频繁集，如果要生成大小为3的频繁集，不需要将大小为1的频繁集加到2中，只需要将大小为2的频繁集加上其中的频繁item。如{(2,3),(2,5),(3,5),(1,3)} -> {(2,3,5)}

框架

集成学习（ensemble）—用于监督学习中的分类问题

包含bagging和boosting

均值
投票（可以加权）
学习combiner

bagging

基于bootstrap的分类器：训练多个分类器，来个样本，多个分类器投票。如随机森林
bootstrap sample
有放回的采样

stacking
学习分类器的权重

boosting

串行的，根据生成的分类器，再生成第二个分类器，让后面的分类器学习第一个分类器分错的样本（或权重大的样本），第三个分类器学习前两个分类器分类不一致的样本。

adaboost

修改权重

regionboost

给权重增加了与输入的关联性

进化算法

遗传算法

https://blog.csdn.net/u010451580/article/details/51178225
所以我们总结出遗传算法的一般步骤：
开始循环直至找到满意的解。

1.评估每条染色体所对应个体的适应度。

2.遵照适应度越高，选择概率越大的原则，从种群中选择两个个体作为父方和母方。

3.抽取父母双方的染色体，进行交叉，产生子代。

4.对子代的染色体进行变异。

5.重复2，3，4步骤，直到新种群的产生。

结束循环。

薛轩的个人博客

数据挖掘复习

关联规则：

推荐算法

TF-IDF

Vector Space Model

Latent Semantic Analysis

PageRank

Collaborative filtering（协同过滤）

框架