机器学习

机器学习

BAT机器学习面试1000题(606~610题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 71 次浏览 • 2018-11-09 10:10 • 来自相关主题

BAT机器学习面试1000题(601~605题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 55 次浏览 • 2018-11-08 10:12 • 来自相关主题

BAT机器学习面试1000题(596~600题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 60 次浏览 • 2018-11-07 10:13 • 来自相关主题

BAT机器学习面试1000题(591~595题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 48 次浏览 • 2018-11-06 10:19 • 来自相关主题

BAT机器学习面试1000题(586~590题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 104 次浏览 • 2018-11-05 10:29 • 来自相关主题

BAT机器学习面试1000题(581~585题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 85 次浏览 • 2018-11-02 10:23 • 来自相关主题

BAT机器学习面试1000题(576~580题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 70 次浏览 • 2018-11-01 10:42 • 来自相关主题

BAT机器学习面试1000题(571~575题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 71 次浏览 • 2018-10-31 10:08 • 来自相关主题

BAT机器学习面试1000题(566~570题)

面试假如 回复了问题 • 3 人关注 • 4 个回复 • 93 次浏览 • 2018-10-30 11:49 • 来自相关主题

BAT机器学习面试1000题(561~565题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 93 次浏览 • 2018-10-29 10:23 • 来自相关主题

BAT机器学习面试1000题(556~560题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 85 次浏览 • 2018-10-26 10:34 • 来自相关主题

BAT机器学习面试1000题(551~555题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 116 次浏览 • 2018-10-24 10:25 • 来自相关主题

BAT机器学习面试1000题(541~545题)

面试啊实打实大萨达所大所多 回复了问题 • 3 人关注 • 1 个回复 • 96 次浏览 • 2018-10-23 12:26 • 来自相关主题

干货合集 | 机器学习类面试问题与思路总结(文末送经典书籍)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 106 次浏览 • 2018-10-23 12:21 • 来自相关主题

BAT机器学习面试1000题(546~550题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 86 次浏览 • 2018-10-23 10:52 • 来自相关主题

如何交付机器学习项目:一份机器学习工程开发流程指南

机器学习手机用户463531 回复了问题 • 3 人关注 • 1 个回复 • 237 次浏览 • 2018-10-19 19:24 • 来自相关主题

BAT机器学习面试1000题(536~540题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 121 次浏览 • 2018-10-18 18:46 • 来自相关主题

BAT机器学习面试1000题(531~535题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 97 次浏览 • 2018-10-18 10:24 • 来自相关主题

BAT机器学习面试1000题(526~530题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 120 次浏览 • 2018-10-17 10:47 • 来自相关主题

这8 个机器学习 JavaScript 框架,值得研究一下!

回复

机器学习darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 115 次浏览 • 2018-10-16 17:35 • 来自相关主题

BAT机器学习面试1000题(521~525题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 129 次浏览 • 2018-10-16 10:43 • 来自相关主题

BAT机器学习面试1000题(516~520题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 127 次浏览 • 2018-10-15 11:01 • 来自相关主题

BAT机器学习面试1000题(511~515题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 102 次浏览 • 2018-10-15 10:39 • 来自相关主题

BAT机器学习面试1000题(506~510题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 146 次浏览 • 2018-10-11 10:31 • 来自相关主题

BAT机器学习面试1000题(501~505题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 119 次浏览 • 2018-10-10 10:33 • 来自相关主题

BAT机器学习面试1000题(496~500题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 140 次浏览 • 2018-10-09 10:42 • 来自相关主题

11个 AI 和机器学习模型的开源框架,做项目一定用的上!

回复

机器学习darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 152 次浏览 • 2018-09-30 10:52 • 来自相关主题

BAT机器学习面试1000题(491~495题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 136 次浏览 • 2018-09-30 10:07 • 来自相关主题

BAT机器学习面试1000题(486~490题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 162 次浏览 • 2018-09-29 10:04 • 来自相关主题

BAT机器学习面试1000题系列(第111~115题)

机器学习Greatpan 回复了问题 • 2 人关注 • 1 个回复 • 790 次浏览 • 2018-09-29 09:30 • 来自相关主题

机器学习实践难?这10个小秘诀必须知道!

回复

机器学习darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 164 次浏览 • 2018-09-28 10:50 • 来自相关主题

BAT机器学习面试1000题(481~485题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 145 次浏览 • 2018-09-28 10:37 • 来自相关主题

BAT机器学习面试1000题(476~480题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 113 次浏览 • 2018-09-27 10:28 • 来自相关主题

BAT机器学习面试1000题(471~475题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 163 次浏览 • 2018-09-26 10:22 • 来自相关主题

BAT机器学习面试1000题(466~470题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 152 次浏览 • 2018-09-25 10:34 • 来自相关主题

BAT机器学习面试1000题(461~465题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 202 次浏览 • 2018-09-21 10:55 • 来自相关主题

BAT机器学习面试1000题(456~460题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 159 次浏览 • 2018-09-20 10:58 • 来自相关主题

BAT机器学习面试1000题(451~455题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 177 次浏览 • 2018-09-19 10:44 • 来自相关主题

机器学习难吗?这12大经验总结,让你瞬间理解机器学习

回复

机器学习darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 285 次浏览 • 2018-09-18 17:49 • 来自相关主题

入门新人请教:工作中机器学习用python还是java(利用工具包)?

机器学习手机用户472293uiuu 回复了问题 • 10 人关注 • 7 个回复 • 7020 次浏览 • 2018-09-18 15:35 • 来自相关主题

BAT机器学习面试1000题(446~450题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 208 次浏览 • 2018-09-18 14:10 • 来自相关主题

BAT机器学习面试1000题(441~445题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 155 次浏览 • 2018-09-14 10:04 • 来自相关主题

BAT机器学习面试1000题(436~440题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 172 次浏览 • 2018-09-13 10:56 • 来自相关主题

BAT机器学习面试1000题(426~430题)

回复

面试darling盼盼 发起了问题 • 3 人关注 • 0 个回复 • 294 次浏览 • 2018-09-11 10:55 • 来自相关主题

BAT机器学习面试1000题(421~425题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 223 次浏览 • 2018-09-10 10:40 • 来自相关主题

BAT机器学习面试1000题(416~420题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 223 次浏览 • 2018-09-07 10:44 • 来自相关主题

BAT机器学习面试1000题(411~415题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 202 次浏览 • 2018-09-06 10:47 • 来自相关主题

BAT机器学习面试1000题(406~410题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 235 次浏览 • 2018-09-05 11:20 • 来自相关主题

BAT机器学习面试1000题(401~405题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 261 次浏览 • 2018-09-04 10:44 • 来自相关主题

BAT机器学习面试1000题(396~400题)

回复

面试darling盼盼 发起了问题 • 3 人关注 • 0 个回复 • 200 次浏览 • 2018-09-03 10:29 • 来自相关主题

条新动态, 点击查看
July

July 回答了问题 • 2015-02-06 10:19 • 78 个回复 不感兴趣

机器学习在线精品课程,你最想听到啥内容?

赞同来自:

最新一期机器学习在线班
4 月机器学习在线班:http://www.julyedu.com/course/getDetail?course_id=35,2016年4月9日开课,每周六周日晚7-9点上课
目前2月份内报名无条件8折 960哦。
最新一期机器学习在线班
4 月机器学习在线班:http://www.julyedu.com/course/getDetail?course_id=35,2016年4月9日开课,每周六周日晚7-9点上课
目前2月份内报名无条件8折 960哦。
除了题主说的以外,我所知的机器学习算法在大规模社会网络分析中的应用,还有:

- Random walks应用于社区发现,例如算法[Infomap](http://www.mapequation.org/code.html)
- Neural Networks... 显示全部 »
除了题主说的以外,我所知的机器学习算法在大规模社会网络分析中的应用,还有:

- Random walks应用于社区发现,例如算法[Infomap](http://www.mapequation.org/code.html)
- Neural Networks、Genetic Algorithm的很多算法也可应用与社区发现
- LDA算法应用于文本分类、聚类
- LDA与EM (expectation maximization) 算法结合可以用来做社交影响力传播分析 (Social Influence Propagation),例如算法[AIR](http://www.francescobonchi.com/icdm12.pdf)
- Matrix Factorization、SVD等矩阵分解算法应用于推荐系统

其实,很多机器学习算法的技术都可以尝试用来解决SNA的问题。

针对数据规模较大时,在网上看到过一个Spark与GraphX结合的社区发现算法的例子,可供参考:
[基于GraphX的社区发现算法FastUnfolding分布式实现](http://rdc.taobao.org/?p=2406)

其实,现有的工具只是提供了计算框架,具体解决问题的算法可能还是需要在已有的算法基础上进行改进、改写,具体问题具体分析,从数据和要解决的问题出发来找到适合的方法。

当然,推荐使用Spark和GraphLab框架。
动态进展:
1、已有第一位行动派@Bingo 发帖带头执行,一起读经典论文(概率图模型):http://ask.julyedu.com/question/60,欢迎大家踊跃参与!
2、大家一起读PRML(模式识别与机器学习):http://ask.julyed... 显示全部 »
动态进展:
1、已有第一位行动派@Bingo 发帖带头执行,一起读经典论文(概率图模型):http://ask.julyedu.com/question/60,欢迎大家踊跃参与!
2、大家一起读PRML(模式识别与机器学习):http://ask.julyedu.com/question/67。
3、一起刷leetcode:http://ask.julyedu.com/topic/leetcode。
ChengLi

ChengLi 回答了问题 • 2015-01-28 08:42 • 26 个回复 不感兴趣

一起读经典论文(概率图模型)

赞同来自:

要了解PGM,最好是从基本出发,理解Bayesian theory。 Jordan的graphical models的书是必读的,koller的PGM视频比较难。可以选择从简单的graphical models出发,例如mixture models, LDA等... 显示全部 »
要了解PGM,最好是从基本出发,理解Bayesian theory。 Jordan的graphical models的书是必读的,koller的PGM视频比较难。可以选择从简单的graphical models出发,例如mixture models, LDA等。总的来说,我认为Bayesian theory是非常重要的,例如distributions,conjugate analysis, MCMC,variational inference等。博士期间是研究graphical models的,欢迎讨论。
公开课第 4 期:讲EM、GMM结束,被誉为:“最清楚的一次GMM”。
PPT 请点击上面的文字链接下载。

部分听众的听课心得(感谢各位):
莳萝-eda-to 京 2015/2/2 1:18:13
em算法也听了很多遍了 各个老师的各种理论推导 今天讲的还... 显示全部 »
公开课第 4 期:讲EM、GMM结束,被誉为:“最清楚的一次GMM”。
PPT 请点击上面的文字链接下载。

部分听众的听课心得(感谢各位):
莳萝-eda-to 京 2015/2/2 1:18:13
em算法也听了很多遍了 各个老师的各种理论推导 今天讲的还是很有启发性 讓我收益匪浅的 只想说 谢谢

小六-ML-北京 2015/2/2 8:06:27
个人感觉,讲得已经很不错了(我也在实验室内部讲过类似的ppt,深感让大家明白之不易,深入浅出更为不易)。就拿昨晚的PPT(EM、GMM)来说,为了给大家讲清楚,好理解,老师从大家最熟悉的伯努利、高斯分布的最大似然估计开始,让大家在理论和直观感受上有很好的连接;尤其是高斯分布例子的最大似然估计,是为了GMM铺垫的;而这种直观感觉,就直接用在GMM上,通过EM交替迭代,直接写出估计表达式——这对编程很有用的;
其次,重点分析了EM算法,这在求解带有隐变量或缺失数据下的模型非常重要的一种算法思想,有专门的书来介绍,大牛翟成祥老师都有专门讲过EM文稿,然后分享了他的宝贵经验——这种交替迭代的思想在很多场合都用,比如说优化理论里面的坐标轮换迭代、ADMM(一种分布式迭代算法)、SVM对偶问题的优化求解也是轮换求解、MCMC(随机轮换变量采样)等等;
最后,为了使前面直观的感受有理论支撑,在数学上更加严密,又通过EM算法框架给大家推导了GMM中参数的估计表达式。
另外,从老师回答大家的问题上,我觉得他的“内功”是相当深厚的,这一点可以从他分享的经验(上面也零星提到过一点)、偶尔冒出来函数变元(泛函观点)、变分、以及之前看他的LDA中ppt的例子(汪峰的歌为例分析主题模型)等等体现,管中窥豹吧。还是给赞!(个人之言,仅供参考)

小潘_stat_北京 2015/2/2 8:19:55
宝贵的学习经验贴啊,收了~
老师讲得很好了,最重要的一个是深入浅出,(原本就不算入门级的理论,讲的0基础的人能懂很难得了,不然您来?)还有一个是给人启发。对真正想了解和用的人来说是宝贵的交流机会。想提升格调的可以自己翻看EM算法的收敛性证明,Louis方法以及更为深入的性质和应用~
SuiterChik

SuiterChik 回答了问题 • 2015-01-30 15:31 • 2 个回复 不感兴趣

关于Theano的DBN的用法

赞同来自:

DBN确实是用来无监督的,其实无监督学习、聚类、降维、特征提取这些只是不同的说法而已。
但是你可以在最顶层搭一个softmax之类的分类器,然后预训练之后再进行BP微调,就可以实现有监督学习啦

第一个问题
$$\text{尽管我们推导公式的时候是二值节点,但... 显示全部 »
DBN确实是用来无监督的,其实无监督学习、聚类、降维、特征提取这些只是不同的说法而已。
但是你可以在最顶层搭一个softmax之类的分类器,然后预训练之后再进行BP微调,就可以实现有监督学习啦

第一个问题
$$\text{尽管我们推导公式的时候是二值节点,但是当输入样本不是二值矢量时,可以将每一维的特征}x_i\text{归一化为}[0, 1]\text{之间的实数作为相应可见元置1的概率。但是如果这样做的}$$
话,权值的学习和识别时都要对输入进行Gibbs采样,比较耗时

$$\text{一种简单一些的方法是将每个节点复制n个节点,复制出来的每一个节点置1的概率是相应的特征输入,而与隐含层节点的连接权为}\frac{w_{ij}}{n}\text{,当n趋向于无穷时,隐含节点的}$$
激活概率为

$$P(s_j=1)=\frac{1}{1 + \exp\bigg(-\sum\limits_{i=1}^{n_v} w_{ij}x_i - b_j\bigg)}$$

学习的时候,可以认为是按照x多次采样训练样本(以多个二值单元形式出现),然后对其求期望。权更新规则为

$$w_{ij} += \eta \bigg(x_iP(s_j=1)_{clamped} - s_i^{free}P(s_j=1)_{free}\bigg)$$
$$b_i += \eta\bigg(x_i - s_i^{free}\bigg)$$
$$b_j += \eta\bigg(P(s_j=1)_{clamper}-P(s_j=1)_{free}\bigg)$$

事实上,DBN中的节点并不一定要求是二元的,还可以是很多形式的,比如高斯单元之类
相关论文:
《A Practical Guide to.......》Hinton
如果DBN相关的你不是很熟悉可以再仔细看一下
《learning deep architectures for AI》bengio

第二个问题
我没用过Theano不清楚,但是说一下我之前是怎么做的。逐层训练完一层之后,特征抽取,然后将其0-1化的,再将这些0-1化后的数据训练下一层。而在识别的时候,逐层的特征抽取是以概率形式传递的(没有0-1化过程),这是仅仅是我的做法,不保证正确性。
July

July 回答了问题 • 2015-01-29 12:45 • 35 个回复 不感兴趣

一起读PRML:每半月读完一章

赞同来自:

每半月阅读一章,欢迎所有有意愿阅读PRML的同学加群:423634982,验证信息:七月问答PRML。
平时大家可以随时在社区上或群内交流讨论。希望大家每周至少更新一次自己的读书笔记,然后群主@hh555800 每周或每半个月定期来本帖子下汇总各自的阅读进展。... 显示全部 »
每半月阅读一章,欢迎所有有意愿阅读PRML的同学加群:423634982,验证信息:七月问答PRML。
平时大家可以随时在社区上或群内交流讨论。希望大家每周至少更新一次自己的读书笔记,然后群主@hh555800 每周或每半个月定期来本帖子下汇总各自的阅读进展。

2.15日前读完第一章。
个人喜欢python,原因是包很多,比如数值计算的numpy/scipy,这使得matlab或者R的程序port到python很容易。自然语言处理有gensim,里边甚至实现了(相对)很新的word2vec。如果做中文分词,有个正在活跃开发的jieba(虽然b... 显示全部 »
个人喜欢python,原因是包很多,比如数值计算的numpy/scipy,这使得matlab或者R的程序port到python很容易。自然语言处理有gensim,里边甚至实现了(相对)很新的word2vec。如果做中文分词,有个正在活跃开发的jieba(虽然bug还比较多,但开发人员更新很快),如果要抓网站数据,有个很完善的scrapy.
3月机器学习在线班提前报名通知,想听机器学习的现在可以提前报名拉:http://ask.julyedu.com/question/157。

目前的大纲不仅包括《统计学习方法》那本书上的大部分算法,而且还有很多非常值得期待的内容。
3月机器学习在线班提前报名通知,想听机器学习的现在可以提前报名拉:http://ask.julyedu.com/question/157。

目前的大纲不仅包括《统计学习方法》那本书上的大部分算法,而且还有很多非常值得期待的内容。
SuiterChik

SuiterChik 回答了问题 • 2015-02-03 21:34 • 8 个回复 不感兴趣

向量空间中点与点集的相似度计算

赞同来自:

啊距离刻画问题啊
首先先定义什么是“距离”,满足一下四条性质的度量都可以用来衡量距离
1. 非负性 D(a, a)≥0
2. 自反性 D(a, b) = 0 等价于 a = b
3. 对称性 D(a, b) = D(b, a)
4. 三角不等式 D(a, b)... 显示全部 »
啊距离刻画问题啊
首先先定义什么是“距离”,满足一下四条性质的度量都可以用来衡量距离
1. 非负性 D(a, a)≥0
2. 自反性 D(a, b) = 0 等价于 a = b
3. 对称性 D(a, b) = D(b, a)
4. 三角不等式 D(a, b) + (b, c) ≥D(a, c)
根据以上的定义,我们不难猜想距离的形式有很多种。事实上也有很多种,有些时候我们也称距离为“范数”,d维空间中k范数的定义如下
$$ \cal L_k(a, b) = \bigg(\sum\limits_{i=1}^d|a_i - b_i|^k\bigg)^{\frac{1}{k}}$$
比如我们常用的欧式距离就是二范数,在很多统计学的方法中,使用了大量的二范数,这在机器学习中也很常见,比如很多准则函数,像3层BP神经网络的,PCA的,FDA的等等都使用了大量的二范数。下面我们又搬出这张图出来感受一下各个范数在几何上的差异:

** 插入的附件 **

图中不同颜色的曲面代表了不同的范数(根据小数字标记来看),比如白色的代表1范数,浅灰色的代表2范数,深灰色的代表4范数,红色的代表无穷范数。
每个范数的曲面代表了到原点的距离为1(也就是L_k = 1这个方程所构成的曲面)。

为什么我们大量使用2范数而不是别的呢?忘了..........

但2范数一定是最好的吗?不一定

除了范数,我们还有很多定义的距离,比如分类学中的Tanimoto距离
$$D_{Tanimoto}(S_1, S_2) = \frac{n_1+n_2-2n_{12}}{n_1+n_2-n_{12}}$$
其中n1, n2分别为集合S1, S2中元素的个数,而n12代表两个集合交集的元素

又比如马氏距离,在多维高斯分布中,其概率密度为
$$p(x) = \frac{1}{(2\pi)^{\frac{d}{2}}|\Sigma|^{1/2}}\exp\bigg[-\frac{1}{2}(x-\nu)^T\Sigma^{-1}(x - \nu)\bigg]$$
其中,我们称
$$(x-\nu)^T\Sigma^{-1}(x - \nu)$$
为马氏距离。当我们知道一个事物,其分布有如如下形式时,用2范数就不在适合了,而应使用马氏距离


** 插入的附件 **


为什么?或许可以认为他可以对不同的轴看重程度不一样

** 插入的附件 **

又比如你提到的余弦距离
$$D(a, b) = \frac{a\cdot b}{|a|\cdot|b|}$$
事实上这个距离就非常看重夹角,而不再关心其模长,在某些时候是适用的。

说了这么多,距离应该怎么选?
这取决于你的先验,或者说取决于你对数据的了解有多少(如果你的先验准的话,否则会误导模型),以及计算能力上的考虑
另外,通过对数据的尺度变换,也能达到改变距离度量的效果

以上图片来自《模式分类》
#=============================
又到了愉快的瞎扯时间:D
#=============================
啊K-means聚类啊,首先我们需要知道K-means的工作原理,然后才能知道它的缺点
大家看下面这幅图,就是... 显示全部 »
#=============================
又到了愉快的瞎扯时间:D
#=============================
啊K-means聚类啊,首先我们需要知道K-means的工作原理,然后才能知道它的缺点
大家看下面这幅图,就是二维空间下2-means的流程,我们可以从这个缩影中看出k-means的一些特点
** 插入的附件 **

这个图应该不需要解释吧K-means的工作原理这么简单=。=

下面我们来聊一下K-means。
我们要知道,其实K-means是一种为了简化计算以及加快收敛速度的近似算法,为什么?你看算法在距离上的定义
$$D = ||x_k - \hat{\mu}_i||^2$$
是不是很熟悉呢,对的就是欧式距离
凭什么要用欧式距离?用别的距离不行?(K-means:我乐意,不服你来打我啊)

我们下面来聊一聊用别的距离会怎么样,为了方便起见,我们就用跟欧式距离很像的马氏距离好了
$$D = (x_k - \hat{\mu}_i)^T \hat{\Sigma}_i^{-1}(x_k - \hat{\mu}_i)$$

在此之前,我们要知道,聚类究竟是要做什么,聚类可以认为是这样的
1. 样本的类别c需要知道,比如你拿到一堆没有标签的数据,他们是手写字母,那么类别就应该是26(你要是跟我扯大写小写一共52个类别就是不客观,你就是来砸场的哼)。但是如果这些数据是类别不明确的,你根本就没办法知道有多少个类别,或者本来就没有类别的概念,那么这个c就取决你了,你可以凭直觉(只要你boss不踢你滚蛋),凭经验啥的来决定c取多少,但不管怎样,这个c是一定知道的。
2. 每个类别的先验概率P(w_i)也是知道的,这个如果你其他参数都定了,那么这个参数就能算出来。
3. 样本条件概率的数学形式是以知的,即
$$p(x|w_j, \theta_j), j=1, \cdots, c$$
是知道的,可能这个形式是你本来就知道这个模型是这样,或者你猜这个模型是这样(俗称:蒙的),不管怎样,我说你知道你就是知道别抵抗!
4.参数是未知的,即我们不知道以下参数
$$\theta_1, \theta_2, \cdots, \theta_c$$
的具体取值是什么,但是他们长什么样是知道的(因为模型是知道的)

所以聚类任务就可以看做是,我知道模型,知道类别,唯独不知道类别标签,所以有监督学习与无监督学习是很像的(其实这两个的界限本来就很模糊),如果你是学自动控制的,你会发现:这TM不就是系统辨识吗?!

好像扯远了,回到我们的k-means上来,k-means实际上是一种对数似然函数空间的随机梯度法,这个一会我们我们再回来聊,我们先来解决一个问题:我们刚还扯着聚类,怎么就突然扯到似然函数了???

根据我们之前关于聚类问题的定义,我们不难得出从一个混合密度中采样到一个样本的概率为
$$p(x|\theta) = \sum\limits_{j=1}^c p(x|w_j, \theta_j)P(w_j)$$
(友情提示:你可以认为上面的式子就是,对于某个样本x,他属于A类的概率,B类的概率.....所有类别的概率之和)
如果说这时候参数θ的数值知道了,那么整个问题就解决了,但是我们不知道,所以才会有后面的一大堆问题

不知道怎么办呢?回想我们的概率论,参数不知道,那就拿极大似然去撸他咯
友情提示:如果你忘了极大似然的含义,那么你可以理解为极大似然就是,我观察到这个现象,那么我就要让参数使得我观察到这个现象出现的概率最大。
举个栗子,现在有两个人,某位低调的网红小王,以及我。还有一个参数---某位地产大亨健林先生,健林先生这个参数只能取两个值:小王的父亲、或是我的父亲,但是这个取值我们不知道。好了背景介绍完毕,现在发生了一件事,我和小王同时追一名女生,结果女生对我说“你是个好人”。那么问题来了,参数取值为什么?当然是“小王的父亲”啊,为什么?因为这个取值使得我被发好人卡的概率最大。这就是极大似然的中心思想。

好了,回到原来问题上的讨论,对于训练集合D,我们有
$$p(\mathcal{D}|\theta) = \prod\limits_{k=1}^n p(x_k|\theta)$$

当然了,我们往往都是撸对数似然的,因为连加要比连乘容易处理,所以我们有
$$l = \sum\limits_{k=1}^{n}p(x_k|\theta)$$

代入混合概率密度并求导,得到
$$\nabla_{\theta_i}l = \sum\limits_{k=1}^n \frac{1}{p(x_k|\theta)} \nabla_{\theta_i} \bigg[\sum\limits_{j=1}^c p(x|w_j, \theta_j)P(w_j)\bigg] $$
假设我们的参数θ1, θ2....是独立的,那么引入后验概率
$$p(w_i|x_k, \theta) = \frac{p(x|w_j, \theta_j)P(w_j)}{p(x_k|\theta)}$$

于是我们可以将似然函数的梯度改写成:
$$\nabla_{\theta_i}l = \sum\limits_{k=1}^{n}P(w_i|x_k, \theta)\nabla_{\theta_i}\ln p(x_k|w_i, \theta_i)$$
友情提示:这个可以反推回去的,自己试着推一下吧:D

在数学推导上,接下来就是令梯度为0,然后求解参数blah`` blah ``

================================================
上面扯了很多看似没有关联的东西,因为我们还没进入到聚类的领域上来,大家估计也看烦了
这时候你可以去刷下微博刷下朋友圈拉黑代购狗啥的,过一会儿再回来看
中场休息五分钟
** 插入的附件 **
================================================

好了,回到我们之前的话题,我们之前讲到似然函数,大家有没有发现,上面的推导跟有监督学习的推导是一模一样的!!!!!
是的,上面的就是有监督学习的推导=。=

诶诶诶??同学!别打脸,我明天还要出门见人的

为什么说上面的是有监督的推导?因为在这里我们假定我们是知道先验概率P(w_i)的,也就是说,我们知道各个类别的出现概率的,问题就出现了,我们现在是无监督的啊,一开始就没给标签你你哪来的先验概率?

接下来我们就将上面的东西推广到P(w_i)也未知的情况,下面问题就变成了要求一组参数θ以及一组P(w)使得似然最大,且这组P(w)还要满足概率三大公理的前两条:
$$P(w_i) \geq 0, i = 1, \cdots, c, ~~~~~~~~~~~\sum\limits_{i=1}^cP(w_i) = 1$$
如果我们分别定义P(w_i)和θ的最大似然估计为:
$$\hat{P}(w_i), ~~~\hat{\theta}_i$$
那么我们有
$$\hat{P}(w_i) = \frac{1}{n} \sum\limits_{k=1}^n \hat{P}(w_i | x_k, \hat{\theta}) $$
以及
$$ \sum\limits_{k=1}^n \hat{P}(w_i | x_k, \hat{\theta}) \nabla_{\theta_i} \ln p(x_k|w_i, \hat{\theta}_i) = 0$$
其中
$$\hat{P}(w_i | x_k, \hat{\theta}) = \frac{p(x_k|w_i, \hat{\theta}_i) \hat{P}(w_i)}{\sum_{j=1}^c p(x_k|w_j, \hat{\theta}_j)\hat{P}(w_j)}$$

解释一下上面两个个式子
第一个式子:类别概率的最大似然估计是每个样本估计之和然后求平均,体现贝叶斯的思想
第二个式子:这是最大似然估计(令导数为0),体现最大似然思想

终于进入到聚类的领域了,上面这两个式子,第一个,你可以理解为k-means的第一阶段;第二个,你可以理解为k-means的第二阶段。事实上,k-means和EM算法是很像的,非常非常像,不信你仔细想想EM是不是也在做同样的事情?只不过表达换了一下而已。

好了,回到我之前说的那句话“k-means实际上是一种对数似然函数空间的随机梯度法”,现在大家应该已经知道为什么会出现似然空间这个说法了,下面我们依然不打算直接讲k-means,我们先来看下面这个图
** 插入的附件 **
上面三条曲线,其中实线是真实的概率密度,而两条虚线是分别是两种估计,事实上我们也不难看出,A那条曲线要比B的更准确,但是就能说A更好吗?如果我们开了上帝视角当然能这么说,但实际中我们不知道真实的密度是怎么样的,所以A和B两条曲线差不多,没有那个更好。此外,如果我们一开始类别设置错了,我们设置成了3个类别,那么得到的曲线又不一样了,所以,我们对于类别的设置也对算法起到很重要的作用。

但事实上,哪怕类别C设定准确了,也不一定能收敛到全局最优点,为什么?看下面这张马鞍面
** 插入的附件 **
图中的红线是迭代过程中最大似然的轨迹,如果我们初始化的位置比较好,那么可以上升到最顶点,如果不好呢?那就有可能收敛到鞍点,所以我们的观点是:多在几个不同的初始点试几次,选最好的来用。

好了回到k-means上来。在上面那个模型中,我们知道他是高斯模型,所以我们就使用马氏距离,所以对于概率
$$\hat{P}(w_i | x_k, \hat{\theta}) = \frac{p(x_k|w_i, \hat{\theta}_i) \hat{P}(w_i)}{\sum_{j=1}^c p(x_k|w_j, \hat{\theta}_j)\hat{P}(w_j)}$$
我们经过推导是可以证明它随着
$$(x_k - \hat{\mu}_i)^T \hat{\Sigma}_i^{-1}(x_k - \hat{\mu}_i)$$
的减小而增大,关于这个证明,我实在是不想敲公式了。。。原谅我。。。。。。

但如果我们换成欧式距离呢?也就是
$$ ||x_k - \hat{\mu}_i||^2$$
然后通过欧氏距离找到中心,并对概率进行简化
$$\hat{P}(w_i | x_k, \hat{\theta}) \approx 1, \text{若}i=m$$
$$\hat{P}(w_i | x_k, \hat{\theta}) \approx 0, \text{否则}$$

然后我们就得到了K-means,所以“k-means实际上是一种对数似然函数空间的随机梯度法”这种说法明白了吗?

依然是上面的曲面,我们看下它的等高线图,在k-means中,他的上升轨迹如下:
** 插入的附件 **
从不同的起始点,我们可以看到k-means将收敛到不同的点,大部分情况下是到全局最后点,但也有收敛到鞍点的情况。

聚类,其实是比较主观的事,比如下面这个图,我既可以说它可以分为两类,也可以说它可以分为3类,所以这种事,你开心就好
** 插入的附件 **

此外,聚类得到的结果也不一定是正确的,比如下面这张图,上面部分是聚类的结果,下面部分才是其真实情况
** 插入的附件 **

K-means简单粗暴有成效,是个挺有效果的算法,但不意味着它总能奏效,比如下面这种情况:
** 插入的附件 **
如果我们继续使用k-means聚类:
** 插入的附件 **
很显然这时候k-means就不在奏效了,对此我们有谱聚类这种算法,那个太跑题了,而且我也不太懂那块,比如下面是对上图谱聚类的结果
** 插入的附件 **
这其实不能说K-means就一无是处,事实上,在机器学习里,每个算法都是有用处的,只有适不适合,没有谁比谁本质上更好,比如用logistic regression就能工作得很好的工作你就没必要搬卷积神经网络这种大炮出来,而且这座大炮还不一定工作得比LR好


楼主对不起=。=
我扯了半天也没回答你的问题
对于你的问题,我觉得,可以多换几个初始值试试,关于收敛则准则有两种,一种是判断中心移动(如果你的中心已经不怎么变化了说明收敛了阿,你可以将误差记录下来看看误差下降情况),另外一种是根据迭代次数,k-means我印象中是收敛的吧=。=
#===============================================================================================
又到了大家喜闻乐见的淘宝推荐环节(咦?拿错剧本了)趁这个坑我们八一... 显示全部 »
#===============================================================================================
又到了大家喜闻乐见的淘宝推荐环节(咦?拿错剧本了)趁这个坑我们八一下贝叶斯吧。
声明:我贝叶斯也没学好,如果你想更深入的了解这一流派请回去看书,我瞎扯的东西不要轻易相信
#===============================================================================================

说起贝叶斯啊,我们先将祖师爷的照片拿出来拜一拜,晨昏三叩首,早晚一炷香

** 插入的附件 **

贝叶斯为我们留下的伟大遗产是贝叶斯公式,也就是
$$P(w_j|x) = \frac{p(x|w_j)P(w_j)}{p(x)}$$
很熟悉对不对?是的,你在任何一本概率论的书上都能找到这个公式,遗憾的是国内的很多教材对贝叶斯的内容提及很少(基本就是几页的篇幅),反倒是频率学派的内容要比贝叶斯的多。

频率学派跟贝叶斯学派打架的历史很悠久,这场战争就像VIM与Emacs,代码大括号写后面与另起一行类似,双方互掐了很多年(不过最近好像打得不那么激烈了?)

那么贝叶斯与频率的区别是什么?下面给出一个不正确的说法:

贝叶斯学派重视先验
频率学派重视似然

既然都不正确为什么还要提出来呢?因为这两句话有助于你后面的理解,但贝叶斯学派和频率学派的本质差别是对待参数的观念不一样,这两者就是两个不同世界的人,关于这点我们留后面聊。

怎么理解“贝叶斯重先验,频率重似然”这个说法?下面我们先来举几个通俗易懂的例子

假如你今天很不幸点进这个帖子,假设你又很不幸的看到我的答案有很多赞,排除朋友圈那些点赞狂人的存在,我们就假设这些赞都是正常人点的好了。
那么现在的问题是“这个瞎扯的答案是否是可靠的?”

很多人就会觉得,卧槽好NB,这么多赞,这个答案肯定可靠啦,这就是频率学派的观点。频率学派重视数据,而不会对数据带有任何有色眼镜来看待,某种程度上来说,频率学派的人有种“Talk is cheap, show me the code(英语八级翻译:没数据你跟我扯什么犊子)”的性格。

但假如Ng也很不幸地点进这个帖子,然后看到我的答案,你知道的啦,Ng要是一辆波音747的话,那答主充其量只能算台拖拉机的嘛。Ng看完我的废话,说“kie lie fie(粤语八级翻译:我都点进来了你就让我看这个?!)”然后Ng拍拍答主的肩膀“今天我作为一位长者告诉你一些人生经验,我觉得你啊,还需要学习,搞深度学习的LeCun,Hinton等人,不知道比你高到哪里去了,我和他们是谈笑风生,不信你看
↓ ↓ ↓ ↓”
** 插入的附件 **
Ng叔叔你都四十多了吐舌头卖萌真的好?么么哒
(没有征得刘老师的同意就盗图,如果刘老师觉得我冒犯了我就删)

为什么会这样呢?用贝叶斯的看法就是,因为Ng的知识比我丰富,所以他的先验告诉他,这将会是一堆瞎扯的文字,所以他对点赞的数量就不再完全相信了(人家压根就不会看好吗......),然后一看文章,果然是篇垃圾。所以,贝叶斯流派对待数据,是带有感情色彩的。

“我交朋友从来不看他有没有钱,反正都没有我有钱”-------低调网红小王
呐你看,这就是一种先验

换句话说,贝叶斯看重的是人的知识,也就是人的推测可以添加到估计中去,而频率流派的只谈数据。所以,大家现在能看懂下面这幅漫画的梗了吗?

** 插入的附件 **

轻松愉快喜闻乐见的扯淡环节到此就结束啦,下面我们从数学的角度上来看看频率学派以及贝叶斯学派的差异

贝叶斯观点与频率观点其本质区别在于:
**贝叶斯学派认为参数是变量,而频率学派认为参数是定常的,只是我们不知道其取值而已**

为了更好的理解这个说法,我们将举一个简单例子,用两种观点去分别处理

假设我们有一个多维的高斯分布
$$p(x) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\bigg[-\frac{1}{2} (x - \mu)^T\Sigma^{-1}(x-\mu)\bigg]$$
对于这个分布,我们假定只有参数\\( \mu \\),也就是高斯分布的均值是未知的,而参数\\(\Sigma\\),也就是协方差矩阵是已知的。现在我们有一系列的训练集,也就是样本\\(\mathcal{D} = x_1, x_2, \cdots, x_n\\),我们需要根据这些样本去估计模型的均值。(为什么我们假定协方差是已知的呢?确实,在实际中我们也不会知道协方差矩阵,但是如果这里我们也将\\(\Sigma\\)未知,那么大家就不想往下看了=。=所以这只是一个简单的例子)

频率学派的做法是:
既然样本已知,而样本往往是独立同分布的(I.I.D),那么我们就有如下的似然函数:
$$\mathcal{L} = p(\mathcal{D}|\mu) = \prod\limits_{k=1}^n p(x_k|\mu)$$
在这里,频率学派就把\\(p(\mathcal{D}|\mu)\\)看成是参数\\(\mu\\)的函数,但不意味他们将\\(\mu\\)当成变量,因为他们认为参数都是客观存在的,我们要做的是去寻找到它。
怎么找?频率派的做法是让这个参数使得这个似然最大,但是我们需要先将上面的似然函数改写成对数似然:
$$\ell = \sum\limits_{k=1}^n \ln p(x_k|\mu)$$
对于某个样本,我们有
$$\ln p(x_k|\mu) = -\frac{1}{2}\ln \Big[(2\pi)^d|\Sigma|\Big] - \frac{1}{2}(x_k - \mu)^T\Sigma^{-1}(x_k-\mu)$$
我们对其求导数,有:
$$\nabla_{\mu} \ln p(x_k|\mu) = \Sigma^{-1}(x-\mu)$$
这只是针对某一个样本而言,但是我们需要对整个训练集进行估计,所以我们令所有样本导数之和为0,此外,我们对于估计的均值用\\(\hat{\mu}\\)表示,即:
$$\sum\limits_{k=1}^n \Sigma^{-1}(x_k-\hat{\mu}) = 0$$
于是我们得到对于均值的估计为:
$$\hat{\mu} = \frac{1}{n}\sum\limits_{k=1}^n x_k$$
这个结果是不是很符合常识呢?均值就是所有样本的平均

下面我们来看看贝叶斯学派的做法:
在贝叶斯的世界里,参数也是变量,参数也有自己的分布,所以,对于上面的高斯分布
$$p(x|\mu) \sim \mathcal{N}(\mu, \sigma^2)$$
(注:这里的\\(\sigma\\)就相当于上面的\\(\Sigma\\),往下的内容我们只讨论一维的高斯分布,高维的同理。)

模型有自己的分布,参数也有自己的分布,假设我们定义参数\\(\mu\\)的分布也是高斯分布好了
$$p(\mu) \sim \mathcal{N}(\mu_0, \sigma_0^2)$$
其中\\(\mu_0\\)和\\(\sigma_0^2\\)是已知的,这是你的先验知识,取决于你的决策。(有人可能就会问了,凭什么用高斯分布?这时候我们或许就要谈谈中心极限定理了,你知道的啦,高斯分布外号上帝分布,但其实换成别的分布也没问题的,这些都取决于你的先验知识。但是万一你的先验知识失败了呢?也就是参数根本就不是那么回事你瞎弄一个参数分布给他,这其实也是频率派看不起贝叶斯的一个方面,关于这方面的讨论我们留后面)

好了,现在我们知道模型有自己的分布,参数有自己的分布,那么怎么去估计这个参数呢?这就要用到贝叶斯公式了
$$p(\mu|\mathcal{D}) = \frac{p(\mathcal{D}|\mu)p(\mu)}{\int p(\mathcal{D}|\mu)p(\mu) d\mu}$$
由于分母只是起到归一化的配分常数,所以我们可以扔掉它,用\\(\alpha\\)来代替,于是上式可以写成:
$$p(\mu|\mathcal{D}) = \alpha \prod\limits_{k=1}^n p(x_k|\mu)p(\mu)$$
于是,对于上面的公式,我们代入各自的概率密度,我们将得到:
$$p(\mu|\mathcal{D}) = \alpha \prod\limits_{k=1}^n \frac{1}{\sqrt{2\pi}\sigma} \exp \bigg[-\frac{1}{2}\bigg(\frac{x_k-\mu}{\sigma}\bigg)^2\bigg] \frac{1}{\sqrt{2\pi}\sigma_0} \exp \bigg[-\frac{1}{2}\bigg(\frac{\mu-\mu_0}{\sigma_0}\bigg)^2\bigg] $$
然后经过一系列的化简以及展开,我们将得到(由于是在不想敲公式了=。=我就不推了,大家可以私下去推一下)
$$p(\mu|\mathcal{D}) = \alpha ' \exp \bigg[-\frac{1}{2}\bigg[\bigg(\frac{n}{\sigma^2} + \frac{1}{\sigma_0^2}\bigg)\mu^2 - 2\bigg(\frac{1}{\sigma^2}\sum\limits_{k=1}^n x_k + \frac{\mu_0}{\sigma_0}\bigg)\mu\bigg]\bigg]$$
注:上面的\\( \alpha '\\)是相对于\\( \alpha\\)的另一个参数,意思就是说,常数项我们都不管他,都扔到一起去,这样\\( \alpha\\)就变成了\\( \alpha '\\)

上面的式子,如果我们要将其合并成一个高斯分布的标准形式,也就是
$$p(\mu|\mathcal{D}) = \frac{1}{\sqrt{2\pi}\sigma_n} \exp \bigg[-\frac{1}{2}\bigg(\frac{\mu-\mu_n}{\sigma_n}\bigg)^2\bigg]$$
那么,我们对应着之前的式子,我们不难得出:
$$\frac{1}{\sigma_n^2} = \frac{n}{\sigma^2} + \frac{1}{\sigma_0^2}$$
以及
$$\frac{\mu_n}{\sigma_n^2} = \frac{n}{\sigma_2}\hat{\mu}_n + \frac{\mu_0}{\sigma_0^2}$$
其中,\\(\hat{\mu}_n\\)是样本的均值,也就是
$$\hat{\mu}_n = \frac{1}{n}\sum\limits_{k=1}^n x_k$$

接着,我们联立方程,解上面两个式子,我们就会得到
$$\mu_n = \bigg(\frac{n\sigma_0^2}{n\sigma_0^2 + \sigma^2}\bigg)\hat{\mu}_n + \frac{\sigma^2}{n\sigma_0^2 + \sigma^2}\mu_0$$
以及
$$\sigma_n^2 = \frac{\sigma_0^2\sigma^2}{n\sigma_0^2 + \sigma^2}$$

至此,我们完成了贝叶斯估计的所有过程,呼,大工程

分析一下贝叶斯估计的结果,这里我们只分析均值好了,也就是下面这个
$$\mu_n = \bigg(\frac{n\sigma_0^2}{n\sigma_0^2 + \sigma^2}\bigg)\hat{\mu}_n + \frac{\sigma^2}{n\sigma_0^2 + \sigma^2}\mu_0$$
大家对比一下频率学派的结果:
$$\mu_n = \hat{\mu}_n $$
对比一下你就会发现,贝叶斯估计比频率估计多了一个系数,以及一个和项,也就是
$$\frac{n\sigma_0^2}{n\sigma_0^2 + \sigma^2}~~~~~~~~~\text{和}~~~~~~~~~~ \frac{\sigma^2}{n\sigma_0^2 + \sigma^2}\mu_0$$
什么意思呢?你可以这样理解,贝叶斯估计可以看做在极大似然估计的基础上加入人为的干预,你看,你对参数模型的分布\\(p(\mu) \sim \mathcal{N}(\mu_0, \sigma_0^2)\\)的先验,是不是在估计上影响了估计结果?

但是如果你的你对参数模型设置错了呢?也就是说,参数应该是一个均匀分布而不是高斯分布,但是你给他弄了个高斯分布,这样就严重影响了估计结果了。
确实,先验一定程度上影响了估计结果,但情况并没有这么糟糕,你再观察一下均值的估计:
$$\mu_n = \bigg(\frac{n\sigma_0^2}{n\sigma_0^2 + \sigma^2}\bigg)\hat{\mu}_n + \frac{\sigma^2}{n\sigma_0^2 + \sigma^2}\mu_0$$
当n趋于无穷的时候等于什么?

$$ $$
惊喜
$$$$

当n趋于无穷的时候,贝叶斯估计的结果居然跟极大似然的结果是一致的。

来,跟着我一起唱:
我眺望远方的山峰
却错过转弯的路口
蓦然回首
才发现你在等我
没离开过
我寻找大海的尽头
却忽略蜿蜒的河流
当我逆水行舟
你在我左右
推着我走

没错,当训练样本无穷多的时候,样本会推着贝叶斯估计向极大似然走,这时候两者是等价的。但是当样本非常少的时候,先验就会严重影响估计了。但是你这么想:少量样本,极大似然照样也不能工作哈哈哈哈哈哈哈,贝叶斯估计起码让人自己去蒙一蒙,万一蒙对了呢是吧?

下面这张图比较清晰地描述了贝叶斯估计与样本数量之间的关系

** 插入的附件 **

其中曲线上面的数字代表着样本数,从样本数上面,我们可以出,随着样本数越来越多,曲线也越来越陡,你的先验所能发挥的作用也会越来越小。来我们再来看一张三维的

** 插入的附件 **

就是这样,样本推着贝叶斯估计往正确的方向走,明白了吗

贝叶斯估计方法我们就讲到这里,下面我们来聊一聊楼主的问题

我去查了下楼主的问题中的那句话,发现出自《Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化》

其原文摘录如下:
#==============================
模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。
正则化符合奥卡姆剃刀(Occam's razor)原理。奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。**从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。**可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。
#==============================

昨天我以为楼主想问的是”贝叶斯模型比较方法“相关,所以我回复”贝叶斯模型选择法 ≠ 贝叶斯方法“,关于贝叶斯模型选择法,我没学好,也在学,所以就不能愉快地扯犊子了。但是看句子的出处,我说楼主啊,你能不能将整句话看完啊=。=...........所以你现在还有什么问题吗?
SuiterChik

SuiterChik 回答了问题 • 2015-02-27 16:43 • 4 个回复 不感兴趣

机器学习经常提到的"平滑"是什么意思

赞同来自:

这个问题这么久居然还没有人来回答=。=
以下仅代表个人观点,抛砖引玉:D
关于Factorization Machine不了解,不敢谈这个,我们就聊一下机器学习中常见的“平滑”这个概念

在机器学习里,很多地方都使用到了平滑这个概念,至于为什么要使用,我个人认... 显示全部 »
这个问题这么久居然还没有人来回答=。=
以下仅代表个人观点,抛砖引玉:D
关于Factorization Machine不了解,不敢谈这个,我们就聊一下机器学习中常见的“平滑”这个概念

在机器学习里,很多地方都使用到了平滑这个概念,至于为什么要使用,我个人认为,一方面是出于模糊化,另一方面出于数学上的需求(比如要求连续性)

比如神经网络中的sigmoid函数可以认为是一种平滑(个人认为的)
神经网络以前叫做感知器网络,大约在60年代的时候,我们就提出了感知器,也就是:
$$y = 0 , ~~~~~~\sum\limits_{i=1}^d w_i x_i \leq b$$
$$y = 1, ~~~~~~\sum\limits_{i=1}^d w_i x_i > b$$
对不起,我不知道这里怎么打公式堆叠=。=大家勉强看吧。其中,b是截距,也称之为阈(念yu,第四声)值。

** 插入的附件 **

如果你学过控制原理,感知器就相当于我们所说的阶跃函数。

** 插入的附件 **

感知器网络后来被大家改名叫做神经网络了,改名后显得高大上起来,就好像隔壁家的王狗蛋改名叫王阳明,但他还是王狗蛋.....(不是黑王阳明老前辈,我就举个例子=。=)。所以神经网络不应该因为它叫神经网络就与神经系统扯上关系,其实他们之间没有啥关系的。

如果从神经上的角度来解释这个感知器函数,直观上的理解就是,随着兴奋的加大(也就是\\( \sum\limits_{i=1}^d w_i x_i\\),这个东西我们也叫做“净激活”,简称“净”,缩写为“net”),当兴奋积累到一定程度,那么将突破一个阈值,使得神经元得以激活,函数上的表现形式就是\\(y = 1\\)。

但是这个太绝对了,不够模糊,就好比,你考试考了59分,老师说,不行哦,你没到60分,不能让你及格,于是你就不能愉快地回家过年了。所以后来我们有了sigmoid函数,也就是:

$$sigmoid(w^T x) = \frac{1}{1 + e^{-w^T x}}$$

sigmoid可以认为是感知器的模糊化,因为这时候输出是否为1不再是确定的了,而是以上式的计算结果作为输出1的概率。在以前的感知器中,如果净激活大到一定程度,网络必定输出1,而现在不一定了,从图中,我们也可以看到,sigmoid可以看做是感知器的一种平滑化(个人观点)

** 插入的附件 **

除了让感知器变得平滑之外,使用sigmoid还有一个原因:sigmoid是可导的。
(其实,阶跃函数也是可导的,它的导函数是脉冲函数,但是这些函数都不好处理,在控制中我们往往将其转化到复域中去分析)

比如,在反向传播神经网络中(BP神经网络),为了让误差反向传播回去从而调节权值,我们需要求激活函数的导函数。比如三层神经网络中的最顶层,如果我们使用平方误差作为准则函数,则权增量为:

$$\Delta w_{kj} = \eta (t_k - z_k) f'(net_k) y_j$$

其中,\\(\eta\\)是学习率,\\(t_k\\)是标签值,\\(z_k\\)是网路的输出值,\\( f(net_k)\\)是第k个节点的激活函数,\\(y_j\\)是倒数第二层的第j个节点的输出。

如果依然使用之前的感知器,那么这时候激活函数的导数就不好处理了,但如果使用sigmoid函数,导函数就非常好求了,因为其导函数为:
$$\frac{d}{d net} sigmoid(net) = sigmoid(net) \cdot \Big(1 - sigmoid(net) \Big)$$
这个公式不难证明,不清楚的同学可以私下去证一下:D

所以,使用sigmoid作为激活函数,一方面模糊化了感知器,另一方面满足了数学上要求的可导(事实上激活函数还有很多的,这里不展开讨论了)。

平滑的例子还有很多,又比如神经网络中使用到的动量项,假设在第m步更新时,我们在BP神经网络中算出了权增量,记为\\(\Delta w_{bp}(m)\\),如果我们不使用动量项,那么更新的规则应为
$$w(m+1) = w(m) +\Delta w_{bp}(m)$$
但如果我们引入动量项,则更新的规则为
$$w(m+1) = w(m) + (1 - \alpha) \Delta w_{bp}(m) + \alpha \Delta w(m-1)$$
也就是说,当前的权值更新不仅仅取决于当前的权增量,还一定程度上受到上一次的权增量\\(\Delta w(m-1)\\)影响,其影响程度\\(\alpha\\)我们称之为动量项系数。这种方法在数字信号处理里面叫做递归脉冲响应低通滤波器,目的其实就是为了平滑权值的更新过程。比如下面这张图

** 插入的附件 **

黑色的曲线代表了不使用动量项的下降过程,而白色的曲线代表了使用动量项后的下降过程。从图中可以看出,动量项的加入,一定程度上模糊化了当前的权增益,平滑下降过程。

又比如贝叶斯方法中,假设我们得到一个样本集,D = {4, 7, 2, 8} ,并且我们知道它是从某个均匀分布上采样得到的,也就是
$$p(x|\theta)\sim U(0, \theta) = \frac{1}{\theta} ~~~~~~0 \leq x \leq \theta$$

那么如果我们使用极大似然的方法来做,很容易得到\\(\theta = 8\\),而如果使用贝叶斯方法,假设给它一个先验\\( 0 \leq \theta \leq 10\\),那么根据贝叶斯方法,我们由下式去算后验概率
$$p(x|D) = \int p(x|\theta)p(\theta|D)d\theta$$
与极大似然算得的后验概率相比,贝叶斯在后部带有一个小“拖尾”

** 插入的附件 **

这个“拖尾”某种程度上也可以认为是一种平滑(个人观点)

某些时候,惩罚项,或者说正则项,也可以认为是一种平滑。比如在支持向量机(SVM)中,优化的准则函数

$$L = \frac{1}{2} ||w||^2 + C \sum\limits_{i=1}^n \xi_i$$

其中,惩罚系数C就是一种平滑,为了方便讨论,我们只讨论线性分离面,关于kernel这里我们不讨论(但本质是一样的),比如下面这张图

** 插入的附件 **

没有使用惩罚项的时候,分离面为实线,而使用惩罚项之后,分离面为虚线。从我们的直觉上来说,虚线是要比实线好一点的。通过使用惩罚项,SVM的分类特性变“软”了,或者说,它的分类变得模糊了,平滑了。

但是并不是所有的惩罚项都可以看做是平滑,比如神经网络中的二范数惩罚项\\(w^T w\\)
$$J = J(w) + w^T w$$
它与权衰减是等价的(可以私下去证明),也就是
$$w^{new} = w^{old}(1 - \epsilon)$$
即权值都更新完毕后,对权值进行比例缩小,因为我们出于对小权值的喜爱(小权值使得对误差函数不起作用的权值变得越来越小),权衰减这东西,我个人认为不能看做是平滑,这东西啊,似乎也没有什么理由要加,但是大家都加,你不加怎么好意思呢?(没有啦=。=其实加了在一定程度上可以改善分类性能的,做做实验就知道了)

又比如Ng讲朴素贝叶斯的时候讲到的拉普拉斯平滑(Laplace smoothing),这里我们不讲朴素贝叶斯,我们只是单纯的讲拉普拉斯平滑。采用Ng上课时讲的例子,比如我们知道中国队与泰国队历次的比分如下:
2014年09月25日 中国:泰国 = 0 : 2
2013年06月15日 中国:泰国 = 1 : 5
2012年11月03日 中国:泰国 = 1 : 2
2007年05月19日 中国:泰国 = 0 : 1

好了,假设明天中国队和泰国队有一场比赛,那么我们需要预测一下中国队的胜率。如果不引入平滑,那么根据历史数据,中国队进行了四场比赛,赢了0场,所以赢得概率为:
$$\frac{0}{4} = 0.00\%$$
完了。。胜率为0

可是事实是这样吗?不是的,我们知道,中国队还是能打的,显然上面的算法不合理,为此,我们需要平滑这个过程,比如在拉普拉斯平滑中,我们对分子加上1,对分母加上类别总数k,比如这里的比赛问题,k就应该等于2(输或赢),所以,中国队的胜率为:
$$\frac{0 +1}{4+ 2} = 16.67\% $$
显然,如果我们没有任何的历年数据,那么胜率就是50%

通过这样的平滑化,中国队的胜率就由原先的0变为了16.67

尽管如此,中国队要想提高胜率,还需要进行如下变换:

** 插入的附件 **

**随着比赛一声哨响,留给山下泰国队的时间已经不多了。。。。。。**

============================================
一家之言,仅供参考
看你的问题,我猜测你应该是在看SVM,关于SVM这东西,我认为它可以分成三个独立的成分:
1.最优分离超平面
2. kernel映射
3. 拉格朗日对偶
这三个部分中的每一个都有一套理论,最优分离超平面就不说了,这就是SVM的根基,kernel并不是SVM独有... 显示全部 »
看你的问题,我猜测你应该是在看SVM,关于SVM这东西,我认为它可以分成三个独立的成分:
1.最优分离超平面
2. kernel映射
3. 拉格朗日对偶
这三个部分中的每一个都有一套理论,最优分离超平面就不说了,这就是SVM的根基,kernel并不是SVM独有的(只是在SVM里比较出名),kernel有一套核方法,主要是为了解决映射到高维空间后引起的维数灾难问题。我们知道,SVM只靠最优分离超平面的话只能实现线性分割,而使用了kernel映射后就可以实现非线性分割了,在这个转换过程中,拉格朗日对偶起了中间桥梁的作用。拉格朗日对偶也不是SVM特有的,它属于凸优化的内容。在SVM的很多教程中都跳过了拉格朗日对偶的讲解,下面我们将进一步讨论拉格朗日对偶这个问题(并不完全讲,也只是讲个大概)

在此之前,我们要再重申一遍什么是凸函数


** 插入的附件 **


跟我念:凸凸凸凸凸凸凸凸凸凸凸凸凸凸
(威廉王子:我都躺这么远了还TM中枪?!)

此外,我们还需要讲清楚一些前置内容,首先:什么是优化问题?
所谓优化问题,也就是要实现
$$\min f_0(x)$$
$$s.t. f_i(x)\leq b_i, i=1, \cdots, m$$
其中\\(f_0\\)称为目标函数,\\(x = (x_1, \cdots, x_n)\\)称为优化向量,\\(f_i\\)称为约束函数,\\(b_i\\)称为约束上限或者约束边界。
也就是说,我们要再满足约束下的x中寻找一个\\(x^*\\),使得\\(f_0(x^*)\\)最小,这时候\\(x^*\\)称为最优解。

所谓**凸优化**,也就是当目标函数和约束函数都为凸函数时候的的优化问题,也就是说,对于任意的\\(i = 0, \cdots , m\\),在\\(\alpha + \beta = 1, \alpha \geq 0, \beta \geq 0\\)时,都有
$$f_i(\alpha x + \beta y) \leq \alpha f_i(x) + \beta f_i(y)$$
这也是凸函数的定义

线性规划也可以看做是凸优化,因为在线性规划里面,\\(f_0, \cdots , f_m\\)都是线性函数,也就满足
$$f_i(\alpha x + \beta y) = \alpha f_i(x) + \beta f_i(y)$$
显然符合凸优化的定义,所以凸优化可以看做是线性规划的推广。

如果从投资的角度上看,凸优化就相当于在生产需求\\((f_1, \cdots, f_m)\\)的约束下让生产成本\\((f_0)\\)最小化
如果从机器学习的角度上看,凸优化就相当于在一堆模型中,选取最符合观测现象以及先验知识的模型\\((f_1, \cdots, f_m)\\),使得泛化误差\\((f_0)\\)最小,这也体现机器学习其本质:经验风险最小化

如果一个问题是凸优化问题,那很好办,因为现在凸优化有很多技术,或许可以这么说,只要一个问题是凸优化问题,那么我们一定能解决它。但是,判断一个问题是不是凸优化,或者判断一个问题能否可以转换成凸优化问题并不是一件简单的事情。

如果一个问题不是凸的呢?遗憾的是目前还没有一种方法能很好地解决非凸问题,对于非凸问题,我们的方法一般有:
1.局部优化:在局部优化里,我们降低要求,不再寻找一个全局的最优解,只需要寻找一个能让我们接受的结果即可,比如我们常用的梯度下降就是一种局部优化策略。局部优化的优点很明显,只需要可导就行了,并不要求是凸的(想想梯度下降是不是这样:D),但是局部优化的缺点也明显,就是极度依赖于初始值的选择,初始值很大程度决定了你最后的结果,此外就是我们无法知道局部最优与全局最优究竟相差了多远。比如在深度神经网络里,采用BP策略单纯的使用梯度下降是无法训练的,因为局部最优解太多,而Hinton所谓的无监督预训练,其实就是为了让网络权值能够初始化到一个较好的点,使得BP策略能够奏效。
2. 全局优化:如果参数规模不大,或者全局最优解的意义重大(比如你要是找不到全局最优那么你女朋友就和你分手),那么使用穷举也是一种策略
3. 随机化方法:其实这个应该归属到局部优化里面,因为随机化方法也是一种局部最优。比如模拟退火、遗传等,这些方法克服了纯梯度方法的一些缺点。

然而,实际问题中有很多都是非凸的,那么我们为什么还要研究凸问题呢?
因为非凸问题往往借鉴了凸问题的一些思想,反正我不管,今天我们就是来讲凸问题的(╯‵□′)╯︵┻━┻


#==================================================
下面这段可以先跳过,反正我也讲不清楚
更详细的内容请参考《Convex optimization》,一切以它的说法为准
#==================================================

我们之前说过,判断一个问题是不是凸优化,或者判断一个问题能否可以转换成凸优化问题并不是一件简单的事情,但是有一种可以方便地建立凸性的方法:

**如果一个问题能将其表示为一族仿射函数的逐点上确界,那么这个问题就是一个凸问题**
也就是
$$f(x) = \sup \lbrace g(x)|g\text{仿射,且}\forall z, g(x) \leq f(z) \rbrace$$

有几个陌生的名词,没关系,我们一个一个地来解释
首先是**仿射**
如果\\(f\\)是一个线性函数和一个常数的和,也就是\\(f(x) = Ax + b\\)的形式,其中\\(A\in R^{m \times n}, b \in R^{m}\\),那么\\(f: R^n \rightarrow R^m\\)是仿射的

为了讲什么是逐点上确界,需要先讲什么是**逐点最大函数**,也就是
$$f(x) = \max \lbrace f_1(x), f_2(x), \cdots \rbrace$$
我们称f为逐点最大函数,如果\\(f_i\\)是凸的,那么f也是凸的

接下来就是所谓的**逐点上确界**
若\\(y \in A\\),\\(f(x, y)\\)关于x都是凸的,那么函数
$$g(x) = \sup \limits_{y \in A} f(x, y)$$
关于x也是凸的,这个也就是逐点上确界了

上面看不懂也没关系,反正我也解释不清楚,记住一条就行了:“凸问题”等价于“一族仿射函数的逐点上确界”


#==================================================

从这里开始看

#==================================================



然后就是今天的主题了,什么是拉格朗日对偶?

首先是**拉格朗日原问题**(强调强调强调,一会我们还会回来看这里的,这里我们将原问题记为\\(p^*\\)):
$$\min f_0(x)$$
$$s. t. f_i(x) \leq 0, i = 1, \cdots, m$$
$$h_i(x) = 0, i = 1, \cdots , p$$
注意:这里我们要求\\(f_i\\) 和\\(h_i\\)的定义域都是非空的,此时的定义域记为D,但是这里我们并不要求原问题是凸的

拉格朗日对偶的中心思想是在目标函数中考虑上约束条件,也就是引入拉格朗日算子,得到增广目标函数,也就是拉格朗日函数
$$L(x, \lambda , \mu) = f_0(x) + \sum\limits_{i=0}^m \lambda_i f_i(x) + \sum\limits_{i=1}^p \mu_i h_i(x)$$
也就是说,我们现在优化的对象除了x,还加上了m个\\(\lambda_i\\),p个\\(\mu_i\\),这时候定义域变成了\\(D\times R^m \times R^p\\)

我们定义拉格朗日函数的对偶函数为
$$g(\lambda , \mu) = \inf\limits_{x\in D} L(x, \lambda , \mu) =\inf\limits_{x\in D} f_0(x) + \sum\limits_{i=0}^m \lambda_i f_i(x) + \sum\limits_{i=1}^p \mu_i h_i(x)$$
也就是说,我们定义对偶函数为拉格朗日函数的下界,那么问题来了,如果拉格朗日函数没有下界呢?没关系,这时候我们就让对偶函数为\\(-\infty\\)即可。

由于对偶函数\\(g(\lambda , \mu)\\)是关于\\((\lambda , \mu)\\)仿射函数的逐点下确界,所以
**不管原问题是不是凸的,其对偶函数一定凹的**
(参考前面的讨论,注意前面讨论的是凸性,但是凸性与凹性换几个地方就行了)

引入对偶,使得原问题的求解变成了讨论“求原问题的下界”。为什么呢?因为对于\\(\lambda \geq 0\\),都有\\(g(\lambda , \mu) \leq p^*\\),简单验证一下:
如果一个\\(\hat{x}\\)是可行的解,那么\\(f_i(\hat{x}) \leq 0, h_i(\hat{x}) = 0\\),由于\\(\lambda \geq 0\\),从而
$$\sum\limits_{i=0}^m \lambda_i f_i(x) + \sum\limits_{i=1}^p \mu_i h_i(x)$$
第一项为负数,第二项为0,所以
$$L(\hat{x}, \lambda , \mu) = f_0(\hat{x}) + \sum\limits_{i=0}^m \lambda_i f_i(\hat{x}) + \sum\limits_{i=1}^p \mu_i h_i(\hat{x}) \leq f_0(\hat{x})$$
因而
$$g(\lambda , \mu) = \inf\limits_{x\in D} L(x, \lambda , \mu) \leq L(\hat{x}, \lambda , \mu) \leq f_0(\hat{x})$$
即每个可行点,都有\\(g(\lambda , \mu) \leq f_0(\hat{x})\\)

上面的公式好枯燥,给大家看一张图就明白了



** 插入的附件 **


在图中,实线代表的是目标函数\\(f_0\\),而虚线代表的是约束条件\\(f_1\\),彩色的点线代表\\(\lambda\\)取不同值的时候对应的拉格朗日函数\\(L(x, \lambda) = f_0(x) + \lambda f_1(x)\\)(本来有十条的,但是最近撸太多手抖实在画不动了.........画5条大家也能看的懂吧....),我们可以看到,在约束条件可行(\\(f_1(x)\leq 0\\))的区间内,拉格朗日函数都是小于目标函数的。我们可以看到,在可行区间内,目标函数的最值将在x = -0.46处取得\\(p^* = 1.54\\)

下面我们来看一看对偶函数的图像:



** 插入的附件 **


其中实线代表的是对偶函数,而虚线代表的是目标函数\\(f_0\\)的最优值\\(p^* = 1.54\\),从图像中,我们可以发现,对偶函数确实是原问题的一个下界,此外,我们也可以发现:在原问题中,目标函数\\(f_0\\),约束条件\\(f_1\\)都不是凸的,但对偶函数是凹的

为了更好地理解,我们再举一个例子,一个优化问题:
$$\min x^T x$$
$$s.t. Ax = b$$
这个问题是等式约束,很简单,我们用高数上面的知识就可以解决了,我们取拉格朗日函数
$$L(x, \mu) = x^T x + \mu^T(Ax - b)$$
然后求导,令其为0
$$\Delta_x L(x, \mu) = 2x + A^T \mu = 0$$
求得
$$x = -\frac{1}{2} A^T\mu$$
这时候目标函数最小,好,现在我们来看看如果讨论对偶会怎么样
首先对偶函数为
$$g(\mu) = \inf\limits_x L(x, \mu)$$
代入最优解\\(x = -\frac{1}{2} A^T\mu\\)
$$g(\mu) = \inf\limits_x L(-\frac{1}{2} A^T\mu, \mu) = -\frac{1}{4}\mu^TAA^T\mu - b^T\mu$$
我们会发现,对偶函数是二次凹函数,并且有
$$-\frac{1}{4}\mu^TAA^T\mu - b^T\mu \leq \inf \lbrace x^Tx|Ax = b\rbrace$$

拉格朗日对偶,通过引入参数\\(\lambda, \mu\\),可以让原问题得到一个与\\(\lambda, \mu\\)相关的下界(这时候跟x没什么关系了)。但现在的问题就是,究竟哪个下界才是最好的?因为下界有很多个,所以应该选取哪个下界?
答案是:最大的下界是最好的,这个解我们记为\\(d^*\\)

从上面的图,大家也可以看到,对偶函数的最大值最接近原问题的最优解,由于对偶问题总存在这么一个等式\\(d^* \leq p^*\\)(即使原问题不是凸的这个不等式也成立),所以,\\(p^* - d^*\\)也被称为最优对偶间隙

举一个对偶的例子,比如线性规划,其标准式为
$$\min C^T x$$
$$s.t. Ax = b$$
$$x \geq 0$$

我们取拉格朗日函数
$$
L(x, \lambda , \mu) = C^T x - \sum\limits_{i=1}^n \lambda_i x_i + \mu^T(Ax - b)
= -b^T\mu + (C + A^T\mu - \lambda)^Tx
$$
则对偶函数为
$$
g(\lambda , \mu) = \inf\limits_x L(x, \lambda , \mu)
= -b^T\mu +\inf\limits_x (C + A^T\mu - \lambda)^Tx
$$
由于线性函数只有为常数的时候才有下界,所以\\(g(\lambda , \mu)\\)又可以写为
$$g(\lambda , \mu) =
-b^T \mu, ~~~~~~~~\text{如果} A^T\mu - \lambda + c = 0
$$

$$g(\lambda , \mu) = -\infty, ~~~~~~~~ \text{其他} $$
**强烈抗议:没法进行公式堆叠啊!!!!!!!!!**

上面是对偶函数,我们说过,对偶函数刻画的是一个下界,哪个下界是最好的呢?最大的是最好的,所以,对偶问题可以表述为\\(\max g(\lambda , \mu) \\)
也就是
$$\max -b^T \mu$$
$$s.t. A^T\mu - \lambda + c = 0$$
$$\lambda \geq 0$$
上面这个问题还可以进一步缩写为
$$\max -b^T \mu$$
$$s.t. A^T\mu + c \geq 0$$
这就是线性规划标准形式的对偶问题,这种表述也称之为不等式形式线性规划

好,我们我们从不等式形式线性规划出发,也就是现在我们的原问题是:
$$\max C^Tx $$
$$s.t. A^T x \leq b$$
(注:跟上边的不等式形式符号变了,但表达没变)

我们取拉格朗日函数
$$
L(x, \lambda) = C^Tx + \lambda^T(Ax - b)
= -b^T\lambda + (A^T\lambda + C)^T x
$$
那么对偶函数就是
$$g(\lambda) = \inf\limits_x L(x, \lambda) = -b^T\lambda + \inf\limits_x (A^T\lambda + C)^T x$$
同样,由于线性函数只有恒为常数的时候才有下界,因此对偶函数可以写为
$$g(\lambda) = -b^T \lambda, ~~~~~~~~\text{如果} A^T\lambda + c = 0$$
$$g(\lambda) =-\infty, ~~~~~~~~ \text{其他}$$
**强烈抗议:没法进行公式堆叠啊!!!!!!!!!**
还是那句话,哪个下界是最好的呢?最大的是最好的,所以\\(\max g(\lambda) \\)可以表述为
$$\max -b^T \lambda$$
$$s.t. A^T \lambda + c = 0$$
$$\lambda \geq 0$$
你看,这又回到标准型的线性规划了。

在拉格朗日对偶之后,\\(d^* \leq p^*\\)总是成立的,这个我们也叫做弱对偶性,如果说我们能够使得\\(d^* = p^*\\),那么这时候我们求解对偶问题就相当于求解原问题了,大家看前面的图,对偶问题显然不等价于原问题的。那么什么时候对偶问题等价于原问题呢(这种情况叫做强对偶)?一般情况下,如果原问题是凸的,那么这个问题具有强对偶,也就是对偶问题的最优解等于原问题的最优解(不绝对,也有例外的)。

如何判定一个问题是否具有强对偶性呢?一个判据是Slater条件,这里不讲,另一个就是大家所知到的KKT条件了。如果说一个问题,它满足KKT条件,那么这个问题就具有强对偶性,求取对偶问题就相当于求取原问题。但如果不满足KKT条件呢?那就不能这么做了。

而恰好,SVM问题里面都是满足KKT条件的,所以SVM里面求取对偶解就相当于求取原问题的解。那么我们为什么要求它的对偶呢?因为kernel,通过对偶之后得到一个向量内积的形式,也就是\\(x^Tx\\)这种形式,而这种形式是kernel所擅长处理的。如果没有对偶,就没有后面的kernel映射,SVM也实现不了非线性分割。

当然,这里有一个问题我没有讲,为什么满足KKT条件就具有强对偶性?这个问题啊,你问我


























** 插入的附件 **
今天画了图,才在实践上理解了上面那句话,特把经验分享出来,感觉这样直观一点,少纠结一些。

谱聚类小例子:
1.随便画出一个连接图,加上链接权重。

** 插入的附件 **
2.构造拉普拉斯矩阵:


[attach]449... 显示全部 »
今天画了图,才在实践上理解了上面那句话,特把经验分享出来,感觉这样直观一点,少纠结一些。

谱聚类小例子:
1.随便画出一个连接图,加上链接权重。

** 插入的附件 **
2.构造拉普拉斯矩阵:


** 插入的附件 **


此时0 特征值对应的特征向量,除了全1向量之外,只有[1 1 1 0 0 ]T和 [0 0 0 1 1 ]T两个向量,让他们以列排列,形成矩阵:

** 插入的附件 **


那么,这个矩阵的第一列设为x1,第二列设为x2就,将每个行向量作为点,画到x1和x2坐标上去


** 插入的附件 **



这样一聚类,是不是刚好把原来问题的123点分为一类,4,5点分为了另一类?!
所以,实践上这样是可行的,拉普拉斯矩阵特征向量,包含了我们需要的分类信息。


不过理论和实践相结合才是王道,下面是邹博士给出的理论解释:

为表述方便,给出如下简称:“向量f可取实数”,是指的“n维向量f的每个维度fi都是实数”。下面的行文中,为了上下连贯,在不引起歧义的前提下,凡是“向量的取值为实数域”、“矩阵扩展到实数域”等表述,都是指的它们的元素取实数。

关于谱聚类中求取特征向量以及使用Y矩阵做k-means的解释:

1、首先考虑全图是全连通状态,并且做2分:定义f为子图划分的指示向量,则根据关于RatioCut的论述,f'Lf的值最小即为该待求向量f,即为聚类的最终目标。同时,使用Rayleigh-Ritz定理,在f可取实数的前提下,f'Lf取最小的f,即拉普拉斯矩阵L的次小特征向量。而最终目的是取f为指示向量,而非实数域上的解。因此,将f离散化:最简单的方案——大于0是一簇,小于0是另一簇(当然有别的方案,如:找出这n个数的分割点x,使得sigma(fi-x)^2最小)。

2、若将2分扩展到k分,仍然只考虑全连通状态:这时,目标函数是本来应该是Trace(H'LH)最小,这里,H是k列的,对应k个子图划分的指示向量;H的解即为最终结论,同样由于NP难解,把指示向量组成的矩阵H扩展到实数域上,根据Rayleigh-Ritz定理,L的前k个特征向量组成的矩阵Hr,即为使得Trace(H'LH)最小的解。仿照2分的情况,对这个Hr矩阵离散化,从而近似得到H。类比2分情况离散化的方案,这里仅仅将数值fi(向量f的行向量)扩展到了k维(矩阵Hr的行向量)。最简单的莫过于对Hr的每一行做K-means了。

3、换个角度来理解:对于给定的相似度矩阵W,将这个矩阵W的每一行Wi作为输入点,得到n个点Wi(1≤i≤n),每个Wi也是n维。这n个点Wi做k-means,就是聚类的最终结果。由于维度是n维,使用PCA的方式降维,取特征值最大的k个值对应的特征向量,组成矩阵P,仍然将P的每一行看做一个点(注:1、已经通过PCA把n维的Wi降为k维的Pi了;2、P仍然有n行,即Pi共n个点),做K-means,可以降低时间和空间复杂度。而谱聚类中的拉普拉斯矩阵L定义为D-W,D是每个结点的度。所以,W的前k个最大的特征向量即为L的钱k个最小的特征向量。从而,PCA的做法和谱聚类的做法,完全相同。
weizier

weizier 回答了问题 • 2015-04-13 20:33 • 5 个回复 不感兴趣

想问一下 逻辑回归 和 SVM 的区别是什么?

赞同来自:

对于沙发中的“Hinge Loss”不可导说法存疑,应该说是在超平面上不可导。二分类的最本质损失是0-1损失,其不是连续可导。而hinge loss可以认为是其上界,而SVM就是优化该上界的一种模型。
另外,补充一下个人对LR,感知机,SVM的一些思考。
LR... 显示全部 »
对于沙发中的“Hinge Loss”不可导说法存疑,应该说是在超平面上不可导。二分类的最本质损失是0-1损失,其不是连续可导。而hinge loss可以认为是其上界,而SVM就是优化该上界的一种模型。
另外,补充一下个人对LR,感知机,SVM的一些思考。
LR预测数据的时候,给出的是一个预测结果为正类的概率,这个概率是通过sigmoid函数将wTx映射到[0,1]得到的,对于wTx正的很大时(可以认为离决策边界很远),得到为正类的概率趋近于1;对于wTx负的很大时(可以认为离决策边界很远),得到为正类的概率趋近于0。在LR中,跟“与决策边界距离”扯得上关系的仅此而已。在参数w求解过程中完全没有与决策边界距离的影子,所有样本都一视同仁。和感知机的不同之处在于,LR用到与决策边界的距离,是用来给预测结果一个可以看得到的置信区间。感知机里面没有这一考虑,只根据符号来判断。
而SVM更进一步,在参数的求解过程中,便舍弃了距离决策边界过远的点。
LR和感知机都很容易过拟合,只有SVM加入了L2范数之后的结构化风险最小化策略才解决了过拟合的问题。
总结之:感知机前后都没有引入与超平面“距离”的概念,它只关心是否在超平面的一侧;
LR引入了距离,但是在训练模型求其参数的时候没有距离的概念,只是在最后预测阶段引入距离以表征分类的置信度;
SVM两个地方有距离的概念:其一,在求超平面参数的时候有距离的概念,其表现为在与超平面一定距离内的点着重关注,而其他的一切点都不再关注。被关注的点称之为“支撑向量”。其二,预测新样本的时候,和LR一样,距离代表置信度。

以上个人之见,欢迎大家讨论。
July

July 回答了问题 • 2015-05-28 10:37 • 19 个回复 不感兴趣

6月机器学习在线班课程大纲讨论稿

赞同来自:

@飘渺
推荐算法、和计算广告?
好的,我们考虑下。
@飘渺
推荐算法、和计算广告?
好的,我们考虑下。
手机用户459561

手机用户459561 回答了问题 • 2018-08-23 17:20 • 1 个回复 不感兴趣

BAT机器学习面试题1000题(336~340题)

赞同来自:

338后面好像有笔误诶,多加了L1距离的描述
338后面好像有笔误诶,多加了L1距离的描述
假如

假如 回答了问题 • 2018-10-30 11:49 • 4 个回复 不感兴趣

BAT机器学习面试1000题(566~570题)

赞同来自:

刷了这么多题,真要感谢小编
刷了这么多题,真要感谢小编

3月机器学习在线班即日起正式报名,3人一起报名8折优惠

公告July 回复了问题 • 29 人关注 • 19 个回复 • 7204 次浏览 • 2015-03-21 15:05 • 来自相关主题

机器学习在线班的课程大纲讨论稿(不断修改调整中)

公告haobo 回复了问题 • 39 人关注 • 33 个回复 • 5017 次浏览 • 2015-02-11 23:11 • 来自相关主题

截止到2.6日0点,积分前100名者,享受3月机器学习在线精品课程8折优惠

公告July 发表了文章 • 27 个评论 • 3133 次浏览 • 2015-01-26 20:13 • 来自相关主题


截止到2015年2月6日0点,积分排名前100位的朋友:http://ask.julyedu.com/people/order-integral,可享受2015年3月开始的机器学习在线精品课程8折优惠。

3月在线精品课程预计总共20次课,每次课收费50-10...
查看更多

机器学习在线精品课程,你最想听到啥内容?

公告jiangwenwu17 回复了问题 • 78 人关注 • 78 个回复 • 6959 次浏览 • 2017-05-26 21:30 • 来自相关主题

七月算法在线公开课第 5 期:7月7晚上8点

公告July 发表了文章 • 15 个评论 • 6086 次浏览 • 2015-01-21 11:37 • 来自相关主题


2015年起,将用群视频在线讲一系列在线公开课
  • 第1期:1月11日,邹博在线讲决策树与随机森林,PPT 下载地址:http://pan.baidu.com/s/10HQrG
  • 第2期:本周六1月17日上午10-12点,@北冥乘海生 讲计算广告...
查看更多

BAT机器学习面试1000题(606~610题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 71 次浏览 • 2018-11-09 10:10 • 来自相关主题

BAT机器学习面试1000题(601~605题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 55 次浏览 • 2018-11-08 10:12 • 来自相关主题

BAT机器学习面试1000题(596~600题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 60 次浏览 • 2018-11-07 10:13 • 来自相关主题

BAT机器学习面试1000题(591~595题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 48 次浏览 • 2018-11-06 10:19 • 来自相关主题

BAT机器学习面试1000题(586~590题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 104 次浏览 • 2018-11-05 10:29 • 来自相关主题

BAT机器学习面试1000题(581~585题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 85 次浏览 • 2018-11-02 10:23 • 来自相关主题

BAT机器学习面试1000题(576~580题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 70 次浏览 • 2018-11-01 10:42 • 来自相关主题

BAT机器学习面试1000题(571~575题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 71 次浏览 • 2018-10-31 10:08 • 来自相关主题

BAT机器学习面试1000题(566~570题)

回复

面试假如 回复了问题 • 3 人关注 • 4 个回复 • 93 次浏览 • 2018-10-30 11:49 • 来自相关主题

BAT机器学习面试1000题(561~565题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 93 次浏览 • 2018-10-29 10:23 • 来自相关主题

BAT机器学习面试1000题(556~560题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 85 次浏览 • 2018-10-26 10:34 • 来自相关主题

BAT机器学习面试1000题(551~555题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 116 次浏览 • 2018-10-24 10:25 • 来自相关主题

BAT机器学习面试1000题(541~545题)

回复

面试啊实打实大萨达所大所多 回复了问题 • 3 人关注 • 1 个回复 • 96 次浏览 • 2018-10-23 12:26 • 来自相关主题

干货合集 | 机器学习类面试问题与思路总结(文末送经典书籍)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 106 次浏览 • 2018-10-23 12:21 • 来自相关主题

BAT机器学习面试1000题(546~550题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 86 次浏览 • 2018-10-23 10:52 • 来自相关主题

如何交付机器学习项目:一份机器学习工程开发流程指南

回复

机器学习手机用户463531 回复了问题 • 3 人关注 • 1 个回复 • 237 次浏览 • 2018-10-19 19:24 • 来自相关主题

BAT机器学习面试1000题(536~540题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 121 次浏览 • 2018-10-18 18:46 • 来自相关主题

BAT机器学习面试1000题(531~535题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 97 次浏览 • 2018-10-18 10:24 • 来自相关主题

BAT机器学习面试1000题(526~530题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 120 次浏览 • 2018-10-17 10:47 • 来自相关主题

这8 个机器学习 JavaScript 框架,值得研究一下!

回复

机器学习darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 115 次浏览 • 2018-10-16 17:35 • 来自相关主题

BAT机器学习面试1000题(521~525题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 129 次浏览 • 2018-10-16 10:43 • 来自相关主题

BAT机器学习面试1000题(516~520题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 127 次浏览 • 2018-10-15 11:01 • 来自相关主题

BAT机器学习面试1000题(511~515题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 102 次浏览 • 2018-10-15 10:39 • 来自相关主题

BAT机器学习面试1000题(506~510题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 146 次浏览 • 2018-10-11 10:31 • 来自相关主题

BAT机器学习面试1000题(501~505题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 119 次浏览 • 2018-10-10 10:33 • 来自相关主题

BAT机器学习面试1000题(496~500题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 140 次浏览 • 2018-10-09 10:42 • 来自相关主题

11个 AI 和机器学习模型的开源框架,做项目一定用的上!

回复

机器学习darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 152 次浏览 • 2018-09-30 10:52 • 来自相关主题

BAT机器学习面试1000题(491~495题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 136 次浏览 • 2018-09-30 10:07 • 来自相关主题

BAT机器学习面试1000题(486~490题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 162 次浏览 • 2018-09-29 10:04 • 来自相关主题

BAT机器学习面试1000题系列(第111~115题)

回复

机器学习Greatpan 回复了问题 • 2 人关注 • 1 个回复 • 790 次浏览 • 2018-09-29 09:30 • 来自相关主题

机器学习实践难?这10个小秘诀必须知道!

回复

机器学习darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 164 次浏览 • 2018-09-28 10:50 • 来自相关主题

BAT机器学习面试1000题(481~485题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 145 次浏览 • 2018-09-28 10:37 • 来自相关主题

BAT机器学习面试1000题(476~480题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 113 次浏览 • 2018-09-27 10:28 • 来自相关主题

BAT机器学习面试1000题(471~475题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 163 次浏览 • 2018-09-26 10:22 • 来自相关主题

BAT机器学习面试1000题(466~470题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 152 次浏览 • 2018-09-25 10:34 • 来自相关主题

BAT机器学习面试1000题(461~465题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 202 次浏览 • 2018-09-21 10:55 • 来自相关主题

BAT机器学习面试1000题(456~460题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 159 次浏览 • 2018-09-20 10:58 • 来自相关主题

BAT机器学习面试1000题(451~455题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 177 次浏览 • 2018-09-19 10:44 • 来自相关主题

机器学习难吗?这12大经验总结,让你瞬间理解机器学习

回复

机器学习darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 285 次浏览 • 2018-09-18 17:49 • 来自相关主题

入门新人请教:工作中机器学习用python还是java(利用工具包)?

回复

机器学习手机用户472293uiuu 回复了问题 • 10 人关注 • 7 个回复 • 7020 次浏览 • 2018-09-18 15:35 • 来自相关主题

BAT机器学习面试1000题(446~450题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 208 次浏览 • 2018-09-18 14:10 • 来自相关主题

BAT机器学习面试1000题(441~445题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 155 次浏览 • 2018-09-14 10:04 • 来自相关主题

BAT机器学习面试1000题(436~440题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 172 次浏览 • 2018-09-13 10:56 • 来自相关主题

BAT机器学习面试1000题(426~430题)

回复

面试darling盼盼 发起了问题 • 3 人关注 • 0 个回复 • 294 次浏览 • 2018-09-11 10:55 • 来自相关主题

BAT机器学习面试1000题(421~425题)

回复

面试darling盼盼 发起了问题 • 2 人关注 • 0 个回复 • 223 次浏览 • 2018-09-10 10:40 • 来自相关主题

BAT机器学习面试1000题(416~420题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 223 次浏览 • 2018-09-07 10:44 • 来自相关主题

BAT机器学习面试1000题(411~415题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 202 次浏览 • 2018-09-06 10:47 • 来自相关主题

BAT机器学习面试1000题(406~410题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 235 次浏览 • 2018-09-05 11:20 • 来自相关主题

BAT机器学习面试1000题(401~405题)

回复

面试darling盼盼 发起了问题 • 1 人关注 • 0 个回复 • 261 次浏览 • 2018-09-04 10:44 • 来自相关主题

BAT机器学习面试1000题(396~400题)

回复

面试darling盼盼 发起了问题 • 3 人关注 • 0 个回复 • 200 次浏览 • 2018-09-03 10:29 • 来自相关主题

一图了解整个机器学习的核心知识体系

机器学习darling盼盼 发表了文章 • 3 个评论 • 586 次浏览 • 2018-08-31 19:53 • 来自相关主题


嗨,七友们,今天小七和大家分享下机器学习方面知识喔。我们机器学习第九期学员海阔天空对【机器学习第九期】课程做了一系列思维导图笔记,真的是干货满满,受益很多喔。

首先是总图,索引本课程的全部内容,相当于一图了解整个机器学习的核心知识体系,学机器学习,结...
查看更多

干货合集 | 卷积神经网络CNN的基本原理

机器学习darling盼盼 发表了文章 • 0 个评论 • 829 次浏览 • 2018-07-27 19:38 • 来自相关主题


本题解析来源于July在其CSDN博客上超过20万阅读量的《CNN笔记:通俗理解卷积神经网络》,原文通俗易懂、逻辑清晰,特原封不动的全文刊载于此。

01

前言

2012年我在北京组织过8期machine learning读书会,那时“机器学习...
查看更多

使用matplotlib实现累积柱状图

机器学习alicia_665 发表了文章 • 0 个评论 • 905 次浏览 • 2017-10-25 03:27 • 来自相关主题


需求:分析flights数据集中客流量在一年中各月份的分布,使用柱状图分析。
flights数据集有三列year(年)month(月)passengers(客流量)
分析:该图最好能看见月度间的客流量的变化,也能看见...
查看更多

机器学习集训营II-Scrapy 小试牛刀 链家网页信息爬取

机器学习alicia_665 发表了文章 • 4 个评论 • 1624 次浏览 • 2017-10-14 07:17 • 来自相关主题


爬虫:Scrapy小试牛刀之:链家网页爬取
题目:
获取http://sh.lianjia.com/ershoufang/前20页二手房信息,获取具体二手房url后,进入url获得更多详细信息:总价、单价、面积、地址。

一、实现功能有:
  • 1...
查看更多

关于大数据,真的是你以为的吗?

机器学习Miranda123 发表了文章 • 0 个评论 • 1297 次浏览 • 2017-09-26 11:59 • 来自相关主题


每天人们在吃饭,睡觉,工作,娱乐都会产生数据——大量的数据。根据IBM(国际机器商业公司)记录,人类每天会产生2.5万亿字节的数据,这相当于一堆DVD到达月球又返回来,我们发送的所有文本,和我们上传到工业传感器指标的照片,以及机器之间的通信这么大的量。
这是“...
查看更多

神经网络中权值和链接的修剪(三)

机器学习Miranda123 发表了文章 • 0 个评论 • 2051 次浏览 • 2017-09-26 11:57 • 来自相关主题


背景相关
这次主要是介绍一下NIPS2016上的《Dynamic Network Surgery for Efficient DNNs》这篇文章,这篇文章是在上次提到的文章deep compression的主体思想上进行的一个优化改进。也是为了减...
查看更多

神经网络中权值和链接的修剪(二)

机器学习Miranda123 发表了文章 • 0 个评论 • 1419 次浏览 • 2017-09-21 20:16 • 来自相关主题


原论文是:《 Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman coding》

本文是该论文的阅读笔记,不免有很...
查看更多

学员专访|边学习<机器学习集训营>边参加天池比赛进入复赛TOP 3%

机器学习Miranda123 发表了文章 • 0 个评论 • 2002 次浏览 • 2017-09-19 19:17 • 来自相关主题


1.jpg


1.现在在哪上学?什么专业方向?在校学习的最大感受和困境是什么?
张杰民:现在就读于辽宁工程技术大学的研究生,软件工程专业,研究方向是推荐系统。在学校的时候,其实自己也清楚很多东西有用,例如:python、...
查看更多

神经网络中权值和链接的修剪(一)

机器学习Miranda123 发表了文章 • 0 个评论 • 1629 次浏览 • 2017-09-18 18:11 • 来自相关主题


背景相关
神经网络的计算密集和缓存密集特性使其难以被应用到嵌入式系统上(主要是各种移动应用)来。究其原因,作者认为是传统的神经网络在训练之前就已经把整个框架结构固定下来了,而导致后续的各种训练并不能提升改进整个结构。
本文主要是通过只保留神经网络中重要...
查看更多

关于人工智能(上)

机器学习Miranda123 发表了文章 • 2 个评论 • 414 次浏览 • 2017-09-14 15:14 • 来自相关主题


微信图片_20170914151047.jpg


现在人工智能的热度大家有目共睹,2017年国务院发布的《新一代人工智能发展规划通知》中提到“到2020年人工智能总体技术和应用与世界先进水平同步,人工智能产业成为新的重要经济增长点”,中国对人工智能的重视程...
查看更多

热烈庆祝七月在线上海分公司成立

机器学习Miranda123 发表了文章 • 0 个评论 • 1319 次浏览 • 2017-09-11 19:34 • 来自相关主题


热烈庆祝七月在线上海分公司成立
即日起至9月15日
海量课程1!元!秒!
猛戳:http://www.julyedu.com/sale/area_sh
扫码开启优惠...
查看更多

成为起薪30万的机器学习工程师只需3个月???

机器学习Miranda123 发表了文章 • 0 个评论 • 3321 次浏览 • 2017-09-01 15:06 • 来自相关主题


背景

从去年的AlphaGo到今年人工智能首次写进**工作报告,人工智能正在席卷全球,引发第4次工业革命,而AI的核心技术是机器学习和深度学习。目前,机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、语...
查看更多

资源|机器学习和Python的27个速查表

机器学习Miranda123 发表了文章 • 0 个评论 • 1671 次浏览 • 2017-08-29 11:07 • 来自相关主题


机器学习(Machine Learning)
有不少有用的流程图和机器学习算法表。 这里只包括所发现的最全面的速查表。

神经网络架构(NeuralNetwork Architectures)
来源:http://www.asimovinstitute...
查看更多

普通程序员如何向人工智能方向转型?

机器学习Miranda123 发表了文章 • 0 个评论 • 1766 次浏览 • 2017-08-22 12:44 • 来自相关主题


眼下,人工智能已经成为越来越火的一个方向。普通程序员,如何转向人工智能方向,是知乎上的一个问题。本文是我对此问题的一个回答的归档版。相比原回答有所内容增加。

微信图片1.jpg


一、目的

本文的目的...
查看更多

3 月机器学习在线班第 7 课笔记—聚类

机器学习frank_shaw 发表了文章 • 0 个评论 • 1097 次浏览 • 2015-07-12 16:55 • 来自相关主题


本文链接:https://www.zybuluo.com/frank-shaw/note/117235

001.jpg
002.jpg
003.jpg
[attach]920[/att...
查看更多

3 月机器学习在线班第 6 课笔记—信息熵与最大熵模型

机器学习frank_shaw 发表了文章 • 4 个评论 • 1336 次浏览 • 2015-07-12 16:46 • 来自相关主题


本文链接:https://www.zybuluo.com/frank-shaw/note/108124。笔记内容难免有错,望多交流~~

001.jpg
002.jpg
003.jpg
[...
查看更多

城市公共交通数据

机器学习dongwei 发表了文章 • 4 个评论 • 2037 次浏览 • 2015-06-28 22:35 • 来自相关主题


这个rar包里是北京、西安、咸阳的公交、地铁的站点数据,包括公交名称、站点名称、站点坐标、站点数目、每天的运营时间,感兴趣的同学可以利用这些数据玩玩,其他城市我会利用空闲时间陆续补上。格式是json格式,程序我就不发了,只是个demo,也只有我自己会用,:) ...
查看更多

关于朴素贝叶斯统计学上的思考和扩展

机器学习七天精通装逼指南 发表了文章 • 0 个评论 • 1778 次浏览 • 2015-06-14 10:33 • 来自相关主题


其实是本科生的读书会讲到了朴素贝叶斯,有了一些相对来说深入的想法、
直观上的朴素贝叶斯就不提了,我们从数学上来观察一下这个简单的分类算法的训练过程。

我们不妨先看看朴素贝叶斯的假设。首先大家都知道的一个点就是词之间没有强相关性的假设。其实还有一个假设,可以理...
查看更多

蒙特卡洛方法简介

机器学习Hederahelix 发表了文章 • 5 个评论 • 1465 次浏览 • 2015-05-15 14:55 • 来自相关主题


1.png


2.png


3.png


4.png


5.png


[attach]682[/attach...
查看更多

最小二乘支持向量机(LSSVM)的分类与回归

机器学习Andy2333 发表了文章 • 2 个评论 • 27891 次浏览 • 2015-04-27 16:14 • 来自相关主题


前言:偶然间看过July老师的《支持向量机通俗导论》,受益良多,出于兴趣又看了一些LSSVM(最小二乘支持向量机)的相关文献,在这儿随便贴一点。


正文:首先,关于支持向量机的基础知识可以看Jluy老师的《支持向量机...
查看更多

机器学习(Machine Learning)&深度学习(Deep Learning)资料[part 3]

机器学习ty4z2008 发表了文章 • 4 个评论 • 12175 次浏览 • 2015-04-24 15:39 • 来自相关主题

查看更多

机器学习(Machine Learning)&深度学习(Deep Learning)资料[part 2]

机器学习ty4z2008 发表了文章 • 0 个评论 • 3380 次浏览 • 2015-04-24 15:37 • 来自相关主题

查看更多

机器学习(Machine Learning)&深度学习(Deep Learning)资料[part 1]

机器学习ty4z2008 发表了文章 • 0 个评论 • 5061 次浏览 • 2015-04-24 15:26 • 来自相关主题

查看更多

3 月机器学习在线班第 5 课笔记—梯度下降与拟牛顿

机器学习frank_shaw 发表了文章 • 4 个评论 • 3125 次浏览 • 2015-04-06 21:02 • 来自相关主题


笔记的PDF在附件中。望针对其中问题多交流~^_^

01.png
02.png
03.png
04.png
[attach]535[/atta...
查看更多

Kaggle比赛-Otto Group Product Classification-打败一半参赛队伍的简单解法

机器学习wepon 发表了文章 • 0 个评论 • 2591 次浏览 • 2015-03-24 22:58 • 来自相关主题

查看更多

三月机器学习在线班第二课笔记

机器学习frank_shaw 发表了文章 • 5 个评论 • 4863 次浏览 • 2015-03-18 12:57 • 来自相关主题


记录笔记的最重要目的: 希望能够通过笔记和大家交流知识点~ 对应PDF在附件上。下面是笔记的详细内容:

01.png
02.png
04.png
[attach]325[/atta...
查看更多

3月机器学习在线班的常见问题讨论

机器学习LostOsiris 发表了文章 • 0 个评论 • 2870 次浏览 • 2015-03-14 00:51 • 来自相关主题


*//该文章会做成一个系列,文章内容主要整理自3月机器学习在线班大家的相互探讨。*

(1) 线段为什么是仿射集呢?根据定义,过线段内任意两点的直线,应该不在线段内啊?
:线段不是仿射集,而是凸集。

(2) **支撑超平面就是支持...
查看更多

scikit learn 入门之 决策树分类

机器学习lucasyang 发表了文章 • 5 个评论 • 7020 次浏览 • 2015-01-28 16:04 • 来自相关主题


Notice:
  1. 本文基于官方文档
  2. 内容包括,如何导入数据(非稀疏、稀疏)、训练模型、如何决策性的可视化


数据导入部分:
(1)导入自带的数据集,例如iris 数据集
{{{
from sklearn.datasets import load_i...
查看更多

截止到2.6日0点,积分前100名者,享受3月机器学习在线精品课程8折优惠

公告July 发表了文章 • 27 个评论 • 3133 次浏览 • 2015-01-26 20:13 • 来自相关主题


截止到2015年2月6日0点,积分排名前100位的朋友:http://ask.julyedu.com/people/order-integral,可享受2015年3月开始的机器学习在线精品课程8折优惠。

3月在线精品课程预计总共20次课,每次课收费50-10...
查看更多

七月算法在线公开课第 5 期:7月7晚上8点

公告July 发表了文章 • 15 个评论 • 6086 次浏览 • 2015-01-21 11:37 • 来自相关主题


2015年起,将用群视频在线讲一系列在线公开课
  • 第1期:1月11日,邹博在线讲决策树与随机森林,PPT 下载地址:http://pan.baidu.com/s/10HQrG
  • 第2期:本周六1月17日上午10-12点,@北冥乘海生 讲计算广告...
查看更多
返回顶部