一起研究预估用户点击广告的概率(ctr预估)


在互联网广告中,有一个需要大量的技术来实现的部分,同时非常重要,即预估用户点击投放的广告的概率,目前,自己在做这部分的研究,但是时间并不长,在这里开启一个帖子,旨在抛砖引玉,共同进步.

我们通过一个实际的问题出发,来研究相关的机器学习,数学,实现工具等相关的问题.
先说下自己接触这块的东西:
分为了批量学习,和在线学习;
batch learning,主要用了logistic regression ,random forest ,GBDT;实现用了java自编,工具spark MLlib ;其他研究了一些算法,但是没有试验验证;
online learning,主要研究了 online logistic regression;
ctr 预估这块涵盖的知识面是很广的,可以利用到 自然语言处理,deep learning ,ML,数学的就不说了,那是必须的了,另外除了这些算法和模型之外,一个很重要的部分就是特征工程,怎么样处理好数据的特征是至关重要的;


综上: 旨在通过一个非常实际的问题入手来学习技术,这样大家也学有所用,可能提高的更加快,对技术的理解更加深.
已邀请:

sumnous - 数据挖掘女博士

赞同来自: July RealNymeria morewell Joshua fenghenglicai zhzhji440更多 »


关于特征工程,我之前在百度实习的时候,实践和接手了几个小项目:
  • query_session实体共现热度特征:使用query_session的数据,从query与query的共现信息,挖掘出实体与实体之间的共现热度特征,可以表明实体之间的相关关系以及热度。比如,黄晓明 与 Angelababy,这两个实体的共现热度。
  • query_item_transfer转移概率特征:转移概率特征是引入到百度右侧推荐中的新特征,物理含义为当用户搜索某一类型A的query时,对类型B的实体的兴趣强烈程度,计算主要基于query-推荐实体的点展比。
  • renwu-spo-weight人物关系强度特征:利用实体共现热度特征,实体热度特征以及实体属性热度特征数据应用于人物领域的关系强度挖掘。通过拟合领域-属性热度(domain-p)数据以及人物实体的热度(s-hot)数据,最终得到人物与人物的关系强度权重。火影忍者 人物关系图谱 人物的圆圈大小表明人物的实体热度,人物与人物之间连接线的长短表明关系的强度。


⎡点展比⎦在特征工程中是一个很重要的指标。

关于CTR预估,这也是我未来的一个研究点,这是建立在假设用户的点击率与广告内容搜索展现的相关性是正相关的结论之上的,是未来的一个研究热点趋势,共同学习下~

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~