RSS订阅 | 匿名投稿
您的位置:网站首页 > 服务支持 > 正文

SDCC 2015算法专场札记:知名互联网公司的算法实践

作者:habao 来源: 日期:2015-12-15 19:32:41 人气: 标签:畅捷通技术支持网址

  摘要:11月21日,为期三天的SDCC2015中国软件开发者大会成功闭幕,我们特邀请了业内专家、分享他们的听课感受及他们眼中的算法专场。本文是来自畅捷通公共服务部总监张俊林的参加算法专场的听课札记,以飨读者。

  【编者按】11月21日,为期三天的SDCC2015中国软件开发者大会成功闭幕,主办方总计邀请了95余位嘉宾,为参会者奉献了10个主题,9大技术专场论坛(80余场技术),另外还有5场特色活动。另外,据统计参会人数高达1067名(不含工作人员)。其中21日的算法专场,现场人数一度爆满,而没有机会亲临现场的童鞋们,我们特邀请了业内专家、分享他们的听课感受及他们眼中的算法专场。以下是来自畅捷通公共服务部总监张俊林的参加算法专场的听课札记,以飨读者。日前,笔者也采访了算法大牛张俊林,内容详实,文章:《专访张俊林:十年程序员的与算法之》。

  另外,我们在算法专场举办的当天也做了直播,大家也不妨一看我们的视角:【SDCC 2015现场】算法实践论坛(上):网易、京东、腾讯的算法优化实践、【SDCC 2015现场】算法实践论坛(下):解读大数据创新与个性化算法系统。

  以下为张俊林的听课札记:

  2015年11月19-21日,由CSDN重磅打造的2015中国软件开发者大会在西山附近的朗丽姿西山花园酒店举行,尽管当天下着小雨,气候阴冷,但是会场内气氛十分热烈。

  来自阿里巴巴、腾讯、京东、爱奇艺、美团等互联网公司的算法专家在算法实践分论坛分享了各自的技术经验。

  来自网易的鞠奇分享了之前在电子商务网站当当工作时有关搜索引擎查询优化的一些工作。搜索引擎有些查询会搜不到结果,为了改善搜索体验,此时搜索引擎会对用户查询进行智能改写,对无搜索结果的查询进行形式上的变换来改善搜索体验。

  对于高频的无搜索结果查询来说,因为有大量的用户查询日志可以用以挖掘,所以一般可以将查询改写看作一个排序问题。首先根据一定手段找出与无搜索结果查询语义相近的候选查询集合,一般通过对搜索引擎用户搜索日志进行“Session切分”,找出和无搜索结果查询共献高的其它查询来构造这个候选集。第二步就是如何对这些候选集内的查询串进行排序的问题。鞠奇介绍了两种排序机制,一种是无监督的基于特征对候选查询进行投票的方式,另外一种是采用有监督的机器学习排序(LearningtoRank)。而最典型的特征包括无搜索结果查询和候选查询之间的字面相似性、两者在Session中的距离、候选查询的热门程度等。

  对于长尾的无搜索结果查询来说,因为搜索的用户少,所以可以直接利用的用户行为数据很有限。对于这种情况,鞠奇介绍了他们提出的“最重,最小距离”的查询改写思。基本思想是首先把无搜索结果查询中的单词根据类似于TFIDF的思进行赋权,保留高权值单词,然后根据这些保留特征词找到其它语义相近的查询集合,计算这些查询和无搜索结果查询的语义距离,选择语义距离最近的作为改写后的查询。

  推荐系统在电子商务网站的广泛使用是个常态,京东商城也不例外,目前京东已有80多款推荐产品,遍布用户网购的各个环节都存在相应的推荐服务。京东搜索推荐部总监刘思喆介绍了京东商城推荐系统的使用状况,其整体体系结构如图1所示,这是一个非常典型的工业界推荐系统架构。由以HDFS作为基础存储平台的离线挖掘系统、用户行为实时收集并处理的近线系统及在线推荐服务构成,推荐平台提供了K近邻、矩阵分解、图模型等常见的推荐模型。刘思喆重点介绍了在将商品放入购物车后推荐相关商品这一场景下如何使用CTR预估的方式进行推荐功能的开发。

  以LDA为代表的主题模型(图2)在实际应用中有很广泛的用途,可以用来对文档的隐含语义进行建模,从而用来推导文档所属语义类别概率分布。但是LDA存在计算速度慢、很难处理大规模数据、Topic数量受限等若干实际使用中的问题。学术界和工业界也一直致力于对这些问题进行改进,典型的例子比如SparseLDA/LightLDA等。Peacock是腾讯在主题模型方面改进的技术方案,腾讯广点通核心工程师严浩介绍了主题模型的基本推导思以及Peacock是如何对LDA面临的问题进行改进的,并介绍了Peacock在腾讯的广告相关性计算、QQ群推荐及文本语义分析等应用的实际使用。

  为了提升LDA的Gibbs采样计算效率,Peacock采用SparseLDA来进行采样,速度比常规LDA提升30倍。对于大规模文档处理,则联合采用了数据并行及模型并行思,采用大规模并行处理机制,能够支持亿维级别的超大规模矩阵分解,且能计算百万级别的不同主题。通过这些改进,切实改进了传统LDA的实际可使用性。

  随机决策树方法是由Wei Fan等人提出的一种不包含属性选择过程的决策树方法,也被称作随机树集成方法。随机决策树作为一种不含有任何属性选择的决策树构建方法,不仅可以作为一种分类和回归方法使用,还可以作为集成学习中的基学习器使用。相对随机决策树,随机决策森林是一种实践中更经常使用的常用集成学习算法,两者特性对比可参考图3。TalkingData首席数据科学家张夏天在中重点根据自身经验了使用哈希函数确定特征的方式来对随机决策树及随机决策哈希函数算法进行高速并行,来快速提升算法效率。

  2015年双11天猫成交量高达912亿,移动端占比68.67%,其中各个平台的个性化推荐功能对于促进成交量起了非常重要的作用。来自阿里巴巴的算法专家严强介绍了支持阿里集团1000多个应用场景的电商个性化平台TPP(参考图4),该平台具备易用且开发效率高、算法迭代效率高、及时反馈等优点。

  严强重点介绍了其中的个性化推荐框架eTREC和实时排序框架Olive。eTREC是一个通用的协同过滤开发框架,封装了基于用户和基于商品的KNN算法以及基于内容的推荐算法,并对相似性计算等常用计算函数做了抽象,这使得该框架既具有快速开发推荐算法的优势,比如可以一行代码实现协同过滤算法;又具有根据用户需求定制算法的可能;同时通过优化底层的MapReduce算法,使得框架运算效率更高。Olive是一个融合了实时流计算和在线学习的近实时机器学习系统,采用了典型的参数服务器架构,与MPI方案比,Olive无论在计算资源的节省方面还是训练速度方面都有大幅提升。

  利用用户的各种行为数据来对用户进行画像,通过用户画像深入了解用户的各方面特点,并使用用户画像来给用户推荐更加个性化和精准的产品和服务,这也是目前的一个产品发展潮流。来自美团的数据技术专家付晴川介绍了在O2O应用场景下如何利用机器学习技术来对用户进行画像(图5)。

  同样的,美团用户画像挖掘系统也采用了大量的Hadoop生态系统产品,比如Flume/kafka等数据收集与分发系统,使用Spark和MR等计算系统来进行特征挖掘,使用SparkMLLib/SKLearn/LibSVM等机器学习工具来进行算法开发等。通过挖掘出的用户画像标签,在实际O2O产品中发挥了重要作用,比如“用户是否有车”这一标签应用在具体产品中使得下单率提升了5倍。

  推荐系统目前已经在爱奇艺中发挥了非常重要的作用,覆盖了各种终端的数十种应用场景,日均贡献3.5亿点击量,占爱奇艺所有流量的30%。来自爱奇艺的推荐系统专家分享了爱奇艺视频推荐系统的技术架构以及一些典型应用场景。

  爱奇艺推荐系统也采用了典型工业推荐系统的技术架构(图6),由离线数据处理系统、近线准实时计算系统以及在线实时推荐三个部分构成。同时,他们也大量采用了Hadoop生态系统的开源系统,比如使用Flume进行日志收集、Kafka用于数据分发、HDFS和HBase存储不同类型的数据、使用Storm和Spark进行推荐逻辑计算等。

  社交挖掘也是目前比较火的一个研发方向,来自时趣的首席科学家王绪刚介绍了如何通过社交分析准确刻画用户特征,并应用在精准营销等商业场景(图7)。他重点介绍了自主研发的对消费者行为数据处理的实时图计算引擎CrowdGraph的技术发展历程,及其如何在社交场景下使用CrowdGraph挖掘用户影响力、用户亲密度、用户相似度等应用实例。

  作者简介:张俊林,畅捷通公共服务部总监,曾经在阿里巴巴搜索技术中心、百度商务搜索部凤巢广告平台以及新浪微博搜索部及数据系统部担任资深技术专家,新浪微博技术委员会,负责算法策略方向。他还曾是智能信息聚合网站“玩聚网”的联合创始人之一。

  本文为CSDN原创文章,未经允许不得转载,如需转载请联系(#换成@)

推荐:

娃娃王爷无盐妃,强占契约妻,恶夜活死鸡图解,重生之我是步惊云,抛砖引玉打一生肖,冷面总裁笨蛋妻,天才丑女玩转校园,失婚总裁劫前妻,拉缘天堂,冲喜新娘赔心交易,酿酒皇后,欲色谷,主家教贝尔菲戈尔,晓声长谈在线直播,美人计苗亦有秀,甜妻不撒娇,极品白领后记,江山美人志女主角,掳情一夜成欢,爱妻慈蓝伶,琢本友希,小村春潮,七个相公够不够,烟绕寒天,穿越之蓝月皇后,村上里沙和金毛,王锡玄快乐大本营,倩女幽魂修为模拟器,刑警使命第二部,张良的表字,喜上加喜片尾曲,神雕之萧峰后人,部长夫人请息怒,魅惑暴王别宠我,垂悬腹,村上里沙帝王浴,魂断楼兰好看吗,豪门绝恋赎罪新娘,蓬松乳,痒孟楠,柴胡疏肝散 同仁堂,驯服坏坏太子,黑道冷枭的陪心交易,赤道和北极原唱,圣魔网,狼王宠奴,挽红楼之玉亦狂,茅道临是茅于轼儿子,素手华筝,徐其耀玩过的女人,新矿吧,kayden kross第八日,打飞机专用网,红楼旁观的平淡生活,首席执行官的合约情人,焰王的极品新娘,穿越人鱼之我要的幸福,冰山王妃邪魅爷,超幸福鞋垫三部曲,勒组词,一级片武则天,鸿钧现代生活录,现代豪侠传插曲,欲海逍遥,花间浪子,牛娃闯都市,诀别诗卓文君,悍马h10报价,高官前夫别来无恙,江陵肃是谁的孙子,落梅沁雪,恶少的毒爱,色五月 干什么,美少女被虐饲育记,隔世离空的红颜原唱,女总统音译歌词,女人你敢甩我,我的泪珠儿演员表,恶魔军官放我走,木已成舟下一句,暴露狂楠楠,365式性姿势,不想骗自己英文版,花开在古代,9a撸霸,残虐女犯人刑务所,血泣五胡,乔榛近况,综漫之逐艳曲,终极一班苏教官,吾组词,www.169mm.cc,恶女绿萍,盲目的救赎,徐其耀玩过的女人,村上真依,痒孟楠,天字号大纨绔,庞青云原型,风尘女教师,刘瑞龙简历,玩火娇妻,安住凉子,王爷的倔宠儿,169mm.cc,清穿之永日清茶,绝色倾权,青春出动吻戏,李富春简历,左葳葳,色少林,妓中技,punisher全cg存档,华能吧,东风东路小学班级网站,橘黄刺杯菌,冰峰魔恋mp3,武则天传位于谁,夏耕是谁的女婿,屎球吧,热吻野男人,曹征平简历,大铁人17号,翻身弃妇太撩人,网王之恋猫物语
读完这篇文章后,您心情如何?
0
0
0
0
0
0
0
0
本文网址:
下一篇:没有资料