025机器学习排序算法经典模型LambdaMART
041 | 机器学习排序算法经典模型:LambdaMART
在这周的时间里,我们讨论机器学习排序算法中几个经典的模型。周一我们分享了排序支持向量机(RankSVM),这个算法的好处是模型是线性的,容易理解。周三我们聊了梯度增强决策树(Gradient Boosted Decision Tree),长期以来,这种算法被用在很多商业搜索引擎当中来作为排序算法。
041 | 机器学习排序算法经典模型:LambdaMART
在这周的时间里,我们讨论机器学习排序算法中几个经典的模型。周一我们分享了排序支持向量机(RankSVM),这个算法的好处是模型是线性的,容易理解。周三我们聊了梯度增强决策树(Gradient Boosted Decision Tree),长期以来,这种算法被用在很多商业搜索引擎当中来作为排序算法。
在美国,人们对于房地产的热情有几百年的历史。美国的房地产交易主要在买房经纪和卖房经纪之间进行,买房经纪和卖房经纪需要挂靠房地产经纪公司。在这个历史悠久的市场里,上百年来积淀下许许多多的房地产经纪公司,其中不乏横跨全国的大企业,和立足本地市场的地头蛇。
042 | 基于深度学习的搜索算法:深度结构化语义模型
近两个月,我们集中系统地分享了搜索核心技术模块。做一个简单的内容梳理,我们讲解了搜索引擎方方面面的话题,从经典的信息检索技术、查询关键字理解、文档理解到现代搜索引擎的架构和索引的核心技术;还从机器学习角度出发分享了搜索引擎的最核心部分,也就是排序算法,深入排序算法的细节讲解了排序支持向量机(RankSVM)、梯度增强决策树(GBDT)以及经典模型 LambdaMART。至此,整个人工智能领域关于搜索的经典话题也就告一段落了。
我会在这一年中介绍一些总部在西雅图,或者研发中心里面很重要的一部分在西雅图的 IT 公司。这其中除了微软和亚马逊这样的大鳄以外,还囊括了诸多在不同领域取得一定统治地位的公司们。
043 | 基于深度学习的搜索算法:卷积结构下的隐含语义模型
这个星期,也是我们整个搜索领域分享的最后一周内容,来看一些搜索算法的前沿思考,特别是深度学习对搜索领域的影响。周一我们分享了一篇较早利用深度学习技术来进行搜索建模的论文,论文提出如何使用前馈神经网络来对查询关键字和文档进行信息提取,从而能够学习更有意义的语义信息。
我会在这一年中介绍一些总部在西雅图,或者研发中心里面很重要的一部分在西雅图的 IT 公司。这其中除了微软和亚马逊这样的大鳄以外,还囊括了诸多在不同领域取得一定统治地位的公司们。
044 | 基于深度学习的搜索算法:局部和分布表征下的搜索模型
周一我们分享了一篇较早利用深度学习技术来进行搜索建模的论文,利用前馈神经网络来对查询关键字和文档进行信息提取,从而学习到更有意义的语义信息。周三我们分享了另外一篇论文,可以说是周一分享文章的一个后续工作,探讨了如何利用卷积神经网络来对搜索表征进行进一步提升。这两篇论文呈现了一个统一的套路,那就是尝试把深度学习的一些经验直接应用到传统的搜索建模上。这些尝试,也都取得了一些初步成绩。
上一次,我说到了 Concur 的发展史,从卖软件开始,到销售许可证,再到今天转型做 Saas 服务,其转型可谓非常成功,随之它的市值也不断飙升,最后被 SAP 以 83 亿美元的价格收购了。
复盘 1 | 搜索核心技术模块
到目前为止,我们讲完了人工智能核心技术的第一个模块——搜索。我们从搜索的核心算法入手,进而讨论了搜索的两个关键组件,分别是查询关键字理解和文档理解,并落实到对搜索系统的评价,然后从宏观视角介绍了搜索框架的历史和发展,最后又从深度学习技术在搜索领域的应用角度,对分享做了一个延伸。
这一讲我们开始讨论有关 SQL 及其变种的前世今生,以及它与分布式数据库之间的纷繁复杂关系。
21 世纪的开发者往往要面对一种窘境:需在众多的数据库中艰难地做出选择。他们其实也想如老一辈技术人一样闭着眼睛去选择 Oracle 或者 DB2,因为它们曾经被证明是“不会出错”的选择,即无论选择哪款数据库,都不会丢工作。
01 讲我们讲了 npm 的技巧和原理,但其实在前端工程化这个主题上除了 npm,还有不可忽视的 Yarn。
Yarn 是一个由 Facebook、Google、Exponent 和 Tilde 构建的新的 JavaScript 包管理器。它的出现是为了解决历史上 npm 的某些不足(比如 npm 对于依赖的完整性和一致性保障,以及 npm 安装速度过慢的问题等),虽然 npm 目前经过版本迭代汲取了 Yarn 一些优势特点(比如一致性安装校验算法等),但我们依然有必要关注 Yarn 的思想和理念。
01|基本操作:5分钟制作一段专属手机铃声
你好,我是邓柯,欢迎来和我一起玩音乐。
今天是我们玩音乐的第一节课,也是我们这门课程第一阶段的第一节课。在第一阶段的课程里,我会依次讲解乐器组件的使用,把你的 iPhone 或者 iPad 变身成一个随身的“乐器宝盒”,让你动动手指,就能像乐手那样演奏吉他、键盘、贝斯和鼓。
01|深度学习推荐系统的经典技术架构长啥样?
你好,我是王喆。从今天开始,我们正式开始学习“深度学习推荐系统”了。在开始之前,我想先问你一个问题:当你开始学习一个全新领域的时候,你想做的第一件事情是什么?
01丨数据分析全景图及修炼指南
今天我们的学习正式开始,我想先给你一张数据分析的全景图,让你对后面的学习做到心中有数。
现在,你已经知道了数据分析在现代社会中的重要地位。掌握数据,就是掌握规律。当你了解了市场数据,对它进行分析,就可以得到市场规律。当你掌握了产品自身的数据,对它进行分析,就可以了解产品的用户来源、用户画像等等。所以说数据是个全新的视角。数据分析如此重要,它不仅是新时代的“数据结构 + 算法”,也更是企业争夺人才的高地。
01丨性能综述:性能测试的概念到底是什么?
在性能测试行业中,长久以来,都存在几个关键的概念误差。在我从业性能测试十几年的经历中,也看到过书籍或网上传播着各种性能测试的概念、方法论等,但是究其本质,再对应到具体的项目工作中,我发现这些概念以及方法论实在没有指导的价值,并且有些概念的产出,也没有确凿的证据来源。
02|学会这 4 点,你也可以告别伪勤奋
学习是有方法的,按照正确的方法练习,每个人都可以成为学霸。
大家好,我是冷冷。
今天要跟大家分享的是,在学习和工作中,有哪些做法是“伪勤奋”,以及怎样解决?
1丨了解SQL:一门半衰期很长的语言
在我们的日常工作中,使用的是类似 MySQL、Oracle 这种的数据库管理系统,实际上这些数据库管理系统都遵循 SQL 语言,这就意味着,我们在使用这些数据库的时候,都是通过 SQL 语言与它们打交道。所以对于从事编程或者互联网行业的人来说,最具有中台能力的语言便是 SQL 语言。自从 SQL 加入了 TIOBE 编程语言排行榜,就一直保持在 Top 10。
01 | Web容器学习路径
你好,我是李号双。在开篇词里我提到要成长为一名高级程序员或者架构师,我们需要提高自己知识的广度和深度。你可以先突破深度,再以点带面拓展广度,因此我建议通过深入学习一些优秀的开源系统来达到突破深度的目的。
01 | 从条件运算符说起,反思什么是好代码
写出优秀的代码是我们每一个程序员的毕生追求,毕竟写代码本身就是个技术活,代码的好坏,其实也就是我们工艺的好坏。作为一个技术类的工种,我们没有理由不去思考如何写出优秀、让人惊叹的代码。
01 | 如何逐步突破,成为Python高手?
你好,我是景霄。
工作中,我总听到很多程序员抱怨,说现在的计算机编程语言太多了,学不过来了。一些人 Java 用了很多年,但是最近的项目突然需要用 Python,就会不知所措,压力很大。
01 | 验证码是个好设计吗?
当你注册或者登录某个应用的时候,经常会用到验证码。它们大部分是由一串歪歪扭扭的字符组成的,看起来并不容易辨别。
验证码的英文名是 CAPTCHA,这不是一个正规的单词,而是个缩写,它的全称是:Completely Automated Public Turing test to tell Computers and Humans Apart,翻译过来是:用来区分人类和电脑的全自动图灵测试。不知道为什么,我就是觉得它听起来像一个不大正经的恶作剧。
01 | 职级体系:你意识到级别鸿沟了吗?
你好,我是华仔。
今天我们开始课程的第一讲,我想和你聊聊职级体系这个事儿。
如果我们把职场晋升的过程比作在游戏中打排位赛来提升段位的话,那么职级体系就是游戏的段位规则。它定义了整体的段位等级分布(比如从倔强青铜到荣耀王者),每个段位的要求(比如钻石段位以后要学会怎么重新匹配一局游戏),还有晋级的规则(比如每个段位几颗星可以晋升下一个段位)。
开篇词 | 重复工作这么多,怎样才能提高工作效率?
你好,我是尹会生。欢迎你来到《Python 自动化办公实战课》,在接下来的 3 个月时间里,我们一起通过办公自动化来提升工作效率。
上一讲,我们通过分析传统开发模式和响应式编程实现方法之间的差别,引出了数据流的概念。我们知道响应式系统都是通过对数据流中每个事件进行处理,来提高系统的即时响应性的。
本课时将为你讲解 ShardingSphere 是一款什么样的 Apache 开源软件。
在上一课时中,我详细分析了分库分表的表现形式以及分片架构的解决方案和代表性框架。可以看到,ShardingSphere 同时实现了客户端分片和代理服务器组件,并提供了分布式数据库的相关功能特性。作为一款优秀的开源软件,ShardingSphere 能够取得目前的成就也不是一蹴而就,下面我们先来回顾一下 ShardingSphere 的发展历程。
在开始深入分析 MyBatis 核心架构以及具体代码实现之前,我先通过一个示例来帮助你快速了解 MyBatis 中的常见概念以及其基础使用方法。
这里我会以一个简易订单系统的持久化层为例进行讲解,整体的讲解逻辑是这样的:
队列在日常生活中很常见,当我们排队买票看电影的时候,排在队列前面的人先入场,排在队列后面的人只能后入场。在计算机系统中常用先进先出(First In First Out)的队列来表示这种场景。
上一讲我讲了 Serverless 架构兴起的必然因素,在这个过程中,我简单提到了 Serverless 的概念,相信你对 Serverless 已经有了初步的认知,这节课我将继续深入剖析到底什么是 Serverless。
有不少刚接触 Serverless 的同学会认为 FaaS 就是 Serverless,也有同学认为 PaaS 也是 Serverless,还有同学说使用 Serverless 就没有服务器了。总的来说,很多同学对 Serverless 到底是什么并没有一个很清晰的认知,概念还比较模糊,所以咱们就用一节课的时间,搞定这个概念。
通过上一课时的学习,我们已经对 Kubernetes 的前世今生有所了解。接下来,我们开始具体学习如何将 Kubernetes 应用到自己的项目中,首先就需要了解 Kubernetes 的架构。所以,在本节课程中,我们会一起学习 Kubernetes 的架构设计,以及背后的设计哲学。
我刚毕业开始工作的时候,是比较讨厌邮件的。面对面聊不好吗,异地的话打电话不好吗?但是现在,我和组外的工作伙伴说得最多的一句话就是:“好的,你发封邮件给我吧。”有时候会再加一句,“抄送我老板”。
你好,我是涂伟忠。在上一讲中,我们已经学习了正则中和一些元字符相关的内容。这一节我们讲一下正则中的三种模式,贪婪匹配、非贪婪匹配和独占模式。
这些模式会改变正则中量词的匹配行为,比如匹配一到多次;在匹配的时候,匹配长度是尽可能长还是要尽可能短呢?如果不知道贪婪和非贪婪匹配模式,我们写的正则很可能是错误的,这样匹配就达不到期望的效果了。
大概十年前,我在阿里巴巴工作的时候,曾经和另一个面试官一起进行一场技术面试,面试过程中我问了一个问题:Hash 表的时间复杂度为什么是 O(1)?候选人没有回答上来。面试结束后我和另一个面试官有了分歧,我觉得这个问题没有回答上来是不可接受的。而他则觉得,这个问题有一点难度,回答不上来不说明什么。
上一讲结尾我们提出了一个问题:中美谈判已经谈了三轮,中国也做出了让步,为什么美国还要翻脸呢?, , 其实美国挑起这场贸易战表面上是为了减少贸易赤字,但这绝对不是美国真正的目的。那么美国在这场贸易战中到底想要赢得什么呢?我们来看下面这四件事,相信你能从中得到答案。, , 1. 美国对中兴通讯的 7 年制裁, , 2018 年 4 月 17 日,美国对中兴通讯公司进行制裁,禁止出口本国芯片给中兴,禁令长达 7 年,它的目的就是置中兴于死地。其实,美国制裁中兴不是从 2018 年开始的,早在 2011 年,美国就开始调查中兴,时间长达 5 年。直到 2016 年 3 月,美国开始全面限制中兴,将其列入限制出口的名单中,禁止美国的高科技企业将芯片出口给中兴公司。, , 那发布禁令的理由是什么呢?其实很简单,就是几年前中兴违反了美国对伊朗的出口禁令,向伊朗出售通信产品,而相关产品使用了美国高通公司的芯片,所以美国要制裁中兴公司。, , 2017 年美国就开出了罚单,你可以猜一猜这张罚单有多大。8.92 亿美元,折合 60 多亿人民币,简直就是天价罚单!不仅如此,它还设置了 3 亿美元的暂缓罚金,看中兴公司未来表现待定。美国的意思很明显:我就是要看你怎么做,如果做不好,我就再罚 3 亿美元。, , 60 亿人民币可不是一笔小数目,2011 年至 2015 年,中兴 5 年的净利润只有 60 亿人民币。罚金一交,相当于中兴这 5 年都白干了。从这件事上,你就能看出来美国有多狠。但这还没结束,美国还要求中兴的三名高管必须离开公司,他们用这种办法驱逐了中兴的实力干将。这三个人是公司的核心竞争力,驱逐重要人力也给中兴造成了巨大损失。, , 一个是钱上重重的罚,一个是人上狠狠地打,美国的目的就是让中兴公司人财两空。如果你接受这些惩罚措施,我就放你一马,暂时出口芯片给你;如果不接受,那我就继续拒绝出口芯片。最后中兴公司只能答应美国的无理条件,交了罚款,息事宁人。, , 没想到仅仅一年的时间,2018 年 4 月 17 日,美国又给中兴公司下达禁令,7 年内禁止出口给中兴芯片。听到这个消息,整个中兴公司可以说是满目愁云。, , 2. 华为被传唤, , 2017 年中兴通讯被美国制裁后不久,中国的华为公司也被美国商务部以“行政传唤”的名义叫过去,让其提供过去五年向所有被美国制裁的国家出口的全部信息,以供美国商务部审查。如果华为违反了美国的政策,也向美国敌对国家出口设备,一旦被发现,美国很可能禁止华为获得关键的美制零部件,同时华为也要面临和中兴一样的罚款和被限制芯片使用的命运。, , 我们知道,中兴和华为是中国最大的两家通信设备供应商,也是世界第三、四大电信设备供应商。但是这些年来,两家公司一直被美国政府盯得紧紧的,喘不过气来。, , 你看,美国政府多么霸道,多么颐指气使、不可一世,它对我国的通信公司如此气势汹汹。但这两家公司需要的高端芯片,被美国控制着,我们拿美国毫无办法。, , 3. 美国 5 月 4 日的制裁清单, , 4 月 17 日美国打出制裁中兴这张牌后,5 月 2 日就派出了“阵容强大”的贸易代表团,抵达北京谈判。谈判 2 天后,5 月 4 日美国代表团抛出一份清单,让中国政府答应他们的条件。清单内容如下:, , 要求中方削减 2000 亿美元的美国贸易逆差;, , 要求中国政府停止对《中国制造 2025》的补贴和支持;, , 保护美国的知识产权;, , 降低美国进口产品的关税;, , 扩大美国农产品的进口;, , 减少美方在中国的投资限制。, , 通过这份清单条款,美国的野心一览无余。看,美国多么霸道,多么贪婪,多么想进入中国市场。就这样谈了三轮后,美国还是决定发动贸易战。, , 4. 6 月 15 日的贸易制裁清单, , 6 月 15 日,美国列出了贸易制裁名单,在价值 500 亿美元的加税商品中,列出了 1102 项产品,但是其中 200 多项商品根本没有出口到美国。没有出口的产品,何谈加税呢?这多么可笑。但是,仔细阅读产品清单你就会发现,美国针对中国加征关税的商品类目不是我们的中低端制造,而是对标《中国制造 2025》的高科技产业。, , 我们先来简单了解一下《中国制造 2025》。2013 年,李克强总理邀请 150 余名院士起草了《中国制造 2025》报告,该报告主要描述了未来十年中国制造业的规划路线。经过三年努力,2015 年报告出台,报告提出了下面三个变化。, , 1. 中国制造向中国创造转变, , 比如苹果手机是中国制造,但不是中国创造,它的创造者是美国的乔布斯和苹果公司,而华为手机就属于中国创造。, , 2. 中国速度向中国质量转变, , 过去我们的经济发展一味追求速度,但产品质量不高。为什么中国人喜欢去日本购买电饭煲呢?我们能不能自己研发电饭煲,和日本商品质量一样,而且价格更便宜。这就要求我们由速度向质量转变。, , 3. 中国产品向中国品牌转变, , 以丝巾为例,过去中国生产的丝巾在市场购买只需要 100 元,但是从法国或者意大利进口一条丝巾,在中国的售价是 5000 元人民币,为什么价格相差这么悬殊呢?主要是因为中国出售的是产品,而别人卖的是品牌。, , 《中国制造 2025》规划旨在推动中国从制造业大国向制造业强国转变,最终实现制造业强国的目标。该规划涉及十个重点领域,包括新一代信息技术产业、高档数控机床和机器人、航空航天装备、海洋工程装备及高技术船舶、先进轨道交通装备、节能与新能源汽车、电力装备、农机装备、新材料、生物医药及高性能医疗器械等。, , 这十大重点领域涵盖了机器人、新能源汽车、飞机、航天航空等战略新兴行业,而这些行业触及了美国核心竞争的领域。很明显,《中国制造 2025》规划的发布昭示着中国科技发展的决心,给美国带来了巨大压力。, , 事件到这里就很明朗了,美国已经把这场贸易战升级到了更高一级的战场——跟中国打科技战。换句话来说,日后中国的高科技产品出口到美国,就要多交 25% 的关税,言外之意就是美国不允许中国的高科技产品出口到本土,不开放高端产品市场给中国。一句话,我们不欢迎你来。, , 我们再往回看,从制裁中兴开始,到三次贸易谈判提出的诉求,再到 6 月 15 日列出的加税清单,美国做的每一件事,针对的都是中国高端产业。说白了,美国就是不想让中国在高科技领域和它竞争,不想让中国赶上它、超过它。, , 最近我们经常听到一个词——5G 时代。简单来说,5G 是第五代移动通信技术的简称,它的网速远远超过 4G,甚至可以达到万物互联。, , 2G 时代欧洲领先,3G 时代日本领先,4G 时代美国领先。美国在 2010 年赢得了 4G 竞争的红利,大约有 470 万个工作岗位源于 4G 无线产业,这部分收益每年为美国经济贡献 4750 亿美元,可想而知,这是多么大的产业。但是在 4G 技术的应用上,特别是在电子商务和移动支付上,中国实现了弯道超车,成了世界最大的移动支付国家。我们买票、订餐、打车、购物,都通过网络完成,电子支付几乎涵盖了生活各方面。, , 据预测,5G 最大的应用市场将出现在中国。 5G 时代来临,百度、阿里、华为、中兴这些公司都将迎来巨大商机,而美国很可能出现逆转,中国极大可能实现弯道超车,掌握 5G 的主导权。所以美国选择提前和中国打一场科技战,阻止中国掌握 5G 的主动权。, , 目前全球只有 4 家 4G 和 5G 的设备供应商,美国有两家,中国也有两家——华为和中兴公司。试想一下,把这些因素加起来,如果美国失去 5G 的主导权,他们该有多害怕?, , 有位美国学者做了一个比喻,把这种担心表达得淋漓尽致。他说:“现在全球就像一个大赌场,美国是庄家,发的筹码是美元。中国人一开始在赌场里打工,做服务生,负责端茶倒水、擦桌扫地。但他们赚钱后不消费,而且什么活都要干。一开始,中国人搞服装、鞋帽、袜子,之后搞家电,后来又搞汽车,汽车搞完又搞高铁,再后来又搞 IT、飞机。照他们这么搞下去,美国人不是没饭吃了吗?”, , 尽管这是一段调侃,我们也能从中窥探到美国打这场贸易战的真实目的——不让中国在高科技领域与其竞争。美国千方百计限制中国高科技产业的发展,要在萌芽状态就扼杀中国高技术产业。更何况,美国这种打法早有先例,它曾经通过打贸易战撂倒了世界第二大经济体——日本。究竟美国使用什么招数“干掉”日本的呢?我们将在下一讲揭晓问题的答案。, , -– ### 精选评论 ##### iLeGeND: > 赤裸裸的厚颜无耻 ##### **琴: > 霸权主义 ##### **松: > 娓娓道来 引人入胜 棒
本课时主要讲解 Java 性能优化有哪些可以遵循的规律。
这一讲我将带领你学习点评CAT(Central Application Tracking),为什么会以“老牌”和“经久不衰”来形容点评 CAT 呢?
首先,从时间上看,CAT 首个开源版本是在 2012 年,此时期与 APM 相关重大事件有:
为什么在讲流计算之前,要先讲异步和高并发的问题呢?
其一,是因为“流”本质是异步的,可以说“流计算”也是一种形式的异步编程。
其二,是因为对于一个流计算系统而言,其起点一定是数据采集,没数据就什么事情都做不了,而数据采集通常就会涉及 IO 问题,如何设计一个高性能的 IO 密集型应用,异步和并发编程既是过不去的坎,也是我们掌握高性能 Java 编程的基础。
在前一篇文章中,我们讲解了云原生(Cloud Native) 的相关概念,以及它是如何重构互联网产品开发模式的。我们知道云原生不是某个单独的技术,而是技术与管理方法的合集。为便于你在正式了解实践云原生架构的方法之前能有一个系统性的思维,今天我们将继续“云原生”这个话题,介绍云原生基础架构的组成部分,以及构建出来的云原生应用的特征。
上次课程中我介绍了 Netty 的功能特性和优势,从今天开始我们正式进入 Netty 技术原理的学习。
学习任何一门技术都需要有全局观,在开始上手的时候,不宜陷入琐碎的技术细节,避免走进死胡同。这节课我们以 Netty 整体架构设计为切入点,来带你明确学习目标,建立起 Netty 的学习主线,这条主线将贯穿我们整个的学习过程。
你好,我是周爱民。
在前端的历史中,有很多人都曾经因为同一道面试题而彻夜不眠。这道题出现在 9 年之前,它的提出者“蔡 mc(蔡美纯)”曾是 JQuery 的提交者之一,如今已经隐去多年,不复现身于前端。然而这道经典面试题仍然多年长挂于各大论坛,被众多后来者一遍又一遍地分析。
你好,我是韩健。
提到 ACID,我想你并不陌生,很多同学也会觉得它容易理解,在单机上实现 ACID 也不难,比如可以通过锁、时间序列等机制保障操作的顺序执行,让系统实现 ACID 特性。但是,一说要实现分布式系统的 ACID 特性,很多同学就犯难了。那么问题来了,为什么分布式系统的 ACID 特性在实现上,比较难掌握呢?