第205讲__邵浩:人工智能新技术如何快速发现及落地(上)
文章目录
你好,我是狗尾草科技合伙人,人工智能研究院院长邵浩。从上世纪 80 年代开始,我们经历了技术飞速发展的四个时代,分别是 PC 时代、互联网时代、移动互联网时代,以及我们正在经历的人工智能时代。现如今,人工智能的新概念、新技术层出不穷,作为技术管理者,一个重要的能力就在于如何快速发现技术,并且落地到实际产品中。在本文中,我将跟你一起讨论人工智能新技术如何快速发现和落地。
人工智能技术现状及成熟度概述
简要来说,人工智能概念自从 1956 年达特茅斯会议上被提出之后,迄今为止经历了 3 个热潮。第一个热潮伴随着神经元模型、深度学习模型以及增强学习的雏形即感知器的提出和发展而兴起,但却由于适用性较窄而进入低谷。第二个热潮出现在上世纪 80 年代初到 90 年代,浅层学习算法如支持向量机、Boosting、最大熵等得到广泛应用,IBM、苹果推出的个人电脑也进入到普通百姓的家庭,但由于第五代计算机的失败和背离工业发展的方向的技术路线,人工智能再一次进入低谷。
2006 年,杰弗里·欣顿(Geoffrey Hinton)和他的学生在《Science》上提出基于深度信念网络(Deep Belief Networks, DBN)可使用非监督学习的训练算法,随后 2012 年,DNN 技术在 ImageNet 评测中取得了突破性进展,人工智能进入到新的热潮,围绕语音、图像、机器人、自动驾驶的技术大量涌现。
2017 年 8 月 20 日,微软语音和对话研究团队负责人黄学东宣布微软语音识别系统取得重大突破,错误率由之前的 5.9% 降低到 5.1%,可与专业速记员比肩1;谷歌在 2015 年提出的深度学习算法,已经在 ImageNet 2012 分类数据集中将错误率降低到 4.94%,首次超越了人眼识别的错误率(约 5.1%)2;DeepMind 公司在 2017 年 6 月发布了当时世界上最好的文本到语音环节的生成模型——WaveNet 语音合成系统;另外,截至 2019 年 3 月,由斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset)使用 BERT 的系统暂列第一,其 F1 分值达到 89.474。
每一次热潮都会伴随着媒体的大肆报道,在吊起广大民众胃口和期望值的同时,让大家产生一种错觉,认为人工智能马上要统治世界了。因此,在人工智能符号主义、连接主义、行为主义之外,又出现了一个叫“媒体主义”的分支,主要特点是哗众取宠,什么吸引眼球就写什么。至于我们当前正处于的人工智能第三次热潮,会不会由于强人工智能的难以突破,又一次跌入谷底,还有待观望。
如图,从独立咨询公司 Gartner 发布的最新技术成熟度曲线中,我们可以看出,脑机接口、知识图谱,以及通用人工智能技术都有了快速的发展,但强人工智能的极点何时出现,我们还不可知。
人工智能技术落地的种种困难
在简要介绍完人工智能技术的发展现状之后,我们来谈谈人工智能落地的难点。
2012 年之后,随着一波投资热潮,大量人工智能公司如雨后春笋般涌现,同时,政府也在人工智能上投了很多热情,以期推进智能化和产业升级。借此契机,大量传统的软件公司乃至文化公司,为了更快的融资和拿到政府的补贴,想尽办法为自己的产品和解决方案冠上人工智能的头衔。但实际上,人工智能的落地并没有想象的那么美好,媒体上经常看到的一些炫酷的案例,背后也都存在大量人工设计的场景和规则。甚至专门出现了一个叫做 P2V 的场景,全称是 PPT to VC。然而,随着 2018 年后资本热度的冷却,很多人工智能创业公司不得不转型寻求安全的落地业务,甚至有一些公司已经挣扎在倒闭边缘。
我们就拿最近很火又很难的技术为例,聊一下从技术到产品的落地痛点。
首先是自然语言处理(Natural Language Processing,简称 NLP)技术,所对应的产品在 C 端通常是聊天机器人,在 B 端通常是智能问答解决方案。例如狗尾草科技的公子小白智能音箱,以及小 i 公司的智能客服机器人等。
微软亚洲研究院副院长周明博士曾经提到,自然语言处理技术可以看做是人工智能皇冠上的明珠。尝试用技术模拟人类的真实对话,在开放领域就是个伪命题。因为人类的对话过程中,所表达出的信息,不只是文字本身,还包括世界观、情绪、环境、上下文、语音、表情、对话者之间的关系等。一句“今天天气不错”或者“你好么”所表达的意思可能是千差万别的。因此,目前聊天机器人还远远没有达到人类的期望值,给人的感觉也是人工智障。
但在一些特定场景下的聊天机器人和智能问答系统,却能够表现出令人满意的效果。比如 2018 年谷歌开发者大会上,打电话预约理发店的对话系统,就把场景限制在了预约理发店这个业务本身,通过有限状态机,以及大量的规则和数据,把这个特定场景做的看似天衣无缝。同样,在大型电商平台的客服机器人场景下,所涉及到的状态也是有限集合,因此,其效果也能做的比较好。
由于在开放域对话中,现有技术还无法达到人类预期,研发人员和投资机构又把眼光投向了近两年比较火热的知识图谱技术上。知识图谱的概念提出已久,谷歌在 2012 年提出了 Knowledge Graph 的概念,并通过知识图谱实现了“让搜索通往答案”的理念。
知识图谱的火热程度,从国内质量最高、参会人数最多的全国知识图谱与语义计算大会 CCKS(China Conference on Knowledge Graph and Semantic Computing)就能一窥端倪。CCKS 在 2016 成立之初只有 500 名参会者,这个数据到了 2017 年是 600 人,2018 年是 800 人,而 2019 年杭州的会议,预计参会者将突破 1000 人。
作为从感知智能到认知智能跨越的重要基石之一,知识图谱被寄予了厚望,但真正在落地上却鲜见成功案例。尤其是很多公司和地方政府机构在谈需求的时候,一上来就说,“我想用知识图谱技术,你们能不能把现在的知识库变成知识图谱?实现大数据的链接应用?”其实,知识图谱技术能不能应用,要综合考量多方面因素,就拿知识的表示和存储来说,选用不同的数据库,就需要用到不同的知识表示。RDF(数据的一种三元组表示形式)的数据表示可以选用 Jena 数据库,而图表示可以选用 Neo4j 图数据库。对不同来源的数据还需要进行大量的数据清洗和结构化,甚至还牵扯到纸质文档(例如医院病历)的手工录入。结合业务来看,很多时候传统关系型数据库就能解决的问题,完全没必要用到大规模图数据库,否则很容易导致整个项目成本高效率低的问题。
以上就是很典型的人工智能从技术到产品过程中的难点痛点,那作为技术管理者,面对如此现实,我们要如何快速发现新技术并将其落地到实际产品中呢?受限于篇幅,我将在下篇文章中与你分享这个话题,欢迎持续关注。
感谢收听,如果你觉得这篇文章对你有帮助的话,也欢迎把它分享给更多的朋友~
参考文献:
- W. Xiong, L. Wu, F. Alleva, J. Droppo, X. Huang, A. Stolcke, The Microsoft 2017 Conversational Speech Recognition System, Microsoft Technical Report MSR-TR-2017-39, arXiv:1708.06073v2, 2017.
- K He, X Zhang, S Ren, J Sun. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, arXiv:1502.01852v1, 2015.
作者简介
邵浩,TGO 鲲鹏会会员,日本国立九州大学工学博士。现任上海瓦歌智能科技有限公司总经理,深圳狗尾草智能科技有限公司合伙人,人工智能研究院院长,带领团队打造了聊天机器人产品“公子小白”及 AI 虚拟生命产品“琥珀•虚颜”的交互引擎。中国中文信息学会青年工作委员会委员,中国计算机学会 YOCSEF 上海学术委员会委员。研究方向为人工智能,共发表论文 40 余篇,出版了业内第一本聊天机器人著作,主持多项国家级及省部级项目,曾在联合国、WTO、亚利桑那州立大学、香港城市大学等任访问学者。
文章作者
上次更新 10100-01-10