原标题:左手百度右手富士康,这家公司要为你定制虚拟女友

智东西 文 | 寓扬

还记得老罗(罗永浩)在2016年的锤子发布会中特别感谢而又误读成“独角兽”的公司吗?没错,这家公司正是三角兽。也或许正应了老罗的话,随着语音交互的爆发,这家专注语义理解的人工智能创业公司也顺风而上,迅猛发展。

左手百度右手富士康,这家公司要为你定制虚拟女友-汇美优普

这家公司也有着异常豪华的团队阵容,其CEO和CTO都是技术大拿,浸淫行业多年,在最著名的两款语音助手微软小冰和百度度秘中都起到重要的作用。他们还将NLP(自然语言处理)应用在手机中,从而让手机更加智能化;还能打造带有性格和风格的虚拟助手,可以试想未来为你定制虚拟女友都不是事!

近期,智东西与三角兽创始人&CEO王卓然展开对话,看看这位扎身机器学习领域十几年的技术老兵有着怎样的创业故事?他眼中的语音交互行业又是如何?

初到三角兽的会议室,几张懒人沙发、颜色明亮而形状不一的桌椅呈现在眼前,给人一种清新明快、自由随性的感觉。通过与王卓然的沟通,可以明显感受到他清晰的思路、侃侃而谈,谈到尽兴出,再配上一声带有东北味的“哈呵哈”,显得十分有趣。

左手百度右手富士康,这家公司要为你定制虚拟女友-汇美优普

(三角兽创始人&CEO王卓然)

他推了推眼镜回忆到,本科在哈尔滨工业大学读通工程时,机缘巧合结实了计算机的圈子,大二便跟计算机学院的一个教授做自然语言处理相关的研究。

毕业后在2005年去英国UCL(University College London,伦敦大学学院)读博士,主攻的方向便是机器学习。博士期间他做了一个关于人机对话工作的兼职,便对这个方向产生了浓厚的兴趣,2009年毕业后就去了世界上为数不多的人机对话研究团队。

而当时世界研究人机对话这个领域的学者并不多,那时不仅国内这这块空白,国外的研究团队也很少,大约英国有几家,美国有几家,欧洲零零散散的有几家机构。王卓然笑称:“当时每年开人机对话的会议,全世界也就那么一两百人”。

之后他就去了当时具有悠久人机对话研究的爱丁堡的赫瑞瓦特大学,在那里做了三年多的人机对话研究。再之后他去了在英国剑桥的东芝欧洲研究院,担任人机对话组的技术负责人,带领团队做人机对话方面的研究。

从赫瑞瓦特大学到东芝研究院这一阶段,他研究的是人机对话中的跨领域迁移和泛化,具体来讲就是怎么把一个找餐馆的对话系统迁移应用到找电影、买东西等相关的交互场景。

而到了2015年初,百度启动了度秘项目,便邀请王卓然加入,做度秘中控的技术负责人。所谓的中控,是度秘下面有很多的服务,如找餐馆、找电影、闲聊、问答等等,一个指令来了之后,系统要决策由下面那个服务去满足,然后将信息呈现给用户。这种中控决策有点像搜索引擎的排序,但是需要考虑上下文信息、服务的相关性等更多因素,从而对整体服务进行排序和决策。

在度秘项目中,他遇到了人生中的一个重要人物亓超,就是三角兽现在的CTO,另一个技术老兵。亓超参与了第一代的微软小冰的打造,后来就被挖到了百度,又参与了度秘的研发,那时候还叫小度机器人,以闲聊为主。

但是在度秘项目上做了不到一年,由于一些内部原因,度秘中途转了几次型,跟他和亓超的想法不太一致。再加上他们对自然语言处理这个领域有很长的认知和积累,认为会是下一代的技术方向,于是二者选择在2016年初离开百度,出来创业。

%&&&&&%选择在2016年初这样一个时间节点创业呢?深处这个行业中的王卓然敏感的察觉到,在自然语言处理技术的成熟度上开始可以商业化了,而行业又有非常大的需求,因此就选择创业这件事儿。结果没过多久谷歌、微软、亚马逊等公司都开始陆续发布语音交互平台及产品,语音交互这个行业就火了。

左手百度右手富士康,这家公司要为你定制虚拟女友-汇美优普

(左起:创始人CTO亓超、创始人董事长COO马宇驰、创始人CEO王卓然)

由于王卓然和亓超都是技术出身,当时就邀请了在商务方面很有经验的马宇驰负责商务和市场。“正是有三位创始人,所以就叫三角兽”,王卓然戏称到。而这家公司与“三”的缘分远不止如此,还融了三轮资,有三块核心技术以及三大核心业务,真是巧了。

亓超从硕士阶段就从事自然语言处理的研究,在这个行业也做了十多年。先后在佳能腾讯阿里、微软、百度等都有任职,其中最出名的就是参与了微软小冰和度秘闲聊机器人的打造,应用的技术就是开放域聊天。

马宇驰则是王卓然的高中同班同学,传媒大学毕业后,一直在商务、市场、公关行业做了很多年,在奥美、安利中国等都做过公关总监、市场总监职位。他也是个连续创业者,后来加入三角兽负责商务业务。

在王卓然看来这是一个非常互补的创始人团队,“他和亓超尽管都是技术出身,但是在技术上也是互补的,亓超做开放域聊天,他做垂直领域对话,再加上马宇驰的商务能力,三角兽在技术和商务能力上就完美了”,他笑称到。

这三人就构成了三角兽的三只“角”,创业一年之内(截止到今年1月份)拿下3轮融资,分别为天使轮1000万人民币,Pre-A轮2000万人民币,A轮5000万人民币。

三角兽的下一轮融资也在进行中,下一轮融资的主要目的,一方面是布局市场、渠道,另一方面则是储备更多的现金流。“现在AI行业很火,趁风口多拿些钱准备过冬”,王卓然嘿嘿一笑。尽管当下语音交互火热,AI企业收到追捧,但是风总有停下来的时候,谁也说不准下一阶段AI行业会不会遇冷,做足冗余还是很重要的。

目前三角兽团队已经发展到90多人的规模,而在今年一月份才只有二三十人,其中北京有70多人,沈阳还有一个10多人的驻场开发团队。北京的团队中,算法工程师占了绝大部分,达到50多人,且技术人员多来自微软,差不多占到一半左右,其他的人员则来自百度、IBM、腾讯、乐视等公司,可谓豪华的技术团队。

左手百度右手富士康,这家公司要为你定制虚拟女友-汇美优普

三角兽签约和客户现在也已有20多家,以上市公司、各行业巨头、品牌代表为主,比如百度、阿里巴巴、腾讯、小米中国移动、锤子、华为等等,这也从侧面反映了三角兽在人机对话、语义理解这个领域中的实力。

针对人机对话这个广泛的话题,它涉及五大方面技术,包括问答、推荐、开放域聊天、垂直领域多轮对话、多领域对话。相对而言问答和推荐是比较传统的技术,比较成熟,行业在这方面做的都不错,技术壁垒并不高。而开放域聊天、垂直领域多轮对话、多领域对话则属于人机对话研究的前沿领域,技术门槛较高,构成了三角兽的“壁垒性技术”。

左手百度右手富士康,这家公司要为你定制虚拟女友-汇美优普

其一开放域聊天。所谓的开放域聊天就是闲聊,没有目的的聊天,我们常见到的产品有微软小冰和百度度秘。作为一种情感陪伴或者对话中的一种润滑,它可以让系统显得更智能,这块也是CTO亓超的核心研究领域。“之前的微软小冰和度秘都是亓超做出来的,在三角兽就是亓超第三次做了,相比前两款产品,三角兽的系统做了更好的上下文覆盖,还做了情绪识别,并且准确率已经达到99%是目前业内最高的”,王卓然如是说。

围绕着开放域聊天,三角兽做了两个版本的Chatbot(聊天机器人),一个是标准版,适用于成人;一个是儿童版,专门为儿童打造,目前已经上线相关平台成为一个付费Skill(技能)。

做儿童聊天还是很有挑战的,因为这块的语料是很难获取的,如果使用互联网中的语料(成人的语料)又是很“不安全”的,难免出现一些不良信息。三角兽则采用一种独特的方式,从儿童故事书、儿童字幕中抓取数据。但这个数据不是对话数据依然没法用的,三角兽便用这些数据训练一个模型,用它来过滤成人语料,并采用基于RNN(循环神经网络)的生成模型(而非检索式),来确保对话内容对儿童“绿色健康”。“这块产品去年就落地了,也是业界最早这么做的”,王卓然谈到。

此外,在开放域聊天的应用中,三角兽开可以对Chatbot进行风格和性格的定制。这块则是三角兽的独家技术,能够让虚拟人物聊天的时候体现它自己的性格。

第二块技术是垂直领域的多轮对话,它是任务驱动的,如找餐馆、找电影等,代表产品如智能音箱。三角兽在这个领域中有3块具体核心技术:第一项是垂直领域对话的泛化和迁移,就是把一个领域训练到的模型迁移到另一个领域,这块也是王卓然专攻的一项技术。另一项是模糊语义理解,用户提供的信息可能存在丢字拉字的情况,甚至错字的情况,机器同样能够识别,如《芈月传》火热时,即使用户说成“半月传”,机器也可以准确理解,找到电视剧。

还有一项是去结构化、轻结构化表示的技术。原来垂直领域的对话,依赖结构化的知识表示,比如电影有导演、演员、年份等这些结构化信息,可以用来找电影。但是如果你要找一个“男主角长得帅的电影”,这个信息没法用结构化表示。“针对这种情况,我们把对电影的描述和评论用深度学习做了向量化的表示,去匹配用户指令语义的相近程度,从而更好的满足用户回去内容的需求”,他指出。

第三块技术则是多领域的对话技术。比如,我订了餐馆,可能要导航去这里,中途可能会问交通情况以及周边相关信息等,这时就是多个领域融合在一起的对话,这就涉及到中控的工作。而王卓然曾以访问学者的身份参与了百度语音助手时代的中控,后来又在度秘做了度秘的中控,在多领域对话管理这块有着丰富的经验。

综上,开放域聊天、垂直领域多轮对话、多领域对话管理就是三角兽的三大核心技术,王卓然称之为“三大壁垒性技术”。

技术固然重要,但对于企业而言更重要的是把技术落地,服务于行业。三角兽也将其技术积极落地,目前其三个主要业务分别是:企业服务、IoT(偏智能家居)和泛娱乐业务。

其中,企业服务是三角兽市场收入最多的一块,目前已经做好两套标准解决方案。一套是智能客服,是问答、垂直领域多伦对话技术的落地,主要服务于电信行业、金融行业等大行业的大客户,为其定制专门的业务流系统,如中国移动、广发证券以及其他几个基金项目。

左手百度右手富士康,这家公司要为你定制虚拟女友-汇美优普

另一套方案是针对媒体的Chatbot,可以在媒体的公众号、App中上线,用户可以通过聊天的方式获取新闻,可以帮助媒体将相关历史新闻推送给用户,从而增加文章的阅读量以及用户粘性,如新世界。

IoT这块尽管现在很火,但是整体不起量,目前不是三角兽的主要收入来源,但三角兽还是很看好这个行业的前景,因此也做了很多产品储备。目前针对IoT中不同硬件主要提供Skill(技能)输出,如闲聊、新闻笑话等。三角兽销量最多的就是闲聊的Skill,包括标准版聊天和儿童版聊天,在Rokid、小米音箱、百度DuerOS中都有上线。

还记得前一段富士康扬言要做面向IoT设备的语音交互平台吗?三角兽也是其中的一个合作伙伴,并且是深度合作,富士康将整个后台的交互都交给三角兽来做,这等于在做一整套类似于亚马逊Alexa的完整的语义系统。并且王卓然透露,第一代的产品将会在今年年底或者明年年初推出。

第三块业务则是泛娱乐。科技公司要做泛娱乐?没错你没看错,这正是三角兽开放域聊天中角色性格和风格定制技术的落地,主要面向动漫、二次元、游戏AR/VR等,围绕IP打造更多元的产品。如可以打造一个虚拟角色,让它7×24小时的和粉丝互动,并且聊天中体现人设的预设风格,比如一个二次元的萌妹子就要有萌妹子的说话方式,而不能用大叔的说话方式。

左手百度右手富士康,这家公司要为你定制虚拟女友-汇美优普

这块聊天的难度还是很大的,目前市面上也很少有赋予Chatbot风格和性格的产品。王卓然谈到,这块技术的第一次落地并不是二次元IP,而是一家机器人IP,Jibo是一个美国机器人团队,他们在中国做本土化时,希望给他们的机器人定制一个美国男孩的性格特征。“目前三角兽也在和一些二次元IP谈合作,后续我们也会看到一些二次元角色的落地”,他透露到。

关于这三块业务,他也谈到,企业服务是最大的营收来源,仅智能客服业务就占到了企业营收的80%左右。而IoT业务因为市场没有起量,收入较少,合作业以标准服务输出为主,包括收取年费、流量分成或者按台收费(量大的情况下)等三种盈利模式。比如小米电视流量比较大,就采用了按流量分成的方式。而泛娱乐方面目前还没有盈利,但前景非常大,三角兽也会继续跟进。

最近随着苹果和华为的推动,AI芯片成为一个热议的话题。手机的竞争正从之前的网络营销、网络销售变成更技术化的比拼,在后互联网手机的时代,人工智能正成为核心竞争点之一。

9月初华为率先发布世界第一款AI芯片——麒麟970,紧随其后的苹果发布会中,苹果也推出了自家研发的AI芯片A11。通过二者展示可以看出,计算机视觉、自然语言处理、AR等成为AI在手机中的应用方向。

微信中一个典型的场景是,朋友喊你去某个地方吃饭,你需要复制这一段话,然后整体复制到地图中, 并且删减地址以外的文字,才能搜到地图中的位置。打车场景同样如此,这使手机中的操作显得异常麻烦。因此,手机中的真正的智能交互才刚刚开始。三角兽一直以来也在和手机厂商合作,将自然语言处理基础应用到手机中, 从而赋予手机更多智能。

代表性的产品便是老罗的锤子手机。还记得老罗在2016年锤子的新品发布会上兴奋展示的Bigbang 和 Onestep,就是三角兽提供的技术。Bigbang功能能够让一大段文字瞬间“炸开”,你可以随意选择你想要的文字,而这个炸开并不是随意的炸,是以自然语言处理为基础的。Onestep则实现跨场景跨App之间的联动,让需要多步的操作一步到位,从而大大提升效率。

就在前不久老罗扬言要打造新一代语音交互系统,相信三角兽的技术也会在锤子手机的新系统中得到体现。尽管他没有透露更多的信息,但他介绍了三角兽自然语言处理技术在手机中的潜在应用场景。

一个是当微信收到消息时,用户可能没有时间或者懒得打字回复,三角兽可以提供聊天回复的自动生成,自动提示回复内容。还可以通过对文本中的情绪分析,进行表情生成。再一个就是App之间的一步唤起,类似锤子手机中的Onestep,打通App之间的信息交互,从而让用户的操作更加便捷。

而这些背后都是三角兽的自然语言理解、聊天回复自动生成、情绪分析技术。王卓然谈到,这几个技术都有对应的产品,比如一键唤起,有一套完整的解决方案,目前和几个手机厂商在合作中。

语义理解在语音交互中是最难的一块,但限定场景和边界,就可以让人机交互的效果得到显著提升,即所谓的专有模型,那么由专有模型转换到通用模型的技术进展到哪种程度,其适用性又如何?

王卓然谈到,对话管理有两块核心技术,第一块是基于上下文语义理解的部分,理解用户的意图是需要限定场景的,需要针对某一领域去搜集数据进行优化,从而真正把握用户的意图,但它的模型是可以通用的,不同的领域都是分类、标注、寻找相关实体的一个过程,这个逻辑关系是可以泛化的。第二块是对话策略,对话不仅要机器去理解,还要机器去处理一个复杂的决策过程,这个决策过程不论是找餐馆、找电影还是找音乐,都可以理解成一个能够抽象的“找”的过程,抽象的逻辑在各个领域之间是通用的,这部分可以去做跨领域的迁移。

关于人机对话跨领域的迁移和泛化,王卓然在东芝欧洲研究院时就做过,是可以应用的,因此在这方面有比较早的积累。但是国内在人机对话方面起步较晚,真正专注做这个方向的也比较少。目前国内还处在人机对话的第一步——垂直领域对话,还没有进展到对话的迁移和泛化地步。

而针对虚拟角色性格和风格的定制的难点是什么?%&&&&&%三角兽可以做到呢?王卓然坦言,性格是很难量化描述的,语料来源也需要做很大的处理,使训练模型的语料能够体现虚拟人物的性格。但它并不是一个黑科技,而是一个基于常年积累的复杂的工程化的事情,需要对通用的回复做改写、做句子的自动变形、插入口头语、语序调整等等,如果对开放域聊天的每一个环节知识积累不够的话是做不了的。尽管如此,每一个虚拟角色都需要定制化,因此三角兽会更倾向于跟一些大IP进行合作。

此外,大大小小的会议上我们总谈语义理解是语音交互的核心瓶颈,那么这个瓶颈到底是什么呢?在王卓然看来,并不是每个场景的数据都好搜集,比如找电影这个领域的数据就好搜集,但是像儿童场景的数据就不好搜集。

所以这块瓶颈的突破在于,首先要有场景下的落地,才能搜集垂直领域用户的真实数据,用来优化模型,从而将领域相关的语义变成机器能够处理的语义,这是一个相互迭代的过程。

自然语言处理是一个知识积累和数据壁垒的过程,核心首先是把技术应用到更多产品上,从而拿到更多领域的数据,通过数据壁垒来提高技术壁垒,从而再巩固商业壁垒。而人机对话这几年刚刚兴起,进入日常生活,它需要一个积累的过程,就跟搜索引擎刚出来时,大家不做网页你也搜不到东西,是一样的道理。

在自然语言处理的应用场景中,王卓然更看好手机、智能客服、泛娱乐几个应用场景。

左手百度右手富士康,这家公司要为你定制虚拟女友-汇美优普

毫无疑问手机是一个十分庞大是市场,也是最为刚需的场景,AI芯片的出现则代表了手机真正智能化的趋势,上文已有详细论述。

而智能客服则是当下的“现金”行业,对大企业客户来说也是一种刚需,从而优化其业务处理,同时减少人力成本,许多做语义理解的公司都涉及该项业务。此外,王卓然还看好泛娱乐场景,尽管这是一个偏传统的行业,但毫无疑问每一个优质IP都具有巨大的价值,并且凝聚着大量粉丝,而这背后代表了丰厚的利润。

但当谈到智能音箱和IoT行业时,王卓然表现出了犹豫,他坦言“不是不看好,而是看不清”。在智能家居这个行业,他毕竟不是家居的制造商,在行业没有很大发展的情况下,他也只能观望,谨慎布局,毕竟作为一家创业公司,首先要考虑的是活下来。

至于智能音箱,他认为亚马逊Echo的成功有几个条件是在一起的,亚马逊本身就是一个平台,它收购了一系列公司,从硬件设计、语音识别、语义理解等整个链条都是自己做的;从体验上看,亚马逊把各项指标都做到了极致;由于自身是巨头公司、平台,又把价格控制在合理的范围内;并且国外还有客厅文化,是有应用场景的;这几方面加在一起导致了Echo的成功。

但是国内这几方面都需要论证,“智能音箱是一个新品类,能不能爆发,都是不确定的”。此外,他也谈到了小米AI音箱:“小米音箱至少有一个好处,价格控制的足够低,从设计到用户体验到价格都是不错的”。

针对近期不少公司推出语音交互平台,其中也不乏创业公司。王卓然则认为创业公司做平台可能会不太乐观,首先你要有平台的优势才能说是平台。尽管创业公司也可以做平台,但是做了平台谁来用?怎么获取更多客户?怎么直面巨头的竞争?不管你的产品做的多么好,在很多渠道、内容资源上,创业公司都是不占优势的。

然而三角兽恰恰也在布局平台,王卓然话语一转道:“既然做IoT市场,做平台是早晚的事,那么什么时间最合适呢?就是有一个大平台跟我们合作的时候”。这也解释了三角兽为何要和富士康一起做平台,有一个大平台的存在,确实可以大大降低投资风险,最差也是当项目做。

行文至此,我已然对三角兽团队有了更深入的了解。外表看这是一家风光无限的明星创企,有着深厚背景的创始人团队,以及来自微软、百度的众多优质人才。

然而这背后则是他们对自身技术落地的探索和尝试,只有落地才有数据,才能迭代技术,也只有落地才有商业模式,才能盈利。技术从来都不是高高在上,只有融入寻常生活才能焕发生机。而作为一家创业团队,生存又是第一位的。

透过这家公司,我们也看到国内的人机对话还处于早期,才刚刚起步,需要更多的人才和团队将技术应用更多的场景,搜集数据,迭代技术。正如王卓然所言“先把技术落地到产品上”。