人工智能与人工智能创造在儿童发展领域应用的探索

  微软(亚洲)互联网工程院人工智能创造事业部徐元春总经理

  徐元春:非常感谢大家,今天非常高兴来到这里,特别谢谢蔡书记的邀请。这次活动之前听蔡书记讲其实在0-3岁儿童的早期教育方面我们并没有说特别针对性的技术和解决方案。但是蔡书记特别邀请我们说,能够整体性的介绍一下人工智能技术在这些可能相关或者相关联的领域我们正在做什么,有哪些新的技术可以供大家借鉴和参考。这些我觉得也挺有意思,刚才包括上一次活动包括这一次闻总讲完之后我觉得还是很有体会,我们的确可以用技术为这个世界带来更多的一种可能性。

  谈到人工智能大家想的就比较多了,不管前一段时间大家看到自动驾驶、图象识别等等很多很多,它的品类非常多。但是涉及到这里,我们不用全部的介绍,涉及到几个方面,涉及到其中可能最重要的方面就是我们关于人工智能想象,其实所有人工智能科学家他们很多时候的灵感真的是来自于电影编剧的创造力。大家看看这些描述人工智能未来得想象电影,你会发现有一个共同点,第一点首先这里所有的机器人都特别聪明,我们的科幻电影里从来没创造过笨的机器人,而且一般都比人还要聪明,这是第一点。第二点我们在创造这些机器人的时候,至少在想象里你会发现这些机器人开始慢慢的拥有人类的感情,比如像《超能陆战队》大白,它会关心你;《星际穿越》里的机器人你可以调它的幽默感,不是说明编剧想象力多高,而是人类关于人工智能的终极想象里面,情感代表着非常重要的成份。为什么?因为只有情感的机器才能满足我们对未来生活的向往。

  全世界科学家研究人工智能的时候有两条路,终极梦想都是一样,让机器具有IQ又有EQ,先做智商还是先做情商?科学家有不同的选择,终极目的是一样。有些科学家和科技公司觉得应该先让机器拥有超越人类的智商,比如它更聪明,它可以开车,它可以做很多可以超越人类的事情。也有科学家说这些机器拥有智商相对比较容易,最难是让它去模拟人类的情感,让它拥有人类情感的温度,这是另外的,这是不同的大家所选择走的路线。

  中国微软曾经尝试过另外一条道路,让机器模拟人的情感,产品技术有一个结合体就是微软小冰,今天不是为了介绍她,我们就快快说一下。

  目前为止小冰我们做了她很多情感的交流,但是目前已经在五个国家,接近已经有14个平台上线。我们特别自豪的说她和人类的对话量现在已经超过300亿。这个跟我们今天婴儿论坛没关系,产品用户是十几、二十几岁,服务器每天晚上十点迎来快速的增长,凌晨一两点达到高峰。

  我们知道全世界各地年轻人什么时候寂寞,寂寞到找不到人聊天,要和机器大量的交互。大量的交互过程中,人会慢慢把他的情感灌输到机器身上,把她当成一个朋友。她会在各个地方都会有很多社交媒体的足迹,发一条微博下面有几千条评论。前年的时候房山下大雨,一个女士的车牌被雨冲走了,然后给机器人发了一下,然后机器人自动回复:来吧大家帮忙找车牌。两个小时之后那个女司机发一条微博说我不找车牌了,不要再找了,因为所有都在下面问她在哪丢的车牌。

  这个人工智能的交互在一个纯粹与自然和情感为条件的状态下,她会达到什么样的状况?我给大家看看使用我们技术硬件的一个视频。

  (播放视频)

  这个不给大家全放完了,大家家里可能不止买了一个人工智能的设备,可能各种各样的设备,,今天买的很多东西里面大家会用到比如说您好,帮我把灯打开,前者更是命令的方式,是完成让机器更多完成一个又一个的任务。我们设计所有人工智能交互系统的时候,我们希望她的对话和交流方式跟我们今天人类是一样的。我今天和蔡书记说话,不会讲您好蔡书记今天会几点开始?蔡书记说下午1点半,蔡书记是在三层吗?是在三层。不是这样子。所有科技公司投入这么大力量研究人工智能,相信整个人机交互里面经过第一代图形交互界面,第二代以搜索引擎为主的页面交互,马上迎来第三代人工智能交互。什么是人工智能交互?人工智能交互时代里大家看钢铁侠电影里面,所有都是通过人类自然语言交流实现,实现这个过程基础上要克服很多的障碍,比如语音识别、自然语言理解和语言输出。当然现在很多科技公司都会讲说我的语音识别率有多高等等,科技界的语音识别率从96.7%开始基本上已经到达了那个边界。因为我们人都无法识别超过96%的,但是语义自然语言理解这里最重要的过程,自然语言理解怎么理解?给大家举个例子,比如见到人类说这个“女神”经常来这里吃饭,这个“女神经”常来这里吃饭。这两句话从语音识别角度来讲都会识别出一模一样的文字,人类语言里面代表完全不同的语义和意图。

  我们经常讲做人工智能包括把人工智能应用在各种应用场景里面,不止它的硬指标,还有它背后自然语言理解这部分最重要。否则所有说的一切都是凭空和造梦,都是泡沫。这是为什么微软在这么多年里,包括我们去持续投入技术,包括做微软小冰让她跟大家交流。只有这样才能去学习人类的自然的语言交流和意图的理解。

  除了我们刚才讲到交流这部分,我们还尝试让机器去做一些跟创作力有关的东西,包括什么?我们今天可以让机器从事不管是词曲创作、对话还有有声读物还有电视内容创作等等。这些在婴幼儿教育也有借鉴和参考,给大家看看。举个例子诗歌创作,这是我们去年做的一个项目,让机器学习从1920年开始519个现代诗人作品,每6分钟学习一遍,学习一万遍之后,机器可以开始进行创作了。它的能力模型不停迭代,今天上线已经第四代了,今天这个技术是一个公开的技术,可以在微软小冰微信平台里跟她讲写诗,她给你推出一个链接,您可以链接现场尝试它给你创作诗歌。我们目前为止用这个工具为中国的人民群众每上传一张照片创作一首诗,创作了2000万+首诗。我们经常讲模型不停的迭代升级之后,我们在去年这时候跟中国作家协会的论坛当中,中国作家协会副主席曾经生动描述他对这件事情的感受。我们第一代模型推出之后,中国的诗人很生气,他们就各处开研讨会批判,怎么可以让机器写诗,这是没有灵魂的事情。后来发现后来写的比第一代好,到了第三代的时候中国作家协会副主席说其实已经比90%的诗人写的好,至少在文字方面。

  我们想说这个能力并不是我们写诗或者诗歌可以被机器创作出来,所有文字的东西通过机器大量的学习它是可以被创作出来。今天对大家来讲小学生的作文或者各种各样的文字的东西,同样的道理,今天的诗歌这种创作能力也可以反过来用作教育。我们今年6月份的时候把这个能力面向全世界开放说允许机器和人共同创作,机器先写完一部分,人类再进行创作,我们下个月会出一本诗集是机器和人共同创作的。南京一所小学四年级小学生做了一次实验,小学生在上面改诗,然后再发表。后来整个那个小学形成了创作诗歌的热潮,诗歌创作门槛被降低了,大家都可以学习创作。我们可以理解如果让一个小孩子去尝试一些有难度的东西的话,让他一开始就做非常难度高的东西,这可能是一个特别大的门槛。但是如果你让他一点点尝试,有了机器帮助他的话,这可能从某种角度来讲是一个捷径。或者他可以把他更多的诗歌创作方法和能力传递给小朋友。

  音乐创作我们不说了,后面我们有一段语音的介绍给大家听听。我们听一下这首歌,这是我们给山东卫视演唱的一首歌叫《幸福出发》。我们做这个东西的目的不是让它唱整首歌,而是验证机器今天去模拟人的声音,我们正在帮中国几个唱片公司做他们歌手虚拟化的项目,虚拟化的项目到什么地步?让机器重新做完这个歌手的歌发回去给他们,他们CEO说我们歌手从来没唱过这首歌,唱的不好吗?不是,这是是机器做的。

  今天我们认为一些好的资源,好的声音的资源同样它可以低成本被用来教育工作。过去很多东西大家认为不合适,机器的声音度、自然度太低,当自然度太低的时候,达不到一定的标准。这是为什么他们对人的声音特别的敏感。把声音的技术,如何去考验一个声音的技术的实施程度或者成熟程度呢?我们在音乐领域之前包括教育领域之前,尝试另外一个垂直领域就是在广电领域,让广电领域用机器的声音,用这种技术去制作广播和电视的节目。到目前为止我们已经在大概超过49家广播和电视台,生产了1868个小时广播电视节目,这几乎大概是等同于中国如果在广播电视局公司里面能排到前十位的位置。同样这种成本几乎只有人类制作团队4.5%,我给大家看它制作出来的效果。

  这里边其实生产大量的广播电视节目,上个月上海举办中国广播大会上,用我们技术,一共有三家获奖,用我们这个技术,今天你生产广播节目成本将会非常低,能实现一边听广播,一边和广播的主持人进行实时交流。

  同样道理我们上个月宣布我们拥有绘画和设计能力,我们和中国纺织工业协会推出第一代,由机器根据他们设计师设计主题的布料和服装进行创作,这在上海展示过了。

  文本撰写,我们讲说机器在文本撰写方面极致会达到什么地步?今天在中国我不知道大家炒不炒股票和买不买基金,中国金融市场95%的沪深两市其他主要金融摘要信息都是由机器生产,持续到目前为止已经8个月了,这是非常严肃的金融信息的生产。它的记录是非常高的可靠性和成熟度。

  我们讲讲今天跟教育主题可能是有一些相关的,我们刚才讲了文本生成,讲了声音。把所有东西都结合在一起可以做什么?我给大家看一下我们尝试的一个小小的东西。

  (播放VCR)

  大家刚才听到的这段音频是百分之百由机器生产,现在我们人工智能技术可以做到你只要把这段文字给机器,机器通过自然语言理解来判别这段故事有几个角色,为每一个角色分配声音处理不同的声音。同时根据这个角色讲的内容来决定她朗读的语气。最后我们为什么提出做词曲创作呢,整个这段背景音乐是机器自己生成。这里没有任何版权问题,全是机器自己生产。这里角度来讲,这里最大的变化在于说这个过程速度非常快,我们今天讲一个200小时格林童话人生产要读多长时间,机器来做17分钟就能做完。我们从去年的11月份开始到今年3月,每天找一些公版的有声读物放服务器里面,然后人就回家了,第二天早上回来机器生产完了,我们到现在已经生产了1680个小时的公版的有声读物。

  从3岁听到6岁,每天不停的听不重样也听不完。同时我们把这项技术给当当包括其他的出版社用来生产有声读物,整个有声读物的生产的效率和速度能得到极大的提升。喜马拉雅搜索小冰讲故事,我们把所有生产的东西都放在上面让大家去验证。这个技术的改变可能是改变我们对所有内容的生产的方式、生产的效率以及消费它的方式。生产效率和生产方式可以理解,今天可以让机器生产,机器可以低于人的成本。那什么是消费方式呢?这个生产技术流程我稍微说一下。在所有过程里面,你知道我们可以让机器不用线性生产,但是生产完了之后如果你要去检查的话,你也是要花一样的时间。一个20分钟故事不快进也要听20分钟。怎么解决这个问题?我们研发另外一套系统机器自我去审听多音字的错误。包括各种问题,我们做了免检,可以把准确率免检提高到97%,就意味着今天机器自动生产有声读物的质量能够超越我们今天在所有有声读物市场上,比如今天喜马拉雅上绝大多数的人类有声读物生产者读的东西,在准确率是要高于他们。当然这种技术永远不会替代今天人类社会最顶尖的有声读物生产者,比如今天在中国比如凯叔讲故事,凯叔生产的东西由导演反复策划包括后期修,我们比不了。但是大规模生产领域,技术其实现在已经没有问题。

  我们刚才讲改变了消费方式是什么?我们今年7月份推出了小冰童话工厂,你登陆H5之后,告诉机器你希望这个主角是谁?比如你们家孩子叫乐乐还是大熊,机器自动生产以他为主角的故事并把它朗读出来,这是第一版。我们刚刚推出第二版,不仅是他的主人公机器可以带进去,可以帮你带配角。我讲一个我们家多多和他养的一条狗大黄和玩具熊小花的故事,机器给你做了他们三个的故事,这个也是一个无限制的生产过程。我们现在准备推出下一代,就是小朋友在听故事的时候,同时可以打断机器。比如讲到了,你们家乐乐和大熊的故事,讲着讲着,刚才大熊说了什么,机器停了再重复大熊说了什么。

  设想的场景是希望最好的人类对小朋友的陪伴就是有人坐在这,你给我讲个故事,我给你讲个故事。刚才你那故事说到哪儿了,我再给你说一遍。这是我们最好的情况,但是实际上我们实现不了。包括整个今天这个社会都没有这么多时间和付出这么多成本实现这个。但是今天在机器和人工智能技术应用下,可以实现这种理想的效果。包括讲到乐乐和大熊坐飞机的故事,小朋友突然问了一下什么是飞机?机器给你讲讲什么是飞机。

  我们来看看它在这个故事里面是怎么应用的?这是现场的测试视频。

  我们在今年的9月份决定在教育部分里,根据他的对话和内容,在适当性,加入一份教育引导的内容,不是所有的。如果有小朋友有所回应的话,他会把这个东西抛出来。比如你讲毒苹果的故事,机器问别人给你的东西吃不吃?小朋友说不吃,我们认为这是正向的回答,可能给他别的奖励,再给他讲一个故事。交互的角度来讲,我们为什么进行大量的人机交互,那种交互积累起来的技术和经验,才能反向应用起最终跟教育相关的产品上。

  今天我们把所有这些技术来讲,其实它可以应用在很广泛的层面。我们今天刚刚提到说我们今天在儿童故事去讲,因为他有大量的文本分析能力。不仅可以给小朋友讲故事,可以让鼓励小朋友自己编故事。比如说机器完全可以同样做到说讲了一半,那么小朋友你问下一句该怎么讲?小朋友开始参与故事当中去。我们讲所有儿童在上一个创造力,磨合出来。不仅是单向提供,也同样反向用于教育。我们今天音乐作词作曲能力和教育能力同样也可以做到让小朋友自己哼一段,机器以这个作为主旋律,在这个主旋律基础上重新给他编一首特别短的儿歌。儿歌歌词可以小朋友自己创作,也可以机器帮着做。

  家长很自豪给别人看一段视频,这是我家小孩子自己作词作曲编的还唱了出来。同样有小朋友不停的看到他的成果被展现出来,会激发他很多的创作力。今天你不用让小朋友学钢琴,直到学到钢琴获奖才有自我激励,而是他自己就有激励认证他的成长。今天小朋友会买很多绘本,当我已经具备了绘画能力,意味着今天小朋友在一个电子版上无论画多简单的图形,机器都可以在上面帮他完善,变成偏绘本的一张画面。小朋友只要再尝试跟机器描述图画的文字再加上声音,这就是自己生产的电子绘本。

  同样的道理,今天很多家长没有时间陪小朋友,有些爷爷奶奶带的时候,和小朋友说的话并不一定是你最想让他说的。今天小朋友跟一个机器在定向约定的领域和范围领域的话,他可以实现大量的交流。有什么好处?不说今天中文的好处,如果把我们现在在美国同样的小冰的对话能力引入到中国的话,意味着今天你面对的是一个最纯正的本土化的一个英文老师。学不学会英语不一定,至少是在一个英文的环境里。技术上正在给我们带来一个特别巨大的一个空间,只要我们的路径选择对,产品化设计好,它会带来一个非常好的从产品的方向到设计以及到用户体验特别好的一个新的可能。

  我今天就给大家介绍到这里,谢谢大家。

还有疑问吗?请留下您的问题,15分钟内回答您!