您现在的位置:新闻首页>技术

“AI主播”跨越拟真技术“恐怖谷”,或将带来电

2018-11-23 11:33编辑:AI发烧友人气:


  11月8日,新华社和搜狗在乌镇峰会现场发布的“AI主播”可以说是确确实实地在全世界范围内引起了反响。

  有些国内产品会找一些“不入流”的外文网站出稿,假装获得了“全球媒体”关注,但这次的“AI主播”不在此列。CNN、BBC、The Verge、CNET、南华早报等都在主要的版面给了这两位“主播”一席之地。

  这倒并不是因为新华社版“AI主播”在技术上有多先进,而是说,更多是因为一个国家级主流媒体运用虚拟主播技术,这项举动本身具有强烈的象征性意义。

  就像之前曾经被沙特授予“公民权”的那位女性机器人“索菲亚”一样,“她”也不一定是当今世界上技术最先进的机器人,只不过是说这件事情可以成为时代进步的一个强烈的隐喻。

  两位“AI主播”的外观和声音是分别取材自新华网络电视(CNC)中文台和英文台的两个主持人,其中被广泛传播到全世界的演示视频,是以新华英文台的主持人形象示人的英语“AI主播”所播报的一则关于进口博览会的新闻。

  在这则两三分钟的新闻当中,还是不可避免地出现了比较低级的失误:将阿里巴巴创始人马云的名字“Jack Ma”误读成了“Jack Massachusetts”,这是因为语音合成系统读到这部分文字稿的时候,判断“MA”两个字母是美国马萨诸塞州的缩写。

  在很多情况下,需要读到美国某个小地方地名的时候,就需要把“MA”理解为“马萨诸塞州”,但预防此类问题,既可以通过将“Jack Ma”一词特殊化处理,也可以通过将美国地方地名特殊化处理的方法来化解。在对外演示的视频中出现这样的错误,恰恰证明了新华社和搜狗并未针对主播们的“处女秀”而对演示“弄虚作假”,完全是以真面目示人。

  世界各国媒体在观察这对“AI主播”的时候,都说“他们”暂时还没有实现新华社本身所宣传的那样,能够百分之百的替代真人的效果,同时还是被卡在了所谓“恐怖谷”当中。也就是说,当类人形象的拟线%以假乱真的情况之下,会产生一种不自然的机械感,甚至会令人毛骨悚然。

  早几年,人们都是在达到“恐怖谷”级别后,稍微往后退缩一点,即进一步的增强机器与人之间的差异,用一个本来就知道是机器人,或是卡通形象的脸,就可以规避让人害怕的麻烦,也创造出初音未来,或是“会说话的汤姆猫”这样的角色。

  因此,早在大概2013-14年,使用机械声音味道很浓重的合成语音,加上明显不像是真人的卡通形象,替代人类去做一些资讯播报的做法,已经在普通的电脑和手机用户中普及泛滥。

  在YouTube上,世界各国的上传者为了争取(骗取)点击和贴片广告费,会在一些突发新闻出来的时候,抢着发一些“混淆视听”的视频内容。最开始,网上可能只有图文消息出来,暂时还缺乏电视台或广播电台的真人播报录像,或者这些录像会因为版权问题被清理掉。那么,这一段时间之内如果有人去YouTube试图寻找新闻报道,就会遇到一个“空窗期”。

  做假视频内容的人会将图文报道贴入“谷歌翻译”等文本转语音(TTS)软件,生成配音,再把随便什么地方找的配图一搭配,辅以花花绿绿的字体,最重要的是配上“突发新闻、最新报道、现场直播”这样的有利于搜索引擎抓取(SEO)的标题,本来想看电视台报道的观众就会遇到这些招摇撞骗的垃圾信息,从而上当受骗。

  大家宁可表现得像‘面瘫’版喜羊羊,也不愿意冒产品滞销的风险,向着真正像人一样的终极目标迈出那一步。”

  新华社和搜狗共同努力做的“机器人播报员”,却并没有选择一个卡通卖萌形象充数,而是鼓起勇气,用真人建模,再一次对“恐怖谷”发起了勇敢的冲击。

  这并非巧合——2018年,多家企业的同时起跑和开源解决方案的涌现,标志着用技术模拟真人的简单化、普及化进程已经拉开序幕。

  在图像技术方面,主机游戏的机能和图形引擎一同进化,可以在光照、皮肤、毛发、布料等方面达到媲美真人的效果,而动作捕捉和实时渲染技术可以加速数字影像生成的进度。

  而最为著名的开源方案Deepfakes更是以“换脸术”为人所知,Deepfakes在Reddit和PornHub等地引发了一场“狂欢”,直到被平台禁止之前,人们疯狂地把女明星的脸“P”到色情影片女主角的身上。

  此后,Deepfakes进化为在任何PC机都能运行的FaceApp,借助它作为后期处理,有人做出了奥巴马骂特朗普是“笨蛋”的一段视频,这段录像现实中并未发生过,完全是“AI对口型”的产物。人工智能资讯

  在声音技术方面,进步更快。“AI主播”跨越拟真技术“恐怖谷”谷歌的“谷歌助手”、微软的“小冰”都可以实时生成流畅的语音,跟真人“打电话”聊天,或者充当AI客服。高德地图的各种明星语音包已经投入商用三四年了。

  而今年1月央视纪录频道播放的纪录片《创新中国》,邀请科大讯飞对2013年去世的著名播音员李易声音建模,完全使用合成的“李易原声”为纪录片做了配音。讯飞在圆满完成任务的同时,还借此拥有了李易老师的声音库。

  可以发现,图像和声音拟真技术的齐头并进,都是沿着这样一条确定的路线行进——先做出来,再一边效果调优,一边降低成本,提高效率。

  本次搜狗在“AI主播”案例中演示的实时合成技术,以及前几天猎豹移动旗下“猎户星空”展示的超快速“真人语音包”建模技术,都同时说明了,在效果上暂时无法取得决定性突破的同时,AI拟真技术在成本和效率方面进化神速,基本可以做到“实时生成”和“任何人都可以生成”。

  虽然现在的主播仍然呈现动作僵硬,语音语调不协调等问题,但任何一个报道这件事情的国内外媒体其实都心知肚明,这是AI向真人进攻路上的一个里程碑或标志性事件,但绝对不是一场努力的终点,而在未来还将会以更快的速度进化。现在这些小问题将会逐渐被攻克,直到屏幕上主播的表现和真人没有什么区别。

  全球媒体报道新华社率先上岗“AI主播”的时候,也有各种各样的担忧,但首先都给予了肯定。最重要的一点是,官方媒体率先垂范采用这类仿真技术,有助于自上而下地对抗“假新闻”。

  即使是上面所说的粗制滥造的假新闻视频,对于一些信息闭塞地方的人来说,可能已经是足够“说服”他们的。不同人分辨信息真伪的能力是有区别的,有些人可能会始终分不清什么才是真正的电视台播报,而因此影响他们的政治倾向,投票结果,或造成财物损失等等。

  诸如为“换头”这种对AI拟真的滥用也值得担忧,这当然不是因为它们不符合对“真实”的追求,而是有可能会成为网络暴力的起源,或者是分手后报复性羞辱前任的手段,影响当事人的正常生活。

  从这个角度上来说,像新华社这样正规的官方媒体,先行一步采用机器人朗读方式,就可以在突发事件传播中占得先机,抢在“谣言”的前面到达社会公众。

  牛津大学计算机科学教授伍尔德里奇(Michael Wooldridge)在接受英国广播公司(BBC)采访时提到,,或将带来电视新闻事业的革命性变化在很多时候,新闻播音员都是社会高度信赖的公众形象。“如果你看着一段动画,你将完全失去和主播之间的这样一种联系。”

  在中国,《新闻联播》的数位主播被誉为“国脸”,有说他们换发型都需要组织批准。在发达国家,主播不仅仅是照本宣科念稿子的人,他们会作为整个媒体公信力的一部分,一个典型的象征而存在。所以各大媒体的首席主播,往往是最赚钱的媒体人之一。

  《南华早报》统计称,在美国的主播薪酬排行榜上,CNN的安德森·库珀(Anderson Cooper)以年薪1亿美元排位第一,而美国广播公司的戴安·索耶(Diane Sawyer)以及福克斯新闻的主播肖恩·汉尼迪(Sean Hannity)以年薪8000万美元并列其后。

  上面提到的王牌主播,都是从地方台记者开始一路晋升的,而不是像中国这样,拥有一个“播音主持”的专业学科,播音员、这是我们想让大家体验一下患有青光眼、黄斑病。主持人和记者、编辑之间是区分的很开的,前者几乎没有经过任何采访方面的训练。

  欲戴皇冠,必承其重。对国外主播们来说,他们不仅仅要对自己所宣读的文本内容负责,而且还要在一些独家的,原创性的采访当中,展现自己作为一个记者的才华。主播们如果有内容后来被验证为错误,或者有不适当的言行举止,都会受到严重的惩罚,断送职业生涯。

  这从美国全国广播公司(NBC)两位新闻主播的陨落上就可见一斑。2015年,晚间黄金时间新闻节目长期培养的主持人布莱恩·威廉姆斯(Brian Williams)因为在一档伊拉克战争随军采访中夸大其词,虚假描述了自己随军报道的角色,导致公信力丧失,被雪藏半年之后降格来到MSNBC频道的政论节目。

  2017年11月美国兴起 #MeToo 运动期间,至少三位NBC女员工举报早间节目《今日秀》主持人马特·劳尔(Matt Lauer)性骚扰,劳尔“闪电”离开主播台,现在处于销声匿迹的状态。

  有血有肉的、人格化的主持人对电视媒体的重要性,由此可见一斑。他们是媒体公信力的一个重要的组成部分——至少现在是这样的。

  部分国外媒体因此担心,以假乱真的AI主播上岗后,可以“想让他说什么就说什么”,而不用担心有真人主播“闹情绪”,不配合。不过,如果他们在中国呆一段时间,应该就知道他们其实想多了。中国的新闻播音员现在承担的角色,跟只字不差的AI还真差不了多少。

  在中国,虚拟主播的存在,倒是的确可以帮助一些预算上不充裕的电视台,让他们把“好钢用在刀刃上”,通过更精简的预算,实现一些原来在全国性大台才有条件实现的项目——例如开设24小时不间断的新闻台。

  很长一段时间,全国范围内只有中央电视台拥有一个24小时的新闻频道,加上少数沿海省份能收看到香港的凤凰卫视。国内的几家电视台也曾或多或少有过“新闻立台”的心思,但是很可惜都没有坚持住。

  上海是各地电视台中做新闻最成功的其中一家。2016年7月,上海文广推出“看看新闻”客户端和配套的24小时新闻频道KNews24,除央视之外,第二个建立起24小时不间断的新闻频道。但是该频道只能通过机顶盒和网站等OTT形式播放,不能上星及进入有线电视网络。受到资金和人员的限制,该台也只能在上下午新闻之间的空闲时段,采用实习播音员坐镇口播新闻,其他时间段都是重播。

  最近,KNews24频道更是干脆取消了在非东方卫视新闻时段以外的主播坐台直播,改以重播节目《看东方》等当日已播出的新闻片段,以及短视频剪辑等代替,不复当年24小时新闻台的风采。

  此外,奇虎360也曾在与北京广播电视台合办的“北京时间”网站,开设一个专门在网络播出的新闻频道,回放北京卫视和北京新闻频道的一些节目,最近该频道也下线了。

  所以我们完全可以想象,一旦新华社和搜狗推出的这一虚拟主播技术,推广到全国一些省市甚至是地方台,他们就可以用非常低的成本,开一个服务器,就实现24小时不间断的播报本市及全国新闻的目的,为自己家的融媒体“中央厨房”再增添一道菜,也不费什么事。

  我们很容易想到真正的播音主持专业学生和老师们,听到“AI主播”的消息时,内心当然是拒绝的。但他们可能多少都已经有了心理准备。早在《创新中国》复原已逝的李易声音时,播音圈里已经有过讨论。乐观者如丁龙江先生,他是中国传媒大学播音主持艺术学院口语传播系主任。他说:

  “《创新中国》模仿李易音色智能解说,虽走出可喜第一步,但仍处于句法关系层面的逻辑重音处理,距离播音学掌握的重音表现手法尚且差距很远,更别说落实话语本质的内在语。人在表达沟通上使用语音幽渺难知,估计得量子计算。我们等着那一天。”

  但不到一年时间,新华社“AI主播”已经不需要人工修音,在自动实时生成的基础上,效果也正变得越来越好,因此播音主持从业者也很难再保持平静。有一位老师的朋友圈写道:

  “今晚因为这个新闻,朋友圈的气氛有点低,大家都有点担心AI会取代主持人的岗位,有学生说要没饭吃了,心里慌慌的,也有人说AI不能做现场报道,不能处理突发新闻。”

  “主持人行业近年来本身发展进入了瓶颈期,不可否认,AI播报员的出现会给这个行业带来冲击。毕竟,写几个代码就可以超越你大学四年苦练得来的好口条,谁不恐慌?这就给播音主持的教学和人才培养敲响了警钟。传统的人才培养目标和教学,很快就不适应市场的需求了,得做好变天的准备,这个时间或短或长,只要这个行业不那么坚守阵地,也许明天,也许明年。”

  确实,中国的播音主持培养体系,应该从此开始有一个根本性的变化,也向世界各国的实践看齐,从前方记者中出人才。我们播报新闻的人,也应该具有自己的“自由之精神”和“独立之思想”,才能区别于一个“念稿子的机器”。他们需要从现有的有快速反应能力的记者队伍当中遴选出来,他们应该做一个现实生活当中的多面手,而不是只会以端正的坐姿完成任务。

  兴许,在技术的倒逼之下,中国的电视新闻事业,将有可能会比全世界其他任何一个地方,都更多、更快的迎来革命性的变化。

  第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「AI发烧友」或者「taimeiti」,或用手机扫描左方二维码,即可获得AI发烧友每日精华内容推送和最优搜索体验,并参与编辑活动。

  经检测,你是“AI发烧友”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。

(来源:未知)

织梦二维码生成器
已推荐
0
  • 凡本网注明"来源:的所有作品,版权均属于中,转载请必须注明中,http://www.ai278.com。违反者本网将追究相关法律责任。
  • 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
  • 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。






图说新闻

更多>>
它不同于过去的车联网市场

它不同于过去的车联网市场



返回首页