“人景分离项目……”
叶晓奇心说,来了,认真的聆听状,对这个项目非常关心。
“目前遇到了一些问题,主要是由于图片集数据量不够,导致我们的在此基础上建立的特征库,识别准确度非常低下。同时由于美工设计师的不足,在人工剥离人像上也显得资源缺乏。”
“唉……”
叶晓奇心里轻轻的叹了一口气,到此为止,最关心的两个项目,都遇到了各自的困难。一个是自身的不足,自动化基因缺乏。一个是世界性难题,深度学习需要海量的图片,世界各国的数据集都还在建,imageNet的数据集也还很弱小,中生代的勤工俭学数据集计划也才开展没多久。
“所以针对这两个问题,我们基础架构研发部,一方面加大美工的招人力度,另一方面我们开辟了一个新的思路,那就是把包含人像的视频按帧拆分,作为我们的图片素材来源。”
“在此过程中,我们发现,通过对眼睛特征和嘴唇特征的综合表现,可以计算出一个人的情绪;通过眼睛和嘴唇的连续变化,可以得到一个人的情绪变化指数;通过唇形的连续变化,可以大致的知道这个人说什么话……”
正在失望之中的叶晓奇,震惊的问道:“你是说,读唇?”
霍蓓蕾拨了拨发梢,答道:“是这样的,没错,这将是我们后续的参考研发方向。”
“你是说,因为相应的图片集不足,所以你们就把脑筋动在了视频上。然后,就得到了这个东西?”
霍蓓蕾点点头,“没错。”
叶晓奇却感到有些凌乱,科研树发展基本方向不应该是这样的。
图像AI技术大发展是建立在imageNet的深度学习理论的基础之上的,深度学习得到的特征库是一系列相关计算的核心,而深度学习依赖海量的图片。
所以图片不足,你们就特么去拆视频?拆视频就算了,美工不足所以你们直接就把人脸识别那套搬过来了,结果大把的资源撒下去,人景分离还是没整出来,却发现了可以做情绪识别和读唇术?
这下总算知道刚刚香取绫汇报的大笔支出花在哪了……
真真的应了那句话:有心栽花花不开,无心插柳柳成荫
“准确率多少?”
任何图片项目都是有准确率作为标尺的,就以人脸识别来说,准确率低于50%的研究没有任何意义,商用阶段起码要拥有80%以上的准确率才行。
“情绪识别准确率高达64%,主要包括哭、笑、怒、乐、难过、伤心等词缀,目前还在进一步学习,因为分类决策比较少,所以这个学习进展非常快。唇语识别,目前仅限于普通话中文,我们主要是采用央视某套有字幕的节目进行学习的,经测试,对特定的几个主持人的口型识别准备率接近74%,而此类泛用视频的识别率……不足5%……”
74%……不足5%……
情绪识别抛开不提,单说唇语识别。
74%什么概念,就是一句话识别正确的字数到七成,就以“人类是低等植物”这几个字来说,可能意思完全相反,但是对人类来说,猜到它的正确意思一点困难都没有。而实际错误发生的地方都是随机的,也不一定会错的这么离谱,比如“黑灰花卉会挥发”这句话,就如同正常人笔误一样。
叶晓奇不禁为那几个主持人感到默哀,估计他们要是知道他们说的话被天网研究透彻到了这个地步,以后路过中生代都会远远的绕道走。
当然只针对这几个人的研究是没有意义的,所以才有泛用的说法。
泛用识别率不足5%,听起来似乎不那么靠谱。可是事实不是这样的,万事皆有开头,只要研究大方向上没错,后续只是时间的问题。
就以5%来说,基本接近于平行世界2015年底牛津大学提出的研究成果所能达到的目标。随后牛津大学和谷歌合作,在三个月内,也就是16年的三月份迅速把这个识别率学习到了46%。紧跟着不到一年,谷歌就据此发布了唇语识别特征库,面向世界开放,因此项技术收益的项目和企业随之纷纷成立。
当然谷歌的技术仅限于英文,但是原理是一样的,中文读唇术依旧是采用这个原理。
只要研究方向得当,整个过程真的只是时间和算力的问题。
而且46%也绝不是计算机所能达到的极限,通过结合上下文语义分析和语义联结,辅以更大的数据训练,只需要经过两三年的商用落地沉淀,这个准确率就很快可以超越90%。
想想电影里的那些唇语识别桥段吧,这可是超级特工才有的专精技能。而人类经过十几年专业训练的唇语专家,很遗憾,平均识别度仅有不到13%。
计算机以其自身的特点和优势,在效率和成果上,在这方面是足以秒杀人类的。
那么唇语识别能做什么?
能做的事情很多……
特种任务案情分析、监控预警、人质交涉、视频自动字幕……
怀疑某某在春晚上是假唱对吧?声音对不上?没关系,来唇语识别测一测,真唱假唱一测既知。
怀疑某些小鲜肉在电视里只是装作念台词对吧?来咱唇语识别测一测,口型起码要对上。
进一步想像下,有了读唇术,在结合语音识别技术呢?两者相加可以使计算机对人类的语言理解准确到令人发指的程度,这就为和语音智能企业的进一步深入合作提供了可能性,而不是现在的单纯技术买入。
对于某些残障人士呢?试想下,没有人愿意生下来就耳不能闻、口不能述,还不得不去学习一些复杂的手语来和人交流,而这种交流对于普通人来说可能难以理解。但是读唇术可以改变这一些,通过对口型的学习,再通过读唇术翻译,就能正常的与其他人交流!
不能为人类服务的机器人研究,对人类来说,是没有意义的,如果真的出现了这样的研究:请拍死他!
同样,不能为人类服务的AI技术,亦是没有价值的。
读唇术有没有价值?
必须有。
高度成熟的AI技术,是诞生高度发达的机器人的先决条件。
AI技术的发展,绝对不止是像物流机器人一样,代替人类的某些工种,去跟人类抢饭吃。它可以使人类的生活变得更安逸和“懒惰”,比如扫地机器人。它也可以代替人类的某些高危工种,执行一些人类难以执行的任务,充当某些领域的敢死队和马前卒。
这方面最典型的例子就是“好奇者号”,虽然好奇者号在后世看来可能比较落伍,但是其“大脑”一定是拥有了初步的自我判断能力的,否则也无法在长达20多分钟的电波延迟中,脱离人类指挥生存。
假如有一天,人类要进军外太空,人类怎么去指挥机器人?人机协同才是最聪明的方式,机器人的重要性是无可取代的,那么使用传统按键操控方式吗?
笨重的防护服可能不允许人类这么做。势必有着其他指挥方式,例如手势、声音等,读唇术就为人机协同作业提供了额外的可能性。
太空中如此,深海中呢?
高空作业?嘈杂环境作业?
读唇术,及其所属的图像识别,其未来发展前景,是无限……是真正的星辰大海……