每一次挫折,都是一次新的机遇。
眼下的白垩纪正是如此,在吃瓜网民的注视下,白垩纪顺势发起对流量户的名誉权反诉讼,并借势开始招募线下加盟商,布局线下销售行业。
紧跟着,白垩纪发布了Android操作系统版本2.02,新的操作系统中剔除了企鹅的两款语音聊天工具,新加入了天猫商城APP。
企鹅立马发起了不正当竞争诉讼,白垩纪直接就发了声明:结束合作,赔钱退股!
反正就是不想跟你玩了。
(流量户这一设定参考腾百和几个手机的合作历史和诉讼史,我感觉我又走在了404的边缘,李飞飞千万保佑我……)
白垩纪下一代手机战略,在具体机型有了目标后,整体战略也多了一个目标:实现盈利,尤其是在高端手机上,增加差异化,提高利润比。
对高通的诉讼,一时半会儿也出不了什么结果,着急也没用。工作组来了几天,调查盘问了一些问题,又取走了一些资料,表示接下来还会对其他手机和生产单位调查取证,而后就走了。
即使知道工作组和国产手机在利益上是“一家人”,但是还是要有事实依据,最终拿证据说事的。
天网的开源计划定了,霍蓓蕾的“任性”是一方面,也有一些出于其他方面的考量。
随之而来的开发人员不足的问题,却是让人觉得头都大了几圈。
移动式机械手的研发还是要继续进行下去的,哪怕研发速度减缓,还是不能停,这关乎到天网的“饭碗”问题。
其他的许多动作,只能被迫停下来了,这里面就有关于连杆机械足的研发计划。
而保留下来的项目,除机械手外只有一个,仍然还是视觉领域的项目:人景分离。
再具体一点:视频场景的人景分离。
更具体一点:为新A站打造人景分离弹幕。
技术本身不复杂,仍然还是基于神经网络的深度学习。
一个完整的视频网站或者直播网站,其技术流程包含了采集、处理、编码、封装、推流……还需要了解RTMP等协议、H264等格式,掩码(mask)……
以上都是唬人玩的。
视频网站的真实开发场景就是客户端一套代码,服务端一套代码,按照规范和手册做下来即可。有些东西并不需要特别深究,是前人已经封装好的。保护脑细胞健康,从忽视原理开始。
卡住中小企业的关键问题之一仍然还是服务器架构问题,这里面cdn的运用和服务器分发规则等负载均衡问题算是个学问。
就视频本身而言,其本质仍然还是图片,以快速刷新屏幕的方式,欺骗人的视觉,让人以为视频中的人物和场景在移动,而直播则是被分割成的一个个短小视频的衔接。
视频中的每一张图片被称之为“帧”。
既然是图片,那么神经网络和深度学习这对组合,就能够派上用场了。
对大量包含人物的样本图片进行监督学习,可以得到关于人物轮廓的特征库以及语意库,作为分离标准。
对静动像素的神经网络进行算法分析,可以得到需要处理的目标区域。
此外还有远近景的区分等等,这又是一个长长的课题清单。
监督学习和深度学习不再表述,总之这就是个黑盒模式。黑盒就是人类看不懂也无法解释的意思,其过程是个有目的的随机碰撞的过程,依赖于高速GPU的计算能力。
静动分析更好说,如果图片四角是静止的,那么目标可能就是动的。如果图片四角是移动的,那么目标可能是静止的。
远近景就不说了,有些时候并不是所有图片中动的物体都需要切割。
这里面临一个问题:英伟达支持AI计算的显卡目前还没发布,所以这一项目想要实现,仍然还是依赖于服务器。
所以整个项目流程被定为,AI服务器从新A站服务器得到视频数据,将视频数据解码变为图片集,对像素进行标记,处理好的图片集再次打包成视频吐回服务器,视频网站设置对应的人、景、弹幕三者的z-index,在网站上和移动端把弹幕置于人景之间,最终呈现给用户的就是一个人景分离的弹幕了。
因为依赖于服务器的原因,算力是有限的,能从这一项目得到受惠的up主必然不会太多。因此这一成果将用于吸引优秀up主加入,作为优秀视频的奖励。
当然这些扯远了,眼下八字还没一撇。好端端的突然跳到这个科研树,原因是因为需要强化语意分割。
语意分割,其目标是知道图片中的物体是什么。
以微软识图为例,一张绿草如茵的图片,可能会被识别为“羊”。原因是,有关羊的训练库都和草地有关,所以看到草地,计算机就会自动认为这是“羊”。这就是无语意分割。
语意分割就是要搞清楚,“羊”是什么,“羊”长什么样,“羊”在哪。
机械手识别商品并进行抓取,用到是就是有语意分割的深度学习神经网络,但是存在着一些缺陷。
新开的这个项目就是为了强化语意分割的概念,进一步增加对图片的辨识度,并为图片中的物体赋予含义。
并不涉及到未知技术,叶晓奇也没打算插手。人景分离项目继天网课堂的人脸识别项目后,成为了新的可选实训项目。而人景分离,也将为天网课堂的考核教程提供素材。
叶晓奇点了一个人,做这个项目负责人,老实巴交的刘浩然,上一次刘浩然的展示给叶晓奇留下了深刻的印象。
校企合作那边也相应的提了要求,近期需要侧重提供包含人物的图片,以供学习。
(这个技术的灵感来源是b站的蒙版弹幕,早在蒙版弹幕出来的时候我就在搞这个玩了,FNC在这方面做的很好,再后来发现可以不用这么玩,谷歌在2月份发布了deeplabv3+可以直接做这个东西。这个技术真的很简单,当下的条件,一个人就能写了,只是跟团队比起来会有效率高低开发快慢的不同,具体用到的工具和库也会不一样,有几个库可供选择,效果也不一样。到目前为止,本书中出现过的东西,都是现实里已经有的。AI弹幕,按道理来说,其实早就应该有了,可能是研发AI的企业关注点都在别的方面,比如汽车和VR什么的,所以拖到2018年才有。未来,本书也许会略带科幻元素,原则仍然还是以现有技术能否实现为基准,不会科幻的很离谱。)