AI修复“100年前的北京”火了 和作者聊了聊(组图)

昨天(编者注:5月9日),一个“修复老北京街道”的视频刷屏全网。一段由加拿大摄影师在100年前的北京被AI修复后,活灵活现地展现在人们面前,一百年前人们打招呼的方式、使用的乐器、交通工具,在这段视频中,都清晰可见。配上颇合时宜的音乐,24小时内,已经有了将近50万的点赞量,10万多次的转发,接近3万的留言,看来周六大家也有在好好工作啊。





这个视频来自一位名叫“大谷Spitzer”的博主,据他所说,接触老片修复是一个偶然,整个项目也只花了7天时间就顺利完成了。

先来一起看看这惊人的修复效果。



老视频?

修复后效果?





修复后的视频把当时的北京城演绎的活灵活现,下边的片段中,左下角?小哥呆呆的看着镜头,连细微的表情都清晰可见,青涩中带有一点可爱,想象一下这位憨厚的小哥来自一百年前,还是让文摘菌感慨万千。

怪不得网友们纷纷赞叹。有网友表示,不仅整体氛围没话说,连细节部分也分毫毕显,“每个人脸上都是新奇又不敢接近的表情”。





甚至有网友留言表示,“博物馆应该收藏你的作品”!

链接指路:

https://weibo.com/tv/v/J0ZsQnP6a?fid=1034:4502352820895785

博主在视频最开始就说道,想用技术为社会做一些有意义的事情,怀着仰慕的心情,文摘菌联系到了这位“大谷Spizer”,来看看他是怎么说的吧~



7天完工,难在显卡!整体满意,颜色上还有不足

自称将AI视为业余爱好的大谷如今身在纽约,接受文摘菌采访的时候,他感叹道,自己做AI科普视频做了七年,没想到一下子火了,现在完全处于“被信息淹没”的状态。

大谷透露道,其实这次接触老片修复纯属偶然,在搜索其他资料时候,偶然间在YouTube看到了人民日报上传的一段老北京视频,对其中对视镜头的部分十分有感触,“有一种穿越时空的感觉”。同时,一想到一百年前的人们有那个年代的思想,看问题的角度和现代有所差别,是很有趣的体验,自己恰好了解相关技术,为何不将老片上色补帧,做成活灵活现的60帧,和大家分享呢?

具体到操作上,根据大谷介绍,可以大致分为补帧、扩分辨率、上色三个环节,每个环节也都用了不同的工具,整体框架的流程则主要参考了Denis Shiryaev在社交媒体上分享的经验贴。

大谷说道,整个项目只用了7天时间,大部分都是硬性的时间消耗,比如补帧需要一到两天,扩分辨率至少一天,上色也需要花费一天时间,再加上要做到4K60fps,渲染速度很慢。多方考量之下,他把人民日报14分钟的原片剪到了10分钟。

相比而言,去年国庆164分钟修复版《开国大典》让人们亲眼目睹三次战役胜利到开国大典的历史过程。除了借助AI,胶片的撕裂、划痕等都是专业的修复师一帧一帧地修补。“修复过程中,我们70%的时间都在完成资料片镜头的修复工作。”负责本片修复工作的三维六度公司的首席技术官周苏岳说道,虽然修复时间只用了40天,但这却是600人每天工作20小时的奋战结果!

除了硬性的时间消耗,大谷还笑称,最大的问题就是自己笔记本电脑的显卡不够好,“要1070的显卡才带得动,否则会out of memory”,迫不得已之下向女朋友求了助。

再困难的部分,大谷选择了谷歌的Colab Notebook在线系统,通过远端分配一台带显卡的电脑,就无需在本地操作了,“这也是选择开源AI的原因”,“很多开源的AI都会把代码上传上去”。

对于最后的结果,大谷表示,“还是比较满意的”,不过在颜色上还存在可以改进的地方。

在视频中,相信大家也会看到时不时会出现颜色跳来跳去的情况,大谷表示,在补帧之前用工具把老电影中经常出现的画面闪烁去掉了,否则会更严重,整体的色彩上,AI的渲染效果也明显偏淡。

除此之外,大谷这次利用的是国外的一套模型,显然无法直接将其套用到100年前的中国影片修复上,在颜色上就无法做到历史性的准确,视频中的上色都是AI学习的成果,虽然肤色大致还原了,但是在红绿服装等方面的真实性还有待商榷。

也正是考虑到这些不足,大谷对去年参与《开国大典》修复的工作人员表达了敬意,“AI没办法做到艺术家那么准确,尤其是在历史方面,而《开国大典》对历史准确性的要求更高”,随后他也打趣地说道,或许可以“让AI看看清宫剧,提升一下准确率”。

就像大谷在视频开头所说,他想用技术做一些对社会有意义的事,在这次视频爆红之后,他表现得相当豁达,“太深刻的大意义倒也说不上”,主要是想借此让人们对历史有所反思。不少网友指出,视频中几乎看不到女性,这正是历史生动性的体现,既有光鲜也有不足,让大家意识到现在的生活是多么来之不易。

同时,作为老北京人,大谷也想通过视频分享他的切身感受,让更多人看到一百年前的民俗,尤其是上了色帧数提高之后,“感觉确实不一样,也感慨这一百年的变化”。

对于目前收到得反馈,大谷表示“完全没想到”,他看了很多评论,也受感触于一些留言,还有人私信向他表示,给太姥姥看后,也很怀念那个年代。

大谷透露道,这其实是他第一次尝试做视频修复,后续或许会出一期视频介绍一下具体的操作。对于后续的视频更新计划,他想要介绍一下国内已经成熟的语音修复技术。

目前,大谷在研究一款换衣AI,通过把模特导入系统,在Photoshop里换好衣服,就能生成模特穿上衣服的各种姿势,听上去是淘宝卖家会喜欢的AI。不过,大谷介绍道,这个AI目前还处于“婴儿状态”,精度上不是很乐观,未来需要大量的训练,以后或许也会做个视频介绍一下。

AI助力,老片修复一直在路上

对于这次用到的技术,大谷表示,上色主要还是应用在黑白照片和电影上,补帧技术就可以遍地开花了,比如修复像素动画的跳帧问题,或者在动画领域加以应用,因为动画很多是12帧/秒,甚至6帧/秒,补帧之后效果很好,也终于可以看更流畅的EVA了。

作为一名独立游戏开发者,大谷透露道,因为一个人做游戏开发,接触到AI是想要了解AI能否为他节省时间,后来发现AI能做的不止这些,在社会公益上也有不少应用,比如老片修复。

正如大谷所说,这次的视频修复“技术管线参考自Denis Shiryae的影像修复教程”,针对Denis的欧美老片修复,大谷也做过汉化视频进行了专门的介绍。

视频链接:

https://www.bilibili.com/video/BV1Uf4y1m72n

Denis Shiryaev通过神经网络修复老视频的内容今年在油管爆红了一阵子,他使用Topaz Labs的Gigapixel AI和DAIN图像编辑应用程序将1896胶片缩放到4K分辨率,不仅将素材增加到4K,还将帧率提高到每秒60帧。

Shiryaev最火的作品是用Gigapixel AI将1896年拍摄的50秒无声短片《火车进站》(the Arrival of a Train at La Ciotat Station)做成了4K格式,把模糊的原片做成了高清画质,完全符合当下的高清视频标准!

尽管存在一些缺陷,如图像会出现跳跃或某些细节依旧模糊,但已经很棒了!为了使这一作品更加完整,Shiryaev还为这部无声电影添加了声音。

这些图像是通过生成对抗网络(GANs)得来的。

科普一下,GANs是由两个相反的神经网络组成的。第一个网络基于训练对象的数据生成对象,而第二个的作用是确定对象的真实性。第一个网络通过不断尝试,直到它的作品完美到足以欺骗第二个网络。通过这种方式,才得以生成最有可能的图像。

Gigapixel AI软件使用一种专有的插值算法来分析图像,它可以使图像更清晰,甚至在放大了600%之后。

再来说说DAIN(深度感知视频帧插值),它可以将帧想象并插入现有视频剪辑的关键帧之间。换句话说,DAIN首先分析并映射视频片段,然后插入在现有图像之间生成填充图像。这与4K电视的运动平滑功能是同一个概念。为了在这段1896年的视频中达到同样的效果,Shiryaev添加了足够多的图像来将速度提高到60帧每秒。因此,DAIN自动生成,然后在最初记录的24张图像之外,每秒添加36张额外的图像。

Shiryaev的 “火车”的视频修复版本看起来像是一部使用智能手机或GoPro拍摄的最新电影。与原始视频相比,效果非常惊人,尤其是在新版本中获得了流畅性。列车上的阳光反射和月台上的女士珠宝都被记录的很完整,也许是最显着的改进之一。

Shiryaev也用神经网络对这一修复视频进行了着色:从一堆彩色照片开始,将它们转换为黑白,然后训练神经网络以重建彩色原稿。

修复后的视频传送门:

https://youtu.be/EqbOhqXHL7E

Shiryaev的新技术也因此在技术圈火了起来,激发了包括大谷在内的更多技术人,修复珍贵的影像文献。

除了上文提到的《开国大典》,在老片修复上,“中影·神思”的开发,能缩短修复电影所需时间的四分之三,成本可以减少一半,目前已成功应用于《厉害了,我的国》《血色浪漫》《亮剑》等多部影视剧的图像修复与增强当中。

爱奇艺也推出了其自主研发的视频增强技术ZoomAI,为电影修复提出解决方案,这是业内第一个利用较低成本、将深度学习技术应用在视频画质增强场景中的方案。

但不可否认的是,这种技术如果被有恶意的人使用,例如,可以用于制作“伪造品”并允许视频中的身份盗用,也会导致巨大的社会问题。

遍地开花的大谷:AI在游戏领域完全可以大展拳脚

往前翻翻大谷的微博会发现,他做了很多有趣的小项目,比如AI足球队,大谷介绍道,他用了Unity的AI系统MLagent来训练球员,这些球员从最开始什么都不会到最后互相配合,到现在他已经打不过了。大谷感叹道,“AI在游戏领域完全可以大展拳脚”。

大谷想用AI把这款游戏做得更具体,比如做成回合制。大谷相信,如果训练时间足够,可以让AI学会怎么包抄、怎么做战术防略,以往的游戏AI很傻,玩家操作好就能赢,但如果用AI训练AI,它就会狡猾很多,什么战术都能用上,会有很神奇的化学反应。

大谷还介绍到,Unity最近推出了一个新的AI系统Artengine,主要是做游戏帖图的,在生还者、战神一类的游戏中,草、岩石等贴图之前还需要人去画,或者用照片修剪,但是Artengine可以复制不同的岩石图片,在花纹上会显示出差别,或者接合图片时,对图片中间的接缝可以凭经验把接缝涂掉。“有了AI,就可以做很多以前一个人难以实现的高分辨率的游戏场景”。

自称“程序员里最会画画的作曲家”,大谷也介绍了一些绘画和音乐领域上的AI应用。

在游戏音乐上,大谷表示,OpenAI的MuseNet十分强大,只需自己作前两小节曲子,就可以让AI自动补完后续,而且风格可以自选,莫扎特、巴特,都不在话下。

在绘画上,大谷之前专门做了一期节目介绍绘画AI,比如英伟达的GauGAN,不少原画师都用这个来画背景;再比如Artbreeder,这个网站能“杂交”输入模型,生成超现实主义风格的离奇图案,但同时又十分写视,很多艺术家在网站上进行创作,生成的作品可以商用也可以开源。

比如大谷透露道,之前他用Artbreeder合成了诸葛亮和灭霸,效果很棒。心痒的文摘菌也去试了一下,不过在这里先卖个关子,大家可以猜猜这是怎么“杂交”出来的。

现在,大谷正在开发一款叫作漫展模拟器的游戏,以模拟经营漫展为核心企画,其中游客如果用AI来训练的话就会智能很多,“让他们自己逛漫展、买东西,这样会更自然”。现在游客都是用状态机控制的,必须告诉他们饿了就得去吃东西,想上厕所就得去找厕所,否则就得尿地上。

大谷介绍道,从17年底开始正式做这款游戏,B站会负责发行。玩家进入游戏后化身主播或者coser等身份成为漫展主办方,通过搭建电竞舞台、招租摊位、邀请明星嘉宾等方式,让患上肥宅综合征的人们来参加漫展,以促进虚拟世界的经济发展。


背景报道:一段AI修复的“100年前的北京影像”,火了!

最近,一段由AI修复的“100年前的北京晚清影像”在社交平台上火了。整个视频长约10分钟,把一段大约拍摄于百年以前、看起来有些卡顿的黑白纪录片,变成了宛若油画的彩色视频。视频来源:腾讯视频

截至10日晚上8时,这段视频在微博上的播放量高达1748万,在B站的播放量则超过了70万。许多网友留言称视频的逼真效果打破了他们的想象,仿佛已经闻到百年前北京街头的香火味。

播放量超过1700万、点赞57万的AI修复视频。图自微博。

视频的制作者,是独立艺术家、游戏制作人大谷Spitzer。

今年28岁的他早在初中时就开始制作独立游戏,是个会编程、作曲和画画,同时兼做B站Up主的斜杠青年。如今,他在纽约生活和工作,疫情期间还跟朋友做了一款造口罩的小游戏。

参加漫展活动的大谷(受访者供图)

在此次视频火爆之前,大谷Spitzer其实已经在B站上传过不少有关AI的视频,包括AI作曲、AI去马赛克、AI“生成老婆”等等。他甚至还用AI作了一款足球游戏,让大家看到傻乎乎的AI球员是如何进化到可以碾压人类玩家的。

在大谷Spitzer看来,AI好玩的地方在于,可以让很多想象变成现实,把很多不可言说的东西具象化。他自称只是AI领域的初学者,也希望通过一系列视频让大家看到,AI并不是那么“高大上”的东西,人人都可以用AI来表达和创作。

下面是南都·AI前哨站与大谷Spitzer(以下简称“大谷”)的对话。

用三种AI工具还原1920年代的北京

南都:怎么想到对这个纪录片做AI修复的?

大谷:我之前做了一些介绍AI技术的科普视频,其中也包括影像修复的AI技术。前段时间偶然看到这个纪录片,觉得用AI来修复它应该蛮有意思的。里面有很多路人在看镜头的画面,就好像他透过镜头在看着我、跟我互动。但我们相隔了100年,彼此都不知道对方的生活是什么样的。如果能把纪录片修复一下,让100年前的北京更活灵活现地呈现出来,效果应该会很不错。

修复视频中“穿越百年”的对视

南都:修复过程是怎样的?

大谷:修复过程主要用了三种AI工具,分别用来补帧、上色和分辨率扩增。原版纪录片每秒只有6到10帧,看起来非常卡顿。我用DAIN(AI工具名称)来补充中间的画面,让视频变成每秒播放60帧左右,看起来会更加连贯。

上色我用的是DeOldify(AI工具名称),最后出来的效果还凑合吧。不满意的地方在于AI肯定没法保证准确性,因为它对清代的历史并不了解,只是根据它学习数据库的经验去上色。未来这种技术应该会变得越来越好。

分辨率扩增用的是ESRGAN(AI工具名称),它是可以把低分辨率的图像变成4K级别的分辨率。

大谷在视频中展示的对比效果

南都:看到你微博上说,为了做修复视频,还借了朋友的显卡?

大谷:对,因为她的显卡是比较新的,用的GPU芯片更好。现在的AI工具虽然也支持CPU渲染,但速度会非常非常慢,比GPU要慢10倍。所以还是推荐用GPU来做。

南都:你是怎么知道这个视频火了的?

大谷:我在微博上发了视频后就去健身了,回来一看竟然有一万多次转发。当时还想是不是电脑中毒了。反正挺突然挺意外的。

微博中的网友评论

南都:视频火了之后,有没有让你印象深刻的网友反馈?

大谷:一个是原版纪录片拍摄的时间,大家其实有再讨论。我查到的资料都显示它拍摄于1920年到1929年之间,但也有网友根据片子里的建筑物推测拍摄时间是1918年以前。如果按照资料的说法,1920年之后其实已经是民国初年了,不是我最初所说的“晚清”。历史没学好,感谢大家的指正。

另外有很多朋友在交流片子里出现的乐器啊、仪式啊,让我学到挺多老北京的民俗文化知识。还有一个网友特别有意思,他说他穿越过来以后很久没有看到过这样的视频了,让他很感动,好像回到了以前。意思就是他是个穿越者,哈哈。

南都:这两天网上也出现了很多“搬运”,你对此怎么看?

大谷:这个视频毕竟也不是我拍的,是100年前的一个加拿大哥们儿拍的,大家去转发也挺好的,只要注明出处就行。有个别的转发会把我的名字打码,这样就会感觉怪怪的。

大谷的工作台(受访者供图)

希望人人都能用AI工具进行创作

南都:你在B站其实还上传了很多AI相关的视频,比如AI作曲、AI人脸生成等。是怎样萌生对AI的兴趣的?

大谷:我的主业是游戏开发,在AI领域只是一个初学者。但是在现阶段,很多AI工具已经很方便了,你不需要特别深入地了解编程知识,只要在工具里输入一些简单的指令就可以操作。我做这些是希望能让大家了解到,人工智能可以被应用到现实生活里,效果也比较有意思。

AI好玩的地方在于,它可以让你的很多想象变成现实,把很多不可言说的东西具象化。举个最通俗的例子,基努·里维斯和蒙娜丽莎如果结婚了,他们的孩子长什么样?现在就有一种AI工具可以模拟出来。

也正是因为这样,AI给流行艺术的创作带来了更多的灵感。我也看到很多当代艺术家在用AI来做可以交互的新媒体作品、装置作品。

大谷在B站上传了一系列AI相关的科普向视频。

南都:你之前主要是作为独立游戏制作人为大家所熟知的。在你看来,AI能给游戏制作带来哪些变化?

大谷:英伟达的实验室发布过一个工具,你可以在上面做很简单的涂鸦,说这是一座山。然后AI就会根据涂鸦的形状生成一个真正的山脉图像。现在很多游戏画师用这个工具来制作游戏场景。

英伟达实验室发布的GauGAN工具,可以根据涂鸦生成逼真的画面。

我之前还用Unity游戏引擎的Ml-agents工具做了一个足球游戏,就是让两队足球运动员在里面不断地踢球,我只给它们一个规则:进球得分,输球扣分。刚开始那些球员特别傻,啥都不知道,就到处乱撞。偶然把球撞进去了,发现能得分,它就会慢慢学着赢。训练完的时候我自己作为一个玩家加入进去,控制其中一个球员,发现我已经踢不过AI球员了。这个过程非常有趣。

游戏中的训练场景

南都:大家谈到AI的时候,往往会更关注“AI让人类失业”的问题。你对此怎么看?

大谷:我觉得也不用这么悲观吧。比如我做独立游戏开发,音乐、美术、程序都要做,一个人其实挺耗时间的。用AI的话会减少一些劳动,帮我省一些时间。在社会的很多方面,AI都能起到这种作用,让大家的生活更便利。它可能确实会淘汰一些工作岗位,但也会创造出新的工作岗位,让人能够去做更有创造性的工作。

我做了一系列的AI的视频,也是希望能让大家看到,AI不是一个特别高大上的东西,大家也可以去用它来辅助自己的创作,包括修复家里的一张老照片之类的。

南都:未来还想用AI工具做什么样的视频?

大谷:我有计划在做一个时装类的,AI工具可以把平面的衣服图像自动“穿到”一段视频里的真人模特身上。你画平面的话衣服就只有一面嘛,它能帮你补充出衣服的各个角度。

疫情期间开发公益小游戏宣传抗疫进展

南都:疫情这段时间一直在纽约吗?生活怎么样?

大谷:在纽约的中国人其实一直很关注疫情的情况,我在纽约只有16个确诊病例的时候就开始居家隔离了,周围的朋友也在互相送口罩,所以整体感觉还好,就“以静制动”吧。当然这段时间一直有救护车和直升机在窗外经过,那个紧张的气氛还是在的。

南都:为什么会想到和朋友开发《全民造口罩》这款游戏?

大谷:2月10日的时候,CiGA(中国独立游戏联盟)发起了一个线上游戏开发征集活动,号召大家用游戏的方式来支持中国和武汉,我和朋友决定参与。当时纽约的街头虽然看起来跟往常一样,但口罩已经全部脱销了,我们就选择了“造口罩”这个主题。我们在游戏里链接了一些来自官媒的疫情新闻,让大家能够从中了解疫情的情况。

游戏中的一些界面设置了知识链接,指向疫情相关的官方新闻。

南都:游戏发布后的效果达到了你的预期吗?

大谷:还挺不错的。不过有一点想说一下,因为这个游戏是CiGA的公益项目的一部分,我们的游戏完全免费、没有广告和内购。但是游戏上线的第二天就出现了破解版,甚至还有飘着各种抽奖、赌博信息的山寨版。这种还挺让人受伤的,我也没有时间精力去维权,还是希望大家能够好好地玩游戏吧。

南都:你的一个身份是独立游戏制作人。独立游戏和普通的商业游戏有什么区别吗?

大谷:大型公司去做游戏,会更多地考虑资本和盈利,它不会做特别冒险的尝试。独立游戏就更体现开发者的个人想法,可能会有很强烈的个人风格。比如一个互动小说,开发者可能就是想让玩家去理解他的感受。还有“严肃游戏”,它是要教育玩家去学一个技能或者一种操作方法。

南都:你怎么看游戏和现实的关系?

大谷:我是一直把游戏当做第九艺术,一种可以交互的艺术形式。游戏会让开发者和玩家达成心灵上的交流,就好像大家一起去创造一个世界。我觉得游戏也好,艺术也好,AI也好,通过不同的形式来把你的想法表达出来,让大家去分享和创作,其实是很美好的经历。

南都:有什么让你觉得会很感动或温暖的例子吗?

大谷:我从高中到大二的时候做了一款叫做《Eddy紫》的游戏,特点就是整个游戏画面特别特别紫(笑),好像传得还挺广。后来我在漫展卖这个游戏的光碟,有很多玩家过来跟我交流,还有人说是因为我才尝试进入游戏行业。

从2012年到2017年,大谷画的《Eddy紫》主人公也有了变化。受访者供图。

还有就是我刚到美国的时候,去参加一个叫做Global Game Jam的48小时游戏开发活动,和6个不认识的美国开发者组队。我当时英语说得还不是很溜嘛,其中一个叫Eric的哥们儿是学校老师,能听懂我说话。所以每次都是我先说,然后Eric再翻译成其他人能听懂的英语。我们就这样配合完成了游戏,拿了一个小奖。

南都:你从挺小的时候就开始玩游戏了。但直到现在,在中国的整个社会氛围里,小孩玩游戏仍然并不是一件被鼓励的事情。你会有什么作为“过来人”的想法想和大家分享吗?

大谷:我小时候对游戏产生兴趣其实是因为一个广告。里面是一个人在打游戏,看上去挺开心的;然后过来一个人说我做游戏,他看上去更开心。我当时就想做游戏这么有意思吗?那我就试试看吧,家里也比较鼓励。后来我也有参与全国中小学电脑制作活动和中国大学生计算机设计大赛,拿了一些奖。我觉得什么事情只要喜欢,那就去做吧。

当然,过度游戏肯定是不对的,这方面还是需要家长、学校去引导和教育。其实我觉得只要有好的引导,孩子都会向好的方向去走。

























推荐阅读