AI音乐创作、水墨画、3D空间重建、6DoF,腾讯多媒体实验室领先技术亮相数贸会

来源:网络   阅读:1855   2023-12-01

数字贸易,商通全球。近日,第二届全球数字贸易博览会在杭州开幕,为观众带来数字贸易领域的新技术、新产品、新服务与新场景。今年,各类大模型如雨后春笋般涌现,为解决产业痛点带来了全新的思路。数贸会上,全球50个人工智能大模型集中亮相,成为最大的亮点之一。

腾讯多媒体实验室的多项自研技术产品也亮相前沿趋势馆,带领观众体验AI作曲框架TXMusic、腾讯水墨画、点云三维空间重建、6DoF沉浸式视频等前沿技术产品,在感知技术进步中预见未来生活。

AI作曲框架XMusic由腾讯多媒体实验室自研,曾被评为2023年世界人工智能大会“镇馆之宝”。XMusic支持视频、图片、文字、标签、哼唱等多模态内容作为输入提示词,生成情绪、曲风、节奏可控的高质量音乐,大幅降低了音乐创作的门槛。

本次展会,XMusic团队为现场观众带来了最新的互动游戏。想体验零门槛的AI音乐创作?想生成自己的乐器定制形象?多达12种古典和西洋乐器任你挑选,屏幕上动一动手指即可用喜欢的乐器参与AI音乐创作,还能和同时参与的小伙伴共创同一作品。线上的用户也可以通过扫描下方小程序码立即体验音乐创作的乐趣。

“腾讯水墨画”结合山水画创作、智能作诗、智能配乐等多种自研能力,形成了多模态融合且能互动娱乐的完整解决方案,该产品由腾讯多媒体实验室研发,曾落地迪拜世博会,广受好评。

基于腾讯多媒体实验室的点云三维空间重建技术,能够快速构建实景空间的数字孪生,即刻开启沉浸式空间漫游与VR导览。该方案已成功落地于文旅、会展等行业。比如成都世界大学生运动会,实验室VR导览方案覆盖主场馆、大运村等空间,全面提升参赛与观赛体验。

数字技术也不断外溢,探索助力社会可持续发展。在文化领域,基于腾讯多媒体实验室的快速点云编解码器与渲染引擎,对甲骨文信息模型实现高质量压缩,显著降低存储与传输成本,在终端设备实现六自由度(6DoF)交互,全空间自由放大旋转,带给用户沉浸式视觉体验,有效促进甲骨文的研究与体验。

渲染引擎对于4K贴图,渲染速度平均>=60fps,且支持8K超高清贴图、PBR(基于物理的渲染)渲染方式,精细还原真实世界的材质。使用腾讯多媒体实验室的业界领先的支持最新一代视频压缩标准的Tencent266编解码器,可以进一步降低传输带宽的同时还能提升画质。

这些产品离不开实验室的核心技术。新一代国际编解码标准于20年7月正式发布,可在视频主观质量不变的条件下减少50%的数据大小。腾讯多媒体实验室正是这项标准制定的主要贡献者之一,技术提案采纳数量全球领先,实验室专家们还在标准组织中担任包括新一代国际编解码标准联合主编、参考软件联席主席等重要席位。

在MSU世界视频编码器大赛FullHD比赛中,腾讯自研最新一代视频编码器Tencent266取得了15项关键指标中12项第一,第一总数全场最多;并在全部VVC编码器中包揽15项指标全部第一。此外Tencent266还在10bit/4K/主观比赛中均取得了全场最多的第一总数,证明Tencent266在不同应用场景下均能为用户用更低的带宽带来更好的画质。

腾讯云已于21年7月全线支持新一代国际编解码标准,这是该标准首次在云上商用,填补了全球云厂商在该领域的空白。Tencent266在23年初上线腾讯云直播,腾讯云成为行业首个支持VVC直播的云厂商。

腾讯多媒体实验室代表腾讯参与多个国际及国家标准制定,包括H.266/VVC、MPEG-5 EVC、MPEG PCC、MPEG Systems、IETF、3GPP、国家标准AVS2 & AVS3、开放媒体联盟(AOMedia)标准AV2等,均取得了突破性成果,已有800+项技术提案被国际国家标准采纳和1000+项已授权专利。实验室专家数十人次担任工作组/专题组联合主席、标准联合主编、董事等关键职务。同时,实验室的研究员们在CVPR、ECCV等学术顶会和TCSVT等IEEE等专业期刊上发表了不少研究成果并获得大量引用。

近年来,腾讯在前沿科技领域持续大力投入,布局以下一代互联网为引领的数字科技,并以社会价值为牵引,让科技在社会价值的大地上生根。

“腾讯多媒体实验室将继续推动多媒体及相关领域的国际和国家标准制定,打造音视频、互动沉浸和智能媒体核心能力矩阵,通过腾讯云、腾讯视频、腾讯游戏等业务平台服务全球用户、助力各行业发展并践行科技向善。”腾讯云副总裁、腾讯多媒体实验室负责人、腾讯杰出科学家刘杉博士表示。

相关文章