实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

小编 23 0

CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

作者Jihua Peng | 编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

本文介绍的KTPFormer模型在3D姿势估计领域引入了两种新颖的注意力机制,即KPA和TPA,以增强模型对全局相关性的建模能力。通过在三个公共数据集上进行实验验证,作者展示了KTPFormer在提高性能方面的有效性,并且只带来了很小的计算开销增加。这种模型设计的灵活性和通用性使得它可以轻松地集成到其他基于Transformer的3D姿势估计模型中,为该领域的研究提供了新的思路和方法。

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

本文介绍了一种新型的Transformer模型,称为KTPFormer,用于3D人体姿态估计。相较于现有的基于Transformer的方法,KTPFormer利用了人体解剖结构和关节运动轨迹的先验知识,通过两个先验注意力模块KPA和TPA来更好地学习空间和时间相关性。与其他基于图的Transformer方法不同,KPA和TPA模块被设计为轻量级的插件模块,可以简单有效地与各种基于Transformer的方法结合,提高了3D姿态估计的性能。该方法在多个基准测试中表现优异,是一种简单而有效的改进方法,可用于提高基于Transformer的模型在3D人体姿态估计中的性能。

本文的贡献为:

提出了两个新的先验注意力模块,KPA和TPA,可以简单而有效地与MHSA和MLP结合,形成了用于3D姿势估计的KTPFormer。

本文的KTPFormer在Human3.6M、MPI-INF-3DHP和HumanEva基准测试中均优于现有方法。

KPA和TPA被设计为轻量级的即插即用模块,可以集成到各种基于Transformer的方法(包括基于扩散的方法)中用于3D姿势估计。大量实验证明,作者的方法可以有效提高性能,而不会大幅增加计算资源。

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

本文提出了一种新颖的Kinematics and Trajectory Prior Knowledge-Enhanced Transformer(KTPFormer)方法,用于3D人体姿态估计。该方法将运动学和轨迹先验注意力与MHSA结合,可以同时建模空间和时间信息。KTPFormer利用seq2seq管道进行姿态估计,能够预测与输入2D关键点序列对应的3D姿态序列。具体流程包括将2D姿态序列输入Kinematics-Enhanced Transformer,生成高维空间标记,然后经过空间MHSA学习全局关节相关性。接着,将序列重塑为时间标记输入Trajectory-Enhanced Transformer,生成具有关节运动轨迹信息的时间标记,并通过时间MHSA学习帧间的全局一致性。最后,将输出特征输入堆叠的时空Transformer进行编码,通过回归头预测3D姿态序列的坐标。

2.1 运动学增强Transformer

本节介绍了运动学增强Transformer(Kinematics-Enhanced Transformer,简称KET)的工作原理。该模型接收2D关键点序列作为输入,并将其转换为高维空间标记,以便于后续的处理。具体来说,输入的2D关键点序列首先经过Kinematics Prior Attention(KPA)模块,将运动学先验知识嵌入到2D关键点序列中。接着,这些处理后的关键点序列被输入到空间多头自注意力机制(Spatial Multi-Head Self-Attention,简称MHSAS)中,用于学习关节之间的全局相关性。KPA模块通过构建关节之间的关系矩阵,将人体解剖结构信息和关节运动轨迹信息注入到关键点序列中,以提高模型对关节间关系的理解能力。最终,经过MHSAS处理后的特征被输入到多层感知器(MLP)中进行进一步处理,以输出最终的姿态估计结果。整个过程保留了Transformer的固有结构,提高了模型的灵活性和可解释性。

2.2 轨迹增强Transformer

本节介绍了轨迹增强Transformer(Trajectory-Enhanced Transformer,简称TET)的工作原理。该模型旨在将关节在帧间运动的先验轨迹信息整合到标记序列中,以提高对关节间时间相关性的理解能力。首先,通过Trajectory Prior Attention(TPA)模块构建时间局部拓扑,连接相同轨迹的关键点。然后,模拟时间全局拓扑,考虑相邻和非相邻帧之间的隐含时间相关性。利用线性变换将标记序列转换为高维空间标记,并利用可学习的权重矩阵允许不同关键点学习不同的先验知识。最后,通过时间多头自注意力机制(Temporal Multi-Head Self-Attention,简称MHSAT)模拟全局时间相关性,进一步提高了模型对关节间时间相关性的建模能力。整体而言,TET能够有效地学习并整合关节在帧间的运动轨迹信息,为3D人体姿态估计提供了更准确的时间建模方法。

2.3 堆叠的时空编码器

在被重新整形后,HST 被送入由交替的空间和时间 Transformer 组成的堆叠式时空编码器中。堆叠的层数为 L。在输入编码器(空间或时间)之前,序列特征根据 MHSA 的类型重新整形。

2.4 回归头部

本节介绍了如何利用线性层作为回归头部,用于预测3D姿势序列。网络的整体损失函数由加权均值每关节位置误差损失、时间一致性损失和每关节平均速度误差损失组成,其中超参数λT和λM用于调节各损失项的重要性。

在实验部分,作者首先介绍了使用的三个公开数据集:Human3.6M、MPI-INF-3DHP和HumanEva。其中,Human3.6M是一个室内场景数据集,包含360万个视频帧,11位专业演员在4个同步摄像头视图下表演15种动作;MPI-INF-3DHP是一个大型公开数据集;HumanEva是一个较小的数据集,为了与之前的工作进行公平比较,作者选择评估方法在HumanEva的S1、S2、S3三个主体上的表现。

在实验协议方面,作者使用了两种协议:Protocol#1是指平均每关节位置误差(MPJPE),即预测的关节坐标与地面实况的平均欧几里得距离;Protocol#2是指经过预测的3D姿势与通过Procrustes分析对齐的地面实况3D姿势的重构误差,称为P-MPJPE。

在实现细节方面,作者在Pytorch框架上实现了他们的方法,使用了一块GeForce RTX 3090 GPU。输入2D关键点是通过2D姿势检测器或2D地面实况获得的。作者将堆叠的时空编码器的数量L设置为7,每个编码器包含14个空间和时间变换层。训练阶段使用Adam优化器,批量大小为7。学习率初始化为0.00007,每个epoch衰减0.99。作者还介绍了将扩散模型引入3D姿势估计的实验设置,以及该方法的参数设置。

在与最新方法的比较中,作者将他们的方法与基于Human3.6M数据集的最新方法进行了比较。结果显示,作者的方法在MPJPE和P-MPJPE方面实现了最先进的结果,MPJPE为33.0mm,P-MPJPE为26.2mm。作者的方法在MPJPE和P-MPJPE方面优于D3DP方法。此外,作者的方法在不使用扩散过程的情况下也获得了最佳结果。作者还在MPI-INF-3DHP数据集上验证了他们方法的泛化能力,结果表明其方法具有强大的泛化能力。最后,作者进行了消融实验和定性分析,验证了他们方法的有效性和鲁棒性。

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

本文介绍了一种新型的Kinematics and Trajectory Prior Knowledge-Enhanced Transformer(KTPFormer),用于3D姿势估计。该模型利用了两种新颖的先验注意力机制(KPA和TPA),能够有效地增强建模全局相关性的能力。实验结果表明,KTPFormer在提高性能方面表现出色,且计算开销仅有很小增加。此外,KPA和TPA可以轻松集成到各种基于Transformer的3D姿势估计器中,具有很好的通用性和灵活性。

[1]KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型 工业3D视觉SLAM自动驾驶三维重建无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM: 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻 等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、 LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、 MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

实况球会经理:3D画面+实时策略,即将开启公测

置身于距离赛场最近的教练席位,指挥着亲力打造的球队冲锋陷阵,与球员并肩向比赛荣誉发起冲击,这样的执教体验是无数球迷的绿茵梦想。凭借着虚幻4引擎的画面表现与对战术玩法的深度研发,《实况球会经理》打造了3D画面+实时策略的梦幻组合,为玩家们带来最真实、完善的执教之旅,游戏将于7月2号正式开启公测,各位球迷准备好领取你的主教练offer了吗?

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

搭载虚幻引擎,3D画面打造真实体验

《实况球会经理》加持虚幻4引擎,游戏画面在保持真实性的同时兼具体育游戏的顺滑。不止是3D拟真画面,从球员个人到球场整体,目光所及的游戏画面均与真实赛场接近:球员建模经过3D扫描,精确还原球员发型与面孔细节,包括已退役传奇球星标志性庆祝在内的球员肢体动作,球员的赛场英姿都通过动作捕捉技术完美呈现在画面中。放眼整座球场,虚幻4引擎同样带来了细腻的草皮观感与逼真的光影效果,辅以球场万千观众的欢呼呐喊,无论是视觉冲击还是赛场氛围都无可挑剔。

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!正因为在画面品质层面优异的表现,《实况球会经理》的球迷玩家们才能够在游戏中体验到真实赛场的沉浸感,每一场即时对战都如同亲自站在球场边指挥球队,沐浴在数以万计的球迷助威声中。而灵动、真实的球员模型则让巨星触手可及,无论是C罗、梅西这些现役球员,还是贝肯鲍尔、克鲁伊夫等传奇巨星,都将近距离呈现在玩家面前,结合游戏为玩家们准备一键切换2D/3D画面的小细节,不仅能够一眼明晰的看出球员配合状态、球队站位变化,从而第一时间掌握场上大局,更能够细致欣赏球员个人的精彩表演,感受如艺术般的进球瞬间。

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

丰富战术玩法,运筹帷幄赢得即时对战

作为一款主打足球策略的全新手游,《实况球会经理》在即时对战中的玩法则向玩家们诠释了主教练执教工作的精髓所在。除了球队阵型随心可以设置外,球队战术也包括了进攻与防守两类打法下的诸多设定,追求快速反击可以设定长传、侧翼进攻等选项,追求传控足球也可以布置短传、保持队形等选择。在球员个人层面,则能够进行点球、定位球等安排,进一步丰富球队进攻套路。阵型与战术的合理搭配,才能够让球员之间的化学反应更为激烈,球队才能并发出最大实力。实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!赛场局势风云变幻,玩家们也将面临着不断的挑战,在《实况球会经理》的即时对战中,在战术安排上细微的变化可能会对战局产生巨大影响,唯有“见招拆招”的实时调整,方能保证在这场绿茵博弈中不落下风。当足球战术调整不足以改变局势时,玩家们也可以通过换人来为球队注入新鲜血液,甚至还能够缔造属于自己的“弗格森时间”,在比赛最后的一刻力挽狂澜、反败为胜。基于游戏超过5000名球员的丰富真实授权,头球出色的C罗、善于组织的梅西乃至当红国脚武磊都可以成为球队杀手锏,最后时刻的换人名额尤为重要,作为关键人物的你拥有左右比赛的权力,让谁上场你说了算!实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!3D画面为玩家带来视觉震撼,实时策略则提出了绿茵智慧考验,这一对王牌组合实现球迷玩家执教梦想的同时,让每一个人都可以感受到足球战术的魅力。目前,距离《实况球会经理》正式开启公测还有不到20天的时间,官网预约活动也仍在火热进行中!

若想关注最新资讯,请多多关注网易手游频道!

安卓、iPhone实况照片效果大PK,为何Reno12后浪更猛?

实况照片新玩法,安卓后浪更猛,谁将笑到最后?

在过去的几年里,实况照片功能逐渐成为手机拍照新体验。这种功能可以在拍照前后记录短视频,生成动态照片效果,让静止的照片变得生动有趣。苹果公司最先在iPhone 6s上推出了Live Photos实况照片功能,用户反馈不错,可以很好地记录下拍照前后的精彩瞬间。(第一结束

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

随着实况照片功能在苹果手机上获得成功,安卓阵营也加入了这一行列。近年来,越来越多的安卓手机也开始支持实况照片拍摄。与iPhone的Live Photos相比,安卓阵营的实况照片效果还有待完善和提高。

目前主流安卓机型的实况照片效果还无法与iPhone 6s旗舰机型相媲美。这主要是因为苹果在硬件上进行了加速优化,采用了专门的硬件加速技术,可以更流畅地播放动态照片。而安卓阵营由于硬件差异,加上缺乏统一优化,导致实况照片效果参差不齐。

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

近期有一些安卓手机厂商开始加大实况照片功能的研发投入,试图在这一领域超越苹果。比如,OPPO最新发布的Reno12系列手机,就在实况照片拍摄上做了不少优化和改进。

据了解,OPPO Reno12系列在硬件和算法上都进行了升级,以提升实况照片的拍摄效果。硬件方面,这款手机搭载了业内顶级的影像处理芯片,可以对动态画面进行更好的捕捉和处理。算法方面,OPPO也推出了自主研发的AI智能拍摄算法,通过深度学习等技术,对实况照片的画质、流畅度等进行了优化

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

除了硬件和算法的提升,OPPO Reno12系列还增加了一些创新功能,让实况照片拍摄更加出众。比如,这款手机支持长达5秒的实况照片录制时长,可以记录更长的动态场景。还新增了实况照片编辑功能,用户可以对拍摄的动态照片进行剪辑、添加滤镜等后期处理。

业内人士表示,OPPO在Reno12系列上对实况照片功能的大幅升级,展现出这家手机厂商在影像拍摄领域的决心。OPPO有望进一步加大在这一领域的投入,持续提升实况照片的拍摄体验。(结束)

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

除了OPPO之外,其他安卓手机厂商也在加大实况照片功能的研发力度,希望能在这一领域取得突破。

比如,三星最新发布的Galaxy S24旗舰手机,就在实况照片拍摄上做了重点优化。这款手机采用了三星自主研发的"动态视觉增强"技术,可以对实况照片的画质、流畅度等进行AI增强,让动态画面更加细腻生动。

另外,vivo也推出了一款专注影像拍摄的新机型vivo X80 Pro,其中实况照片功能就是一大亮点。这款手机不仅支持长达10秒的实况照片录制,而且还新增了"动态全景"模式,可以拍摄超广角的动态全景照片,为用户带来全新体验。

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

业内人士,实况照片功能正成为手机厂商新的竞争焦点。各家厂商都有望在硬件、算法、功能等多方面持续加码,以提升实况照片的拍摄质量,吸引更多用户。

实况照片功能未来还有哪些发展趋势和创新点呢?对此,多家手机厂商和业内专家都作出了自己的判断和。

在硬件层面,未来手机可能会采用专门的实况照片拍摄芯片,进一步提升动态画面的捕捉和处理能力。有师预计,未来5年内,手机厂商在实况照片硬件上的投入将持续增长。

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

在算法层面,AI技术有望进一步渗透到实况照片拍摄中,通过深度学习等技术,对动态画面进行智能和优化,提升画质、去噪、防抖等多方面效果

在功能层面,实况照片拍摄模式也有望进一步拓展。比如,未来可能会出现实况照片+AR增强现实的创新玩法,让用户可以在动态照片中添加虚拟元素;也可能会出现实况照片的3D重建功能,让平面照片变成立体动态画面等。

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

在体验层面,实况照片的分享和社交功能也将得到加强。用户不仅可以在手机上欣赏动态照片,还能将其分享到社交平台,让更多人一同体验生动的瞬间。

实况足球3d视觉 CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!