体育视频的内容标注和解析技术研究工作报告

时间：2020-11-09 19:19:45 报告我要投稿

　　一，开展本课题研究的意义

体育视频的内容标注和解析技术研究工作报告

　　近年来，数字视频的应用日趋广泛。诸如视频点播，数字电视，数字图书馆，视频会议，远程教育等等，已经为越来越多的人所接受和熟悉。面对大量涌现的视频数据，如何找到所需的视频信息就成为一个急需解决的问题。

　　简单的视频名查询和类似录像机的播放功能已不能满足人们的需要。正如一本书通常会有目录和索引帮助人们迅速浏览和查询内容，一部视频同样需要有效的目录和索引。传统的方法需要由人对视频内容进行标注，十分费时费力。尤其是当视频资源的数量达到海量级，或是处理的速度要求接近实时的时候，完全采用人工的方法都会遇到难以克服的困难。为了解决这一问题，九十年代以来，出现了基于内容的视频分析和检索。其核心就是通过对视频内容进行计算机分析理解，建立结构和语义索引，以方便用户检索。

　　巨大的商业前景和重要的学术价值，吸引了来自于业界和学术界不同领域的研究人员在这一问题上开展研究。一些原型系统先后被提出，主要有ibm的qbic/cuevideo，virage公司的video engine，卡内基梅隆大学的informedia，哥伦比亚大学的videoq等。这些努力最终促成了国际标准——mpeg—7（多媒体内容描述接口）的诞生。但是随着问题的深入，研究人员面临了更大的障碍：视觉/听觉内容的机器理解，即难以建立底层特征与高层语义的联系。同样的难题困扰了人工智能领域多年。一般认为，寻找通用的解决方法是异常艰难的。因此，一些研究转而专注于解决特定领域的应用问题，如新闻，电影等。在这些特定领域，结合相应的领域知识，是可能将底层特征与高层语义建立某种联系的。

　　体育视频，即体育比赛的电视转播，作为一个重要的应用领域，一直备受关注。体育比赛一般很漫长，但对于大多数观众来说，真正关心并有可能反复观看的只是其中的一小部分。例如一场跳水比赛常常需要持续几个小时，而其中的精彩部分——运动员从起跳到入水的过程却只有短短几分钟。人们需要一种方便快捷的手段来访问体育视频的内容。

　　与其他视频相比，体育视频具有自己的特点。首先，体育视频中存在一些领域相关的语义事件，如跳水比赛中运动员的跳水，足球比赛中的射门等。这些语义事件往往是视频中最有价值的部分，需要进行标注以便于检索。其次，体育比赛一般有较强的结构性，如跳水比赛由若干轮组成，每轮又由若干选手组成等。为了便于对视频内容的浏览，原始的视频数据应按这些结构进行解析并组织成层次目录。本课题的`目标就是研究针对体育视频内容的语义标注和结构解析技术。

　　尽管限于当前的技术水平，完全自动的，通用的视频内容理解是不太可能的，但是本课题的研究将证明部分的解决是有可能的和有价值的，此外我们的研究也将为最终的全面解决奠定基础。除了学术上的意义，本课题的研究还可以有以下一些直接的应用：

　　1，视频资料库：适用于各类体育专业人士或爱好者对收集的体育比赛视频资料进行查询，浏览和管理。目前，我们已申请到国家体育总局的科研项目——跳水训练图像分析软件系统研制。通过对跳水比赛视频的内容标注与解析，能够方便快捷的实现一个典型动作的视频数据库。

　　2，web多媒体发布：适用于新闻或者体育网站在web上及时发布体育多媒体信息。今天，已经有越来越多人的习惯于从网上获取最新的资讯。基于我们的技术，可以在第一时间采编和发布综合图文和视音频在内的体育多媒体信息。共8页，当前第1页12345678

　　3，个人移动业务：适用于无线服务提供商为个人提供定制的多媒体消息服务（multimedia message service，简称mms）。我们的内容标注和解析技术，可以为冗长的体育视频生成摘要，从而可以根据用户的个人喜好和终端能力，向移动设备发送体育多媒体消息。

　　二，国内外研究现状分析

　　国际上对于体育视频的研究是从90年代中期开始的，属于视频检索领域的一个子课题。与新闻视频领域取得的成功相比[10][11]，体育视频的研究相对较少也更为困难。这主要是因为新闻视频有一个基本一致的时域结构和场景语义，即先是播音员镜头，然后是新闻报道，最后再回到播音员镜头进行下面的新闻报道，而对于体育视频则不存在这样统一的结构和语义。目前体育视频的研究尚处于初期探索阶段，对于其过程和方法还没有统一的结论，也还没有可以投入实用的系统。

　　1，镜头检测

　　通常在对体育视频进行分析前，需要将其分割成镜头。所谓镜头，是指摄像机不间断拍摄的一组帧序列，它常被看成一部视频的最小结构单元。为了将镜头分割出来，需要进行镜头边界检测。镜头与镜头之间的边界有两种类型：突变和渐变。突变时，镜头直接切换到下一个；渐变时，从一个镜头到下一个镜头会有一个持续多帧的变化过程，常见的主要有淡出淡入（fade out and fade in），溶解（dissolve），擦变（wipe）等。淡出淡入是指视频帧逐渐隐去直到完全黑屏，再逐渐显现后一镜头的帧图像。溶解是指在前一镜头帧图像逐渐模糊的同时，后一镜头的帧逐渐增强，并且产生前后帧图像的重叠。擦变表现为后一镜头帧图像的区域逐渐变大把前一镜头的图像擦掉。

　　镜头检测的关键问题是如何区分镜头之间的切换和因为摄像机或物体运动造成的镜头内变化。由于这个原因，渐变比突变更难以检测。早期的工作主要在突变检测，近来更多的研究集中到对渐变的分析。

　　镜头检测的方法可以分为两类：非压缩域的和压缩域的。在[12][13]中，对各种非压缩域的镜头检测算法进行了实验评价。与非压缩域的方法相比，基于压缩域的方法不需要对视频编码流进行解码，而是直接使用如dct系数，运动矢量，宏块（macroblock）信息等压缩域特征进行分析，从而提高了处理速度[14][15][16][17]。今天大量的视频数据是以压缩格式（如mpeg）存储的，因此基于压缩域的方法往往具有更大的实用价值。

　　2，语义标注

　　所谓语义标注，是指对体育视频中的语义事件进行检测和标注，其实质就是依据事先定义好的类别对视频片段进行识别。当前，国内外对体育视频研究实际上主要集中在这个方面，下面介绍一下相关工作。

　　y。 gong等首先提出了对足球比赛视频的分析[18]。他们结合足球比赛的领域知识，通过场地白线识别，摄像机运动检测，足球和运动员检测等分析，对视频内容进行推断，包括处在球场什么位置，射门，角球等。例如，如果场景接近球门区域而且足球有一个向球门的运动，则可以推断这是一个射门。实验结果表明，系统对于球场位置的识别较为准确，达到90%，但是射门和角球的识别率只有53%，这主要是因为高速运动和遮挡关系，使得足球的检测较为困难。

　　哥伦比亚大学的peng xu等观察到足球比赛可以划分为两种状态：进行和暂停（如因为球在界外或裁判暂定比赛）。他们开发了一个能够检测视频中的足球比赛是在进行还是暂停的系统[19]。该系统对足球视频分析分为两步。首先，根据颜色分析得出每一帧中的草地颜色比率，使用这个特征将帧标注为三种：全景（globe view），近景（zoom—in view）和特写（close—up view）。在检测的时候，算法可以对草色和分类决策进行学习和自动调整。接着，在对视频帧进行上述分类标记后，根据经验总结的规则（如全景一般是比赛进行，特写一般是比赛中断等）判断比赛是在进行还是暂停了。实验使用了四段来自不同足球比赛的五分钟片断，检测准确率最好达到%，最坏只有%。

【体育视频的内容标注和解析技术研究工作报告】相关文章：

小升初规划暑期学习和生活方法的解析01-14