网络监控

我公司于2008年底开始参与不良信息监控此项目的研发工作。并与广东移动进行合作，以广州为试点进行了项目实施，为中国移动提供技术与数据上的支持，并取得了良好的效果。
新华网2010-03-02：中国移动又追加１亿多元专项资金进行技术攻关，ＷＡＰ网站不良信息拨测系统将在全国范围进一步深入建设和推广，在已经建立广东支撑中心的基础上，再建设北京、上海两个支撑中心，最终形成北京、上海、广东三个主要支撑中心，建立覆盖全国所有３１个省、自治区、直辖市的完备的自动拨测体系。
据此，我公司在建立全国范围内的不良信息监控领域内走在了前面，起到了非常重要的作用。网络监控的核心技术包括：网址内容智能抓取技术、流式媒体综合分析技术、海量文件数据索引技术、图像特征模糊匹配技术。

1.网址内容智能抓取技术
网址内容智能抓取技术应用在互联网上，系统每周定期抓取数以百万计万计的页面，对数以万计的页面进行扫描处理。系统的体系架构如下图所示：

内容采集服务
根据给定入口地址，通过深度遍历，抓取从指定入口地址的所有页面，记录下url链接，下载时间，文档类型等信息。如果是文字信息，将内容交给敏感词扫描系统处理；如果是图片、视频信息，将内容提交数据保存服务存储。
提供排重功能，只扫描更新的入口的链接，对于扫描的层次深度，可以根据配置文件进行调整，对不同网站可以设定扫描频率的权重。

      敏感词扫描服务
      敏感词扫描服务负责对文字信息中的关键词进行扫描，对于包含关键词字典中关键词的页面，提交数据保存服务，记录下该页面相关的信息。
      数据保存服务
      数据保存服务为其他模块提供数据服务，主要需要维护数据库数据与文件存储器上的图片和视频文件的数据完整性和一致性。

网址内容智能抓取技术关键业务流程
内容获取后进行分析和扫描，分析出页面上新的链接继续抓取，管理员可以定义抓取的层数，在抓取的页面层数已经到达管理员定义的数值或是已经没有新的链接的时候自动停止抓取。
业务流程如图2所示：

2.流式媒体综合分析技术
flow 按照视频分析系统的处理流程，主要分成了以下几个模块：
视频文件采集模块：
对视频文件的获取，需安装视频文件抓取程序和网址过滤程序，对视频文件链接进行主动连接获取。
视频文件解码模块：
对视频文件的解码，对视频文件进行解码，对解码后的序列图像帧进行处理。
视频文件关键帧选取模块：
对视频中的各个镜头内选取具有代表性的静态图像，作为视频内容分析的主要对象
视频文件分类模块：
对序列图像帧的检测，结合色情图片检测技术和视频对象分割技术，检测序列图像中的色情内容和对象，进行自动分类。
视频文件管理模块：
对自动分类视频的人工处理，对自动分类的高可疑视频进行最后的人工确认，最后形成报表。

由于目前手机上流行的视频分辨率普遍较低（相对于静态图片的分辨率），所以现有的针对违规图片的检测技术将不能直接用于检测图像帧。需要开发不同的图像帧识别算法来进行视频的分析，该算法下的检测方案描述如下：
视频帧的分辨率一般较静态图片低，但帧与帧之间的连续性提供了比静态图片更多的信息：首先我们可以利用连续帧之间的内容连贯性来对视频作出初步判断，其次利用视频的连续帧之间的差异我们可以识别前景目标，这在违规视频检测中的作用非常重要，大多数的违规内容是通过前景目标来反映的。
利用视频文件较小的条件，计算所有帧之间的差异，对镜头转换和偏移进行探测，形成虚拟背景，区别每帧的背景和前景目标，找出视频中的前景目标，提取其具有代表性的特征（肤色，大小，位置，颜色，帧数等相关特征）。对所有样本计算前景目标特征，进行学习和训练，归纳模型参数，最后建立分类模型。

3．海量文件数据索引技术

说明：

dae采集器下载网页，通过分析如果网页中有图片、视频连接会将图片、视频文件下载并保存到磁盘阵列上，然后将静态页面发送给存储服务。
存服务服务接收到dae采集器发送过来的静态页面将静态页面存储在磁盘阵列上
挖掘服务访问存储服务按下载时间挖掘静态页面发送给FtiGroup建索引
FtiGroup接收到静态页面后会分发到各检索节点FtiSvr建索引

4．图像特征模糊匹配技术
      系统采用的违规图片识别技术主要是基于图片中肤色象素的特征来进行分类，它首先需要大量样本来提取特征和训练分类器，待分类器训练完成以后，它即可以用来对新的图片进行分类，同时可以对错误的图片进行在线学习。

(1)肤色检测
      肤色检测是指提取图片中的所有肤色象素。大多数肤色的一个很重要的特点是它的色度(Hue)和饱和度(Saturation)在一个相对较小的范围内波动，所以系统首先求得图像象素的色度(Hue)和饱和度(Saturation)值。然后，利用大量的样本我们可以对肤色象素的色度(Hue)和饱和度(Saturation)建立一个分布模型，这个分布模型可以用多种方式来表示，如高斯分布模型和混合高斯分布模型。我们采用的是混合高斯分布模型，因为它的描述能力大大高于单个高斯分布。最后，每个象素系统通过计算其似然(likelihood)值来判断其是否为肤色象素。
(2) 连通域计算
      连通域指图像中相邻的具有某种相似特性组成的象素集合，这里我们计算图像中所有肤色象素所组成的连通域。连通域计算涉及到一些实用的规则，例如去除尺寸较小的连通域，合并非常接近的连通域等等，这里主要将用到图像处理中的图像腐蚀与膨胀等形态学操作。
(3) 特征提取
      特征是图像分类的关键，选取合适的、具有分辨度的特征是系统成功的核心。这里的难点来自于应用本身：即色情图片的形式或模式几乎是无穷尽的，所以现实中我们很难人为去精确地定义色情图片的特征。我们在系统中利用连通域对每幅图片计算了9维特征，它们即包括了图片中主要连通域（局部）的尺寸，位置，形状等信息，也包括了图像所有肤色象素（全局）的信息。