前言

数字媒体技术基础课件总结浓缩,幕布版可以访问这里

数字媒体技术概论 专题一

媒体 medium

  • 交流传播工具

    • 广播 广告
  • 媒介 - 信息

  • 类型

    • 显示媒体

    • 感觉媒体

    • 存储媒体

    • 表示媒体

    • 传输媒体

  • 多媒体

    • 计算机技术 数字通信网络

    • 文本

    • 图形

    • 图像

    • 声音

数字媒体

  • 二进制

  • 数字化

    • 模拟信号

      • 连续

      • 人脑处理

      • 如图img

    • 数字信号

      • 离散

      • 计算机处理

      • 如图img

    • 模/数转换(A/D)

    • 数/模转换(D/A)

  • 香农 信息传递模型

  • 分类

    • 时间

      • 静止

      • 连续

    • 来源

      • 自然

      • 合成

    • 组成

      • 单一

  • 传播模式

    • 信息论的通信模式
      • 如图img
  • 内涵

    • 技术 艺术 (接下来七个专题)

      • 数字声音

      • 数字图像

      • 数字视频

      • 数字动画

      • 数字压缩

      • 数字储存

      • 数字管理与保护

      • 数字传输

    • 流程

      • 如图img

数字信息

  • 获取 输出

  • 存储

    • 磁存储

      • 磁盘 磁带
    • 光存储

      • CD VCD

      • 蓝光存储

    • 半导体存储

      • RAM ROM
  • 处理 生成

    • 来源

      • 现实生活

        • 需要数字化
      • 数字生活

    • 数字化

      • 采样 量化 编码

动画技术

  • 运动捕捉

传播技术

  • 以流stream形式传播

信息管理

  • 多媒体数据库

  • 信息检索

    • 文本

    • 内容

      • 颜色 场景等

      • 图像

        • 特征提取

        • 图像分析

      • 如图img

      • 未来发展方向

数字图像技术 专题二

概念

  • 模拟图像

    • 空间和亮度 连续
  • 数字图像

    • 空间和亮度 有限数字表示

内容

  • 图像处理

    • 图像-图像
  • 图像分析

    • 图像-信息

    • 困难

      • 多义性

      • 环境

      • 数据

    • 如图img

应用

  • 遥感探测

  • 媒体通信

  • 空间探索

  • 生物医学

  • 文娱产业

数字图像处理

成像模型

  • 图像:f(x,y) 0<f(x,y)<A

  • 可由两分量表示

    • 照射到观察景物 光总量

    • 景物反射/透射 光总量

采样

  • 连续图像 数字化

  • 栅格grid

    • 采样点平面上排列
  • 像素 pixel/image element

    • 理论量

    • 图像最小单位

量化

  • 连续数值->数字等价量

  • 如图img

分辨率

  • 屏幕(显示)分辨率

    • 显示器区域
  • 图像分辨率

    • 数字图像大小
  • 空间分辨率

    • 图像可分辨最小细节

    • 采样间隔决定

    • 空间分辨率 高 采样间隔小 图片好 图像尺寸大

  • 灰度级分辨率

    • 0-255 : 256

    • 和灰度级数有关

    • 灰度级分辨率低 图像信息少 伪轮廓多

    • 例如img

  • 说明

    • 空间分辨率不变,采样数少 图像小

    • 例如img

图像深度 显示深度

  • 图像深度

    • 每像素 位数(灰度/颜色)
  • 显示深度

    • 显示器每点 显示颜色 位数
  • 失真

    • 显示深度<图像深度

图像大小计算

  • 像素总数x图像深度➗8

  • 举例计算

    • 如图img

表示

  • 元素

    • 矩阵

    • 存储MxN图像需要位数: MxNxk

  • 坐标

    • 如图img
  • 子窗口

    • 如图img

颜色模型

  • RGB

    • 多媒体系统输出的彩色空间
  • HSI 色调 饱和度 亮度

    • hue

      • 物体反射 优势波长

      • 角度表示 反映物体接近光谱波长

        • 0:red

        • 120:green

        • 240:blue

    • saturation

      • 彩度/明度 色彩鲜艳程度

      • 和hue的纯度有关

      • 颜色深浅

      • 参数:色环原点到彩色点半径长度

        • 环外饱和度:1

        • 中心 :0

    • intensity

      • 表面发光

      • 和物体反射率成正比

  • YCbCr

  • CMY CMYK

    • CMY

      • 印刷行业
    • CMYK

      • 如图img
  • YUV

    • Y 亮度

    • U,V 色差信号

    • PAL制 模拟电视

  • hsi和rgb转换

    • 如图img
  • yuv和rgb转换

    • 如图img

调色板

  • 真彩色 伪彩色

    • 真彩色

      • rgb各8bits表示图像
    • 伪彩色

      • 像素值为调色板索引值
  • 16色/256色显示系统,为一个颜色表(0-15/0-255),其每一个元素对应一个rgb值

  • look up table lut

图像度量

  • 距离

    • 距离度量函数
      • 如图img
  • 测量方式

    • 欧式

      • 如图img
    • 街区

      • 如图imgimg
    • 棋盘

      • 如图img

直方图

  • 定义

    • 描述灰度级函数

    • 像素出现个数/频率

  • 图像对一个直方图 直方图可以对多个图像

  • 应用

    • 边界选择

    • 图像质量评估

      • 如图imgimg
  • 均衡化

    • 思想

      • 像素多 展宽 像素少 缩减 达到清晰图像
    • 如图imgimg

位图 矢量图

  • 位图

    • 矩阵(点阵) 栅格

    • 超过分辨率 会产生锯齿

    • 彩色网格/像素表示图像

      • 像素有特点位置和值
    • 软件

      • Adobe Photoshop
  • 矢量图

    • 数学向量记录图像

      • 线条

      • 色块

    • 轮廓形状 易 修改 控制

    • 和分辨率无关

    • 软件

      • Adobe illustrator

数字音频技术 专题三

概念 特性

  • 声音产生

    • 介质传播 连续振动的波
  • 特性

    • 频率 振幅 周期

      • 频率

        • 每秒往复振动次数

        • Hz

        • 振动快 频率大 音调高

        • 次声波

          • <20

          • 地震 风暴

        • 超声波

          • >20

          • 医学

          • 清洗(牙刷)

        • 人耳可听声

          • 20~20k

          • 低频 <500

          • 中频 500~2000

          • 高频 >2000

      • 振幅

        • 偏离中心的幅度 动能 势能

        • 声压大 响度大

    • 音调 响度 音色

      • 关系(左至右)

      • 频率 振幅 频谱结构

    • 傅立叶定律

      • 有限频谱 不同频率正弦波 可以叠加为 复杂波形
    • 分贝(decibel)

      • 振幅类 物理量 度量单位

      • 分贝值(dB)=10lg(声源功率/基准声功率)

      • 零分贝

        • 正常人听到最小音
    • 周期

      • 振动一次 时间
    • 波长

      • 周期内 声波传播距离

      • 低频 波长长 各向均匀传播

      • 高频 向前直射

      • 遇到阻碍物 衍射

设备

  • 声卡

  • 耳机

  • 音箱

  • 麦克风

  • MIDI键盘

    • music instrument digital interfaceimg

数字化

  • 模拟音频

    • 录制 振动产生声音 存于介质(磁带),电信号
  • 数字音频

    • 二进制 离散 信号
  • 步骤

    • 如图img
  • 概念

    • 采样

    • 采样频率

    • 采样定理

    • 量化

    • 量化位数

    • 量化深度

    • 编码

    • 波形编码

    • 参数编码

    • 感知编码

    • 声道数

    • 质量 数据量

  • 数据存储量 计算

    • 如图img
  • 指标参考

    • 采样频率 间隔短

    • 量化深度 等级多

    • 音频码流率 大

语音机理

  • 语音生成

    • 如图img
  • 共振峰

    • 声道具有一组共振频率
  • 感知

    • 听域 听阈

      • 感知声音范围 ; 听到最低声压
    • 响度

    • 掩蔽效应

      • 声音听阈 因 另一个声音 出现升高

信号模型

  • 激励模型

    • 基音为周期 斜三角脉冲串
  • 调制模型

    • 无损声管模型 共振锋模型
  • 辐射模型

  • 数字模型

    • 如图img

    • 局限

      • 声门 声道 耦合 非线性

语音分析

  • 短时时域信息

    • 预处理

      • 预加重

      • 分帧

      • 加窗处理

    • 分析

      • 短时能量

      • 平均幅度

      • 短时平均过零率

      • 短时自相关函数

      • 短时平均幅度差

  • 短时频域倒谱分析

    • 短时傅立叶变换
  • 语谱图

    • 如图img

    • 1941 贝尔实验室

    • 三维显示频谱特性

    • 生成

      • 采样

        • 连续-离散
      • 预加重

      • 分帧

        • 不定长 分为 固定长度 小段
      • 加窗

      • 使分帧端点不突变

      • 变换

        • 频谱坐标化

        • 逆时针旋转坐标

        • 幅度映射颜色

      • 拼接

    • 宽带 窄带 语谱图

技术

  • 语音合成

    • 波形编码

    • 参数分析

    • 应用

      • 文语转换
  • 语音增强

    • 噪声对消

    • 谐波增强

    • 参数估计

  • 语音识别

    • 如图img

数字视频技术 专题四

视频概念

  • 动态图像

  • 数字视频

    • 视觉暂留

      • 24帧
        • 人员无法辨别静帧 有平滑感觉
    • 数字电视 1990 DTV digital TV

    • 帧率 fps 帧/s

      • frame per second
  • 模拟视频

    • 电视台广播信号

    • 连续

    • 标准

      • NTSC

        • national television standard committee
      • PAL

        • phase alternating line
      • SECAM

        • sequential color memory

        • 东欧 法国

      • 以上互不兼容

  • 隔行扫描 逐行扫描

    • 逐行帧

      • 奇数行 偶数行 同时间 采样
    • 隔行帧

      • 奇数 偶数 不同时间 采样
    • 顶场

      • 隔行帧 偶数行
    • 底场

      • 隔行帧 奇数行
    • 逐行视频

      • 逐行帧 视频序列
    • 隔行视频

      • 隔行帧 视频序列
    • 对比

      • 相同数据量 隔行采样 增加采样率 , 时域运动平滑

视频 获取 编辑

  • 视频采集(捕捉)卡

    • video capture card

    • 对信号采集 量化 压缩编码为数据视频流

  • 摄像机

    • 镜头

    • CCD

    • 数字信号处理DSP芯片

    • 存储器

    • 显示器 LCD

  • 质量评估

    • 峰值信噪比 peak signal noise ratio PSNR

      • 均方误差越小 峰值信噪比越大 失真越小
    • 结构相似度 structure similarity index SSIM

    • 多尺度结构相似度 multi scale structural similarity index MS-SSIM

运动估计

  • 光流

    • 对象/相机移动,两连续帧间 明显运动模式
  • 块匹配

    • 基于运动准则 参考帧和当前帧 尺寸匹配

    • 穷举

编码标准

  • AVI

    • video for windows
  • MOV

    • quick time for windows
  • MPG

    • mpeg压缩
  • DAT

    • VCD mpeg压缩

数字媒体压缩技术 专题五

数据压缩

  • 数据冗余

    • 数据计算

      • 如图img
    • 空间

      • 重复的像素

      • 较少编码 表示 原数据

      • 基础

        • 变换编码

        • 量化

        • 熵编码

    • 时间

      • 相邻帧 相似性

      • 预测 ,运动补偿 压缩

    • 结构

      • 纹理结构

      • 自相似性

    • 视觉

      • 对 某种信号颜色 不敏感

      • 视觉惰性

        • 蓝色 红绿色

        • 25帧采样

        • 遮蔽效应

  • 压缩比(压缩率)计算 想对数据冗余计算

    • 如图img
  • 压缩分类

    • 如图

      image-20210517163438935
      • 统计(熵)

        • 无记忆信源

        • 根据 码字概率 压缩

        • 寻找 码字长度 概率 最优匹配

      • 预测

        • 空间 相邻数据 相关性 压缩数据
      • 变换

        • 时域->频域
      • 分析-合成

        • 分析 源数据 提取特征参数(基元)
          • 编码 仅对 特征参数(基元)
    • 无损压缩

      • 如图img

      • 例如

        • Huffman

        • 行程

    • 有损压缩

      • 如图img

压缩编码

  • 理论基础

    • 信息论

    • 信息熵

        • 某事出现消息越多 出现概率越小
    • 信息量

      • 如图img
    • 平均码字长度

      • 如图imgimg
    • 编码效率

      • 如图img

熵编码

  • 变长最佳编码

    • 概率大 信息符号 短码字

    • ​ 小 长码字

    • Huffman理论基础

Huffman

  • 举例计算

    • 如图imgimgimgimg
  • 适用于 概率分布不均匀 信源

游程编码

  • 游程灰度 行程长度 代替 游程本身

  • 举例计算

    • 如图img
  • 二维游程编码

    • 扫描 二维转一维

      • 如图img

      • 练习 计算img

  • 分析

    • 适合 大面积色块

      • 例如 传真 白色多 黑色少 计算

        • 500w 3b 3000w 12b

          • w :white b:black

          • 由于 2048<3000<4096

            • 黑白统一分配,计数需要12bits(2的12次方)

            • 若不统一分配

              • 黑色:4bits

              • 白色:12bits

              • 则数字部分编码位数:12,4,12,4

              • 数字部分字节数:12x2+4x2

    • 不适合 复杂图像

预测编码(DPCM)

  • 相邻像素 信息冗余

  • 过程

    • 如图img
  • 举例计算

    • 如图img

变换编码

  • 过程

    • 如图img
  • 举例

    • 如图img

混合编码

  • 举例计算
    • 如图imgimg

动态图像压缩

  • 视频图像编码标准

    • 如图img

    • 国际标准化组织

      • JPEG

        • joint photographic experts group
      • MPEG

        • motion picture experts group
      • VCEG

        • video coding experts group
  • jpeg压缩编码

    • 无损压缩

      • 差分冒充调制 DPCM
    • 有损压缩

      • 离散余弦变换 DCT

      • 如图img

  • 视频编码

    • 解码

      • 预测 - 变换 - 量化 - 熵编码 - 环路滤波
    • 压缩

      • 帧内压缩

        • 图像压缩

        • 每帧 独立编码

          • 不依赖 前后帧
      • 帧间压缩

        • 利用 数据 时域冗余
          • 运动补偿变换编码
    • 分快编码 每一块一个单元

      • 分快后 自上而下 自左向右 对每单元处理
    • 码流结构(自上而下)

      • MPEG流(mpeg stream)

      • 图像组 (GOP group of pictures)

      • 图像(image)

      • 宏块(Marco block)

      • 块(block)

    • 标准

      • mpeg1

        • 1992
      • mpeg2

    • 技术

      • 采样

        • YCbCr比rgb 更好压缩
      • 预测

        • 1952

        • 差值脉冲编码调制

        • 帧内预测(消除 空域 冗余)

        • 帧间 时域

        • 运动图像 临近帧 相关性

          • 空间位置 相对偏移量 运动矢量
      • 变换

        • 正交变换 去除 空间像素 相关性

          • 变换后 频域系数 使 图像紧凑

          • 能量 集中 低频区域

          • 举例

            • K-L(Karhunen-Loeve)

            • DCT

            • DWT(wavelet 小波)

      • 量化

        • 降低 数据精度 减少编码量

        • 矢量量化 标量量化

        • 有损压缩 失真

        • 调整量化步长 调整图像质量

      • 熵编码

        • 去除 信源符号 信息冗余

        • 信息熵原理 压缩

      • mpeg4 基于对象编码

        • 依赖 场景 任意形状 对象检测 编码

        • AV对象(Audio/Visual)

          • 知识产权保护

          • 表示 听觉 视觉 视听组合

          • 允许组合

        • 分割与编码

          • 如图img
        • 视频对象平面 VOP video object plane

          • 视频某一时刻采样

H26.x标准

  • h261 1990 h263 1995

  • h264 mepg4 part10 高级视频编码

  • 特点

    • 提高效率

    • 提告网络适应

  • 技术

    • 分层设计

    • 高精度 多模式 运动估计

    • 4x4整数变换

    • 统一VLC

    • 帧内预测

    • 切换帧(SP SI)

    • 面向IP、无线环境

AVS audio video standards

  • 我国自主制定标准

  • 目标

    • 媒体数据压缩至原 百分之一
  • 技术

    • 整数变换(8x8)

    • 量化

    • 帧内预测

    • 像素插值

    • 运动补偿(帧间)

    • 熵编码(二维)

    • 环内滤波

多媒体数据安全 专题六

隐写术

  • 信息 嵌入 媒体数据 传送

  • 隐藏消息 -> 隐蔽通信

  • 对抗式研究:信息隐藏 <-> 信息隐藏分析

数字水印

  • 标识信息 (如数字水印)嵌入 数字载体 (媒体,文档)

  • 不影响 原载体 使用价值

  • 不容易 探知 修改

  • 生产方 易识别

  • 保护版权 信息安全 防伪溯源

多媒体取证

  • 多媒体 原始性鉴别

  • 无损取证溯源

    • 对 篡改内容 取证

    • 对 多媒体设备 溯源分析

多媒体感知哈希

  • 多媒体数据集 映射 感知特征集

  • 多媒体数据 <-> “指纹”(特征)数据

    • 图像相似<->指纹(特征)相似

多媒体内容隐私

  • 保护敏感内容

  • 图像

    • 访问权限控制

      • 可见范围

      • 有效期

    • 重要信息 特殊编码

  • 视频

    • 保护 数据源 编码过程

    • 保护隐私 不影响观看

    • 保护目标

      • 身份

      • 人脸

案例

基于图像信息隐藏

  • 心理 视觉欺骗(所见即所得)-> 秘密信息 位于 对图像影响小的位置

  • 提取方法 还原 秘密信息

  • 技术指标

    • 隐蔽性

    • 鲁棒性

    • 安全性

    • 对称性

    • 可纠错

    • 效率

  • 技术

    • 空间域

      • 原始像素 嵌入信息

      • 最低有效位 LSB

        • 隐藏信息 -> 宿主最低有效位
    • 变换域

      • 隐藏信息 图像高频分量

        • 人眼 高频 不敏感
      • 扩频隐藏

      • DCT隐藏

      • 小波隐藏

    • 融合

      • 利用 图像 相关性 ,放大 原始公开图像 隐藏 三副与公开图像 大小一样的数字图像

      • 彩色图像 实用

    • 量化噪声伪装

      • 通过 控制量化等级 嵌入 图像数据流

        • 嵌入数据 相对 原图 类似噪声

        • 不易发现

基于音频信息隐藏

  • 音频载体 对人耳 不敏感的音频参数

  • 技术指标

    • 鲁棒性

    • 安全性

    • 透明性

    • 不可检测

  • 技术

    • 时域

      • 对 音频信号 幅度 / 文件结构 处理

      • LSB隐藏

      • 回声隐藏

      • 音频文件结构隐藏

    • 频域

      • 离散傅立叶变换 -> 频域特征处理 -> 信息嵌入

        • LSB

        • 扩频

        • 相位

        • 频带分隔

    • 离散余弦变换域(DCT)

      • DCT变换->DCT系数操作->信息嵌入

      • 对 数模、模数转换 抵抗力强

    • 小波域

    • 压缩域

基于视频信息隐藏

  • 原始视频

    • 秘密信息 嵌入 元数据 -> 压缩编码
  • 压缩域

    • 解码 -> 编码过程 嵌入 信息

    • 技术

      • 联合预测误差 隐藏

      • MPEG压缩域 隐藏

  • 码流域

    • 信息 嵌入 压缩 码流

    • 接收方 从 码流 提取 秘密信息

    • 技术

      • MPEG4 纹理编码 隐藏

基于jpeg压缩 数字水印

  • 算法流程

    • 图像分割 8x8 不重叠 图像块(后续单独处理)

      • 如图img
    • 颜色空间转换 RGB->YCbCr

      • 如图img
    • Y:离散余弦变换

      • DCT变换的图像数据

        • DC 直流系数

          • 图像主要区域
        • AC 交流系数

          • 图像轮廓细节
      • 如图img

    • 数据量化

      • 根据量化表计算 公式:B=G/Q

        • B:量化后结果

        • G:输入值

        • Q:量化系数

      • 如图img

    • 嵌入信息 Y 放回 YCbCr -> RGB

      • 嵌入原理

        • 低频分量

          • 图像的主要信息

          • 决定灰度等级

        • 中频分量

          • 图像的基本结构
        • 高频分量

          • 边缘和细节
        • 如图img

      • 如图img