前言
数字媒体技术基础课件总结浓缩,幕布版可以访问这里
数字媒体技术概论 专题一
媒体 medium
交流传播工具
- 广播 广告
媒介 - 信息
类型
显示媒体
感觉媒体
存储媒体
表示媒体
传输媒体
多媒体
计算机技术 数字通信网络
文本
图形
图像
声音
数字媒体
二进制
数字化
模拟信号
连续
人脑处理
如图
数字信号
离散
计算机处理
如图
模/数转换(A/D)
数/模转换(D/A)
香农 信息传递模型
分类
时间
静止
连续
来源
自然
合成
组成
单一
多
传播模式
- 信息论的通信模式
- 如图
- 如图
- 信息论的通信模式
内涵
技术 艺术 (接下来七个专题)
数字声音
数字图像
数字视频
数字动画
数字压缩
数字储存
数字管理与保护
数字传输
流程
- 如图
- 如图
数字信息
获取 输出
存储
磁存储
- 磁盘 磁带
光存储
CD VCD
蓝光存储
半导体存储
- RAM ROM
处理 生成
来源
现实生活
- 需要数字化
数字生活
数字化
- 采样 量化 编码
动画技术
- 运动捕捉
传播技术
- 以流stream形式传播
信息管理
多媒体数据库
信息检索
文本
内容
颜色 场景等
图像
特征提取
图像分析
如图
未来发展方向
数字图像技术 专题二
概念
模拟图像
- 空间和亮度 连续
数字图像
- 空间和亮度 有限数字表示
内容
图像处理
- 图像-图像
图像分析
图像-信息
困难
多义性
环境
数据
如图
应用
遥感探测
媒体通信
空间探索
生物医学
文娱产业
数字图像处理
成像模型
图像:f(x,y) 0<f(x,y)<A
可由两分量表示
照射到观察景物 光总量
景物反射/透射 光总量
采样
连续图像 数字化
栅格grid
- 采样点平面上排列
像素 pixel/image element
理论量
图像最小单位
量化
连续数值->数字等价量
如图
分辨率
屏幕(显示)分辨率
- 显示器区域
图像分辨率
- 数字图像大小
空间分辨率
图像可分辨最小细节
采样间隔决定
空间分辨率 高 采样间隔小 图片好 图像尺寸大
灰度级分辨率
0-255 : 256
和灰度级数有关
灰度级分辨率低 图像信息少 伪轮廓多
例如
说明
空间分辨率不变,采样数少 图像小
例如
图像深度 显示深度
图像深度
- 每像素 位数(灰度/颜色)
显示深度
- 显示器每点 显示颜色 位数
失真
- 显示深度<图像深度
图像大小计算
像素总数x图像深度➗8
举例计算
- 如图
- 如图
表示
元素
矩阵
存储MxN图像需要位数: MxNxk
坐标
- 如图
- 如图
子窗口
- 如图
- 如图
颜色模型
RGB
- 多媒体系统输出的彩色空间
HSI 色调 饱和度 亮度
hue
物体反射 优势波长
角度表示 反映物体接近光谱波长
0:red
120:green
240:blue
saturation
彩度/明度 色彩鲜艳程度
和hue的纯度有关
颜色深浅
参数:色环原点到彩色点半径长度
环外饱和度:1
中心 :0
intensity
表面发光
和物体反射率成正比
YCbCr
CMY CMYK
CMY
- 印刷行业
CMYK
- 如图
- 如图
YUV
Y 亮度
U,V 色差信号
PAL制 模拟电视
hsi和rgb转换
- 如图
- 如图
yuv和rgb转换
- 如图
- 如图
调色板
真彩色 伪彩色
真彩色
- rgb各8bits表示图像
伪彩色
- 像素值为调色板索引值
16色/256色显示系统,为一个颜色表(0-15/0-255),其每一个元素对应一个rgb值
look up table lut
图像度量
距离
- 距离度量函数
- 如图
- 如图
- 距离度量函数
测量方式
欧式
- 如图
- 如图
街区
- 如图
- 如图
棋盘
- 如图
- 如图
直方图
定义
描述灰度级函数
像素出现个数/频率
图像对一个直方图 直方图可以对多个图像
应用
边界选择
图像质量评估
- 如图
- 如图
均衡化
思想
- 像素多 展宽 像素少 缩减 达到清晰图像
如图
位图 矢量图
位图
矩阵(点阵) 栅格
超过分辨率 会产生锯齿
彩色网格/像素表示图像
- 像素有特点位置和值
软件
- Adobe Photoshop
矢量图
数学向量记录图像
线条
色块
轮廓形状 易 修改 控制
和分辨率无关
软件
- Adobe illustrator
数字音频技术 专题三
概念 特性
声音产生
- 介质传播 连续振动的波
特性
频率 振幅 周期
频率
每秒往复振动次数
Hz
振动快 频率大 音调高
次声波
<20
地震 风暴
超声波
>20
医学
清洗(牙刷)
人耳可听声
20~20k
低频 <500
中频 500~2000
高频 >2000
振幅
偏离中心的幅度 动能 势能
声压大 响度大
音调 响度 音色
关系(左至右)
频率 振幅 频谱结构
傅立叶定律
- 有限频谱 不同频率正弦波 可以叠加为 复杂波形
分贝(decibel)
振幅类 物理量 度量单位
分贝值(dB)=10lg(声源功率/基准声功率)
零分贝
- 正常人听到最小音
周期
- 振动一次 时间
波长
周期内 声波传播距离
低频 波长长 各向均匀传播
高频 向前直射
遇到阻碍物 衍射
设备
声卡
耳机
音箱
麦克风
MIDI键盘
- music instrument digital interface
- music instrument digital interface
数字化
模拟音频
- 录制 振动产生声音 存于介质(磁带),电信号
数字音频
- 二进制 离散 信号
步骤
- 如图
- 如图
概念
采样
采样频率
采样定理
量化
量化位数
量化深度
编码
波形编码
参数编码
感知编码
声道数
质量 数据量
数据存储量 计算
- 如图
- 如图
指标参考
采样频率 间隔短
量化深度 等级多
音频码流率 大
语音机理
语音生成
- 如图
- 如图
共振峰
- 声道具有一组共振频率
感知
听域 听阈
- 感知声音范围 ; 听到最低声压
响度
掩蔽效应
- 声音听阈 因 另一个声音 出现升高
信号模型
激励模型
- 基音为周期 斜三角脉冲串
调制模型
- 无损声管模型 共振锋模型
辐射模型
数字模型
如图
局限
- 声门 声道 耦合 非线性
语音分析
短时时域信息
预处理
预加重
分帧
加窗处理
分析
短时能量
平均幅度
短时平均过零率
短时自相关函数
短时平均幅度差
短时频域倒谱分析
- 短时傅立叶变换
语谱图
如图
1941 贝尔实验室
三维显示频谱特性
生成
采样
- 连续-离散
预加重
分帧
- 不定长 分为 固定长度 小段
加窗
使分帧端点不突变
变换
频谱坐标化
逆时针旋转坐标
幅度映射颜色
拼接
宽带 窄带 语谱图
技术
语音合成
波形编码
参数分析
应用
- 文语转换
语音增强
噪声对消
谐波增强
参数估计
语音识别
- 如图
- 如图
数字视频技术 专题四
视频概念
动态图像
数字视频
视觉暂留
- 24帧
- 人员无法辨别静帧 有平滑感觉
- 24帧
数字电视 1990 DTV digital TV
帧率 fps 帧/s
- frame per second
模拟视频
电视台广播信号
连续
标准
NTSC
- national television standard committee
PAL
- phase alternating line
SECAM
sequential color memory
东欧 法国
以上互不兼容
隔行扫描 逐行扫描
逐行帧
- 奇数行 偶数行 同时间 采样
隔行帧
- 奇数 偶数 不同时间 采样
顶场
- 隔行帧 偶数行
底场
- 隔行帧 奇数行
逐行视频
- 逐行帧 视频序列
隔行视频
- 隔行帧 视频序列
对比
- 相同数据量 隔行采样 增加采样率 , 时域运动平滑
视频 获取 编辑
视频采集(捕捉)卡
video capture card
对信号采集 量化 压缩编码为数据视频流
摄像机
镜头
CCD
数字信号处理DSP芯片
存储器
显示器 LCD
质量评估
峰值信噪比 peak signal noise ratio PSNR
- 均方误差越小 峰值信噪比越大 失真越小
结构相似度 structure similarity index SSIM
多尺度结构相似度 multi scale structural similarity index MS-SSIM
运动估计
光流
- 对象/相机移动,两连续帧间 明显运动模式
块匹配
基于运动准则 参考帧和当前帧 尺寸匹配
穷举
编码标准
AVI
- video for windows
MOV
- quick time for windows
MPG
- mpeg压缩
DAT
- VCD mpeg压缩
数字媒体压缩技术 专题五
数据压缩
数据冗余
数据计算
- 如图
- 如图
空间
重复的像素
较少编码 表示 原数据
基础
变换编码
量化
熵编码
时间
相邻帧 相似性
预测 ,运动补偿 压缩
结构
纹理结构
自相似性
视觉
对 某种信号颜色 不敏感
视觉惰性
蓝色 红绿色
25帧采样
遮蔽效应
压缩比(压缩率)计算 想对数据冗余计算
- 如图
- 如图
压缩分类
如图
统计(熵)
无记忆信源
根据 码字概率 压缩
寻找 码字长度 概率 最优匹配
预测
- 空间 相邻数据 相关性 压缩数据
变换
- 时域->频域
分析-合成
- 分析 源数据 提取特征参数(基元)
- 编码 仅对 特征参数(基元)
- 分析 源数据 提取特征参数(基元)
无损压缩
如图
例如
Huffman
行程
有损压缩
- 如图
- 如图
压缩编码
理论基础
信息论
信息熵
- 熵
- 某事出现消息越多 出现概率越小
- 熵
信息量
- 如图
- 如图
平均码字长度
- 如图
- 如图
编码效率
- 如图
- 如图
熵编码
变长最佳编码
概率大 信息符号 短码字
小 长码字
Huffman理论基础
Huffman
举例计算
- 如图
- 如图
适用于 概率分布不均匀 信源
游程编码
游程灰度 行程长度 代替 游程本身
举例计算
- 如图
- 如图
二维游程编码
扫描 二维转一维
如图
练习 计算
分析
适合 大面积色块
例如 传真 白色多 黑色少 计算
500w 3b 3000w 12b
w :white b:black
由于 2048<3000<4096
黑白统一分配,计数需要12bits(2的12次方)
若不统一分配
黑色:4bits
白色:12bits
则数字部分编码位数:12,4,12,4
数字部分字节数:12x2+4x2
不适合 复杂图像
预测编码(DPCM)
相邻像素 信息冗余
过程
- 如图
- 如图
举例计算
- 如图
- 如图
变换编码
过程
- 如图
- 如图
举例
- 如图
- 如图
混合编码
- 举例计算
- 如图
- 如图
动态图像压缩
视频图像编码标准
如图
国际标准化组织
JPEG
- joint photographic experts group
MPEG
- motion picture experts group
VCEG
- video coding experts group
jpeg压缩编码
无损压缩
- 差分冒充调制 DPCM
有损压缩
离散余弦变换 DCT
如图
视频编码
解码
- 预测 - 变换 - 量化 - 熵编码 - 环路滤波
压缩
帧内压缩
图像压缩
每帧 独立编码
- 不依赖 前后帧
帧间压缩
- 利用 数据 时域冗余
- 运动补偿变换编码
- 利用 数据 时域冗余
分快编码 每一块一个单元
- 分快后 自上而下 自左向右 对每单元处理
码流结构(自上而下)
MPEG流(mpeg stream)
图像组 (GOP group of pictures)
图像(image)
宏块(Marco block)
块(block)
标准
mpeg1
- 1992
mpeg2
技术
采样
- YCbCr比rgb 更好压缩
预测
1952
差值脉冲编码调制
帧内预测(消除 空域 冗余)
帧间 时域
运动图像 临近帧 相关性
- 空间位置 相对偏移量 运动矢量
变换
正交变换 去除 空间像素 相关性
变换后 频域系数 使 图像紧凑
能量 集中 低频区域
举例
K-L(Karhunen-Loeve)
DCT
DWT(wavelet 小波)
量化
降低 数据精度 减少编码量
矢量量化 标量量化
有损压缩 失真
调整量化步长 调整图像质量
熵编码
去除 信源符号 信息冗余
信息熵原理 压缩
mpeg4 基于对象编码
依赖 场景 任意形状 对象检测 编码
AV对象(Audio/Visual)
知识产权保护
表示 听觉 视觉 视听组合
允许组合
分割与编码
- 如图
- 如图
视频对象平面 VOP video object plane
- 视频某一时刻采样
H26.x标准
h261 1990 h263 1995
h264 mepg4 part10 高级视频编码
特点
提高效率
提告网络适应
技术
分层设计
高精度 多模式 运动估计
4x4整数变换
统一VLC
帧内预测
切换帧(SP SI)
面向IP、无线环境
AVS audio video standards
我国自主制定标准
目标
- 媒体数据压缩至原 百分之一
技术
整数变换(8x8)
量化
帧内预测
像素插值
运动补偿(帧间)
熵编码(二维)
环内滤波
多媒体数据安全 专题六
隐写术
信息 嵌入 媒体数据 传送
隐藏消息 -> 隐蔽通信
对抗式研究:信息隐藏 <-> 信息隐藏分析
数字水印
标识信息 (如数字水印)嵌入 数字载体 (媒体,文档)
不影响 原载体 使用价值
不容易 探知 修改
生产方 易识别
保护版权 信息安全 防伪溯源
多媒体取证
多媒体 原始性鉴别
无损取证溯源
对 篡改内容 取证
对 多媒体设备 溯源分析
多媒体感知哈希
多媒体数据集 映射 感知特征集
多媒体数据 <-> “指纹”(特征)数据
- 图像相似<->指纹(特征)相似
多媒体内容隐私
保护敏感内容
图像
访问权限控制
可见范围
有效期
重要信息 特殊编码
视频
保护 数据源 编码过程
保护隐私 不影响观看
保护目标
身份
人脸
案例
基于图像信息隐藏
心理 视觉欺骗(所见即所得)-> 秘密信息 位于 对图像影响小的位置
提取方法 还原 秘密信息
技术指标
隐蔽性
鲁棒性
安全性
对称性
可纠错
效率
技术
空间域
原始像素 嵌入信息
最低有效位 LSB
- 隐藏信息 -> 宿主最低有效位
变换域
隐藏信息 图像高频分量
- 人眼 高频 不敏感
扩频隐藏
DCT隐藏
小波隐藏
融合
利用 图像 相关性 ,放大 原始公开图像 隐藏 三副与公开图像 大小一样的数字图像
彩色图像 实用
量化噪声伪装
通过 控制量化等级 嵌入 图像数据流
嵌入数据 相对 原图 类似噪声
不易发现
基于音频信息隐藏
音频载体 对人耳 不敏感的音频参数
技术指标
鲁棒性
安全性
透明性
不可检测
技术
时域
对 音频信号 幅度 / 文件结构 处理
LSB隐藏
回声隐藏
音频文件结构隐藏
频域
离散傅立叶变换 -> 频域特征处理 -> 信息嵌入
LSB
扩频
相位
频带分隔
离散余弦变换域(DCT)
DCT变换->DCT系数操作->信息嵌入
对 数模、模数转换 抵抗力强
小波域
压缩域
基于视频信息隐藏
原始视频
- 秘密信息 嵌入 元数据 -> 压缩编码
压缩域
解码 -> 编码过程 嵌入 信息
技术
联合预测误差 隐藏
MPEG压缩域 隐藏
码流域
信息 嵌入 压缩 码流
接收方 从 码流 提取 秘密信息
技术
- MPEG4 纹理编码 隐藏
基于jpeg压缩 数字水印
算法流程
图像分割 8x8 不重叠 图像块(后续单独处理)
- 如图
- 如图
颜色空间转换 RGB->YCbCr
- 如图
- 如图
Y:离散余弦变换
DCT变换的图像数据
DC 直流系数
- 图像主要区域
AC 交流系数
- 图像轮廓细节
如图
数据量化
根据量化表计算 公式:B=G/Q
B:量化后结果
G:输入值
Q:量化系数
如图
嵌入信息 Y 放回 YCbCr -> RGB
嵌入原理
低频分量
图像的主要信息
决定灰度等级
中频分量
- 图像的基本结构
高频分量
- 边缘和细节
如图
如图