前言
数字媒体技术基础课件总结浓缩,幕布版可以访问这里
数字媒体技术概论 专题一
媒体 medium
-
交流传播工具
- 广播 广告
-
媒介 - 信息
-
类型
-
显示媒体
-
感觉媒体
-
存储媒体
-
表示媒体
-
传输媒体
-
-
多媒体
-
计算机技术 数字通信网络
-
文本
-
图形
-
图像
-
声音
-
数字媒体
-
二进制
-
数字化
-
模拟信号
-
连续
-
人脑处理
-
如图
-
-
数字信号
-
离散
-
计算机处理
-
如图
-
-
模/数转换(A/D)
-
数/模转换(D/A)
-
-
香农 信息传递模型
-
分类
-
时间
-
静止
-
连续
-
-
来源
-
自然
-
合成
-
-
组成
-
单一
-
多
-
-
-
传播模式
- 信息论的通信模式
- 如图
- 信息论的通信模式
-
内涵
-
技术 艺术 (接下来七个专题)
-
数字声音
-
数字图像
-
数字视频
-
数字动画
-
数字压缩
-
数字储存
-
数字管理与保护
-
数字传输
-
-
流程
- 如图
-
数字信息
-
获取 输出
-
存储
-
磁存储
- 磁盘 磁带
-
光存储
-
CD VCD
-
蓝光存储
-
-
半导体存储
- RAM ROM
-
-
处理 生成
-
来源
-
现实生活
- 需要数字化
-
数字生活
-
-
数字化
- 采样 量化 编码
-
动画技术
- 运动捕捉
传播技术
- 以流stream形式传播
信息管理
-
多媒体数据库
-
信息检索
-
文本
-
内容
-
颜色 场景等
-
图像
-
特征提取
-
图像分析
-
-
如图
-
未来发展方向
-
-
数字图像技术 专题二
概念
-
模拟图像
- 空间和亮度 连续
-
数字图像
- 空间和亮度 有限数字表示
内容
-
图像处理
- 图像-图像
-
图像分析
-
图像-信息
-
困难
-
多义性
-
环境
-
数据
-
-
如图
-
应用
-
遥感探测
-
媒体通信
-
空间探索
-
生物医学
-
文娱产业
数字图像处理
成像模型
-
图像:f(x,y) 0<f(x,y)<A
-
可由两分量表示
-
照射到观察景物 光总量
-
景物反射/透射 光总量
-
采样
-
连续图像 数字化
-
栅格grid
- 采样点平面上排列
-
像素 pixel/image element
-
理论量
-
图像最小单位
-
量化
-
连续数值->数字等价量
-
如图
分辨率
-
屏幕(显示)分辨率
- 显示器区域
-
图像分辨率
- 数字图像大小
-
空间分辨率
-
图像可分辨最小细节
-
采样间隔决定
-
空间分辨率 高 采样间隔小 图片好 图像尺寸大
-
-
灰度级分辨率
-
0-255 : 256
-
和灰度级数有关
-
灰度级分辨率低 图像信息少 伪轮廓多
-
例如
-
-
说明
-
空间分辨率不变,采样数少 图像小
-
例如
-
图像深度 显示深度
-
图像深度
- 每像素 位数(灰度/颜色)
-
显示深度
- 显示器每点 显示颜色 位数
-
失真
- 显示深度<图像深度
图像大小计算
-
像素总数x图像深度➗8
-
举例计算
- 如图
表示
-
元素
-
矩阵
-
存储MxN图像需要位数: MxNxk
-
-
坐标
- 如图
-
子窗口
- 如图
颜色模型
-
RGB
- 多媒体系统输出的彩色空间
-
HSI 色调 饱和度 亮度
-
hue
-
物体反射 优势波长
-
角度表示 反映物体接近光谱波长
-
0:red
-
120:green
-
240:blue
-
-
-
saturation
-
彩度/明度 色彩鲜艳程度
-
和hue的纯度有关
-
颜色深浅
-
参数:色环原点到彩色点半径长度
-
环外饱和度:1
-
中心 :0
-
-
-
intensity
-
表面发光
-
和物体反射率成正比
-
-
-
YCbCr
-
CMY CMYK
-
CMY
- 印刷行业
-
CMYK
- 如图
-
-
YUV
-
Y 亮度
-
U,V 色差信号
-
PAL制 模拟电视
-
-
hsi和rgb转换
- 如图
-
yuv和rgb转换
- 如图
调色板
-
真彩色 伪彩色
-
真彩色
- rgb各8bits表示图像
-
伪彩色
- 像素值为调色板索引值
-
-
16色/256色显示系统,为一个颜色表(0-15/0-255),其每一个元素对应一个rgb值
-
look up table lut
图像度量
-
距离
- 距离度量函数
- 如图
- 距离度量函数
-
测量方式
-
欧式
- 如图
-
街区
- 如图
-
棋盘
- 如图
-
直方图
-
定义
-
描述灰度级函数
-
像素出现个数/频率
-
-
图像对一个直方图 直方图可以对多个图像
-
应用
-
边界选择
-
图像质量评估
- 如图
-
-
均衡化
-
思想
- 像素多 展宽 像素少 缩减 达到清晰图像
-
如图
-
位图 矢量图
-
位图
-
矩阵(点阵) 栅格
-
超过分辨率 会产生锯齿
-
彩色网格/像素表示图像
- 像素有特点位置和值
-
软件
- Adobe Photoshop
-
-
矢量图
-
数学向量记录图像
-
线条
-
色块
-
-
轮廓形状 易 修改 控制
-
和分辨率无关
-
软件
- Adobe illustrator
-
数字音频技术 专题三
概念 特性
-
声音产生
- 介质传播 连续振动的波
-
特性
-
频率 振幅 周期
-
频率
-
每秒往复振动次数
-
Hz
-
振动快 频率大 音调高
-
次声波
-
<20
-
地震 风暴
-
-
超声波
-
>20
-
医学
-
清洗(牙刷)
-
-
人耳可听声
-
20~20k
-
低频 <500
-
中频 500~2000
-
高频 >2000
-
-
-
振幅
-
偏离中心的幅度 动能 势能
-
声压大 响度大
-
-
-
音调 响度 音色
-
关系(左至右)
-
频率 振幅 频谱结构
-
-
傅立叶定律
- 有限频谱 不同频率正弦波 可以叠加为 复杂波形
-
分贝(decibel)
-
振幅类 物理量 度量单位
-
分贝值(dB)=10lg(声源功率/基准声功率)
-
零分贝
- 正常人听到最小音
-
-
周期
- 振动一次 时间
-
波长
-
周期内 声波传播距离
-
低频 波长长 各向均匀传播
-
高频 向前直射
-
遇到阻碍物 衍射
-
-
设备
-
声卡
-
耳机
-
音箱
-
麦克风
-
MIDI键盘
- music instrument digital interface
数字化
-
模拟音频
- 录制 振动产生声音 存于介质(磁带),电信号
-
数字音频
- 二进制 离散 信号
-
步骤
- 如图
-
概念
-
采样
-
采样频率
-
采样定理
-
量化
-
量化位数
-
量化深度
-
编码
-
波形编码
-
参数编码
-
感知编码
-
声道数
-
质量 数据量
-
-
数据存储量 计算
- 如图
-
指标参考
-
采样频率 间隔短
-
量化深度 等级多
-
音频码流率 大
-
语音机理
-
语音生成
- 如图
-
共振峰
- 声道具有一组共振频率
-
感知
-
听域 听阈
- 感知声音范围 ; 听到最低声压
-
响度
-
掩蔽效应
- 声音听阈 因 另一个声音 出现升高
-
信号模型
-
激励模型
- 基音为周期 斜三角脉冲串
-
调制模型
- 无损声管模型 共振锋模型
-
辐射模型
-
数字模型
-
如图
-
局限
- 声门 声道 耦合 非线性
-
语音分析
-
短时时域信息
-
预处理
-
预加重
-
分帧
-
加窗处理
-
-
分析
-
短时能量
-
平均幅度
-
短时平均过零率
-
短时自相关函数
-
短时平均幅度差
-
-
-
短时频域倒谱分析
- 短时傅立叶变换
-
语谱图
-
如图
-
1941 贝尔实验室
-
三维显示频谱特性
-
生成
-
采样
- 连续-离散
-
预加重
-
分帧
- 不定长 分为 固定长度 小段
-
加窗
-
使分帧端点不突变
-
变换
-
频谱坐标化
-
逆时针旋转坐标
-
幅度映射颜色
-
-
拼接
-
-
宽带 窄带 语谱图
-
技术
-
语音合成
-
波形编码
-
参数分析
-
应用
- 文语转换
-
-
语音增强
-
噪声对消
-
谐波增强
-
参数估计
-
-
语音识别
- 如图
数字视频技术 专题四
视频概念
-
动态图像
-
数字视频
-
视觉暂留
- 24帧
- 人员无法辨别静帧 有平滑感觉
- 24帧
-
数字电视 1990 DTV digital TV
-
帧率 fps 帧/s
- frame per second
-
-
模拟视频
-
电视台广播信号
-
连续
-
标准
-
NTSC
- national television standard committee
-
PAL
- phase alternating line
-
SECAM
-
sequential color memory
-
东欧 法国
-
-
以上互不兼容
-
-
-
隔行扫描 逐行扫描
-
逐行帧
- 奇数行 偶数行 同时间 采样
-
隔行帧
- 奇数 偶数 不同时间 采样
-
顶场
- 隔行帧 偶数行
-
底场
- 隔行帧 奇数行
-
逐行视频
- 逐行帧 视频序列
-
隔行视频
- 隔行帧 视频序列
-
对比
- 相同数据量 隔行采样 增加采样率 , 时域运动平滑
-
视频 获取 编辑
-
视频采集(捕捉)卡
-
video capture card
-
对信号采集 量化 压缩编码为数据视频流
-
-
摄像机
-
镜头
-
CCD
-
数字信号处理DSP芯片
-
存储器
-
显示器 LCD
-
-
质量评估
-
峰值信噪比 peak signal noise ratio PSNR
- 均方误差越小 峰值信噪比越大 失真越小
-
结构相似度 structure similarity index SSIM
-
多尺度结构相似度 multi scale structural similarity index MS-SSIM
-
运动估计
-
光流
- 对象/相机移动,两连续帧间 明显运动模式
-
块匹配
-
基于运动准则 参考帧和当前帧 尺寸匹配
-
穷举
-
编码标准
-
AVI
- video for windows
-
MOV
- quick time for windows
-
MPG
- mpeg压缩
-
DAT
- VCD mpeg压缩
数字媒体压缩技术 专题五
数据压缩
-
数据冗余
-
数据计算
- 如图
-
空间
-
重复的像素
-
较少编码 表示 原数据
-
基础
-
变换编码
-
量化
-
熵编码
-
-
-
时间
-
相邻帧 相似性
-
预测 ,运动补偿 压缩
-
-
结构
-
纹理结构
-
自相似性
-
-
视觉
-
对 某种信号颜色 不敏感
-
视觉惰性
-
蓝色 红绿色
-
25帧采样
-
遮蔽效应
-
-
-
-
压缩比(压缩率)计算 想对数据冗余计算
- 如图
-
压缩分类
-
如图
-
统计(熵)
-
无记忆信源
-
根据 码字概率 压缩
-
寻找 码字长度 概率 最优匹配
-
-
预测
- 空间 相邻数据 相关性 压缩数据
-
变换
- 时域->频域
-
分析-合成
- 分析 源数据 提取特征参数(基元)
- 编码 仅对 特征参数(基元)
- 分析 源数据 提取特征参数(基元)
-
-
无损压缩
-
如图
-
例如
-
Huffman
-
行程
-
-
-
有损压缩
- 如图
-
压缩编码
-
理论基础
-
信息论
-
信息熵
- 熵
- 某事出现消息越多 出现概率越小
- 熵
-
信息量
- 如图
-
平均码字长度
- 如图
-
编码效率
- 如图
-
熵编码
-
变长最佳编码
-
概率大 信息符号 短码字
-
小 长码字
-
Huffman理论基础
-
Huffman
-
举例计算
- 如图
-
适用于 概率分布不均匀 信源
游程编码
-
游程灰度 行程长度 代替 游程本身
-
举例计算
- 如图
-
二维游程编码
-
扫描 二维转一维
-
如图
-
练习 计算
-
-
-
分析
-
适合 大面积色块
-
例如 传真 白色多 黑色少 计算
-
500w 3b 3000w 12b
-
w :white b:black
-
由于 2048<3000<4096
-
黑白统一分配,计数需要12bits(2的12次方)
-
若不统一分配
-
黑色:4bits
-
白色:12bits
-
则数字部分编码位数:12,4,12,4
-
数字部分字节数:12x2+4x2
-
-
-
-
-
-
不适合 复杂图像
-
预测编码(DPCM)
-
相邻像素 信息冗余
-
过程
- 如图
-
举例计算
- 如图
变换编码
-
过程
- 如图
-
举例
- 如图
混合编码
- 举例计算
- 如图
动态图像压缩
-
视频图像编码标准
-
如图
-
国际标准化组织
-
JPEG
- joint photographic experts group
-
MPEG
- motion picture experts group
-
VCEG
- video coding experts group
-
-
-
jpeg压缩编码
-
无损压缩
- 差分冒充调制 DPCM
-
有损压缩
-
离散余弦变换 DCT
-
如图
-
-
-
视频编码
-
解码
- 预测 - 变换 - 量化 - 熵编码 - 环路滤波
-
压缩
-
帧内压缩
-
图像压缩
-
每帧 独立编码
- 不依赖 前后帧
-
-
帧间压缩
- 利用 数据 时域冗余
- 运动补偿变换编码
- 利用 数据 时域冗余
-
-
分快编码 每一块一个单元
- 分快后 自上而下 自左向右 对每单元处理
-
码流结构(自上而下)
-
MPEG流(mpeg stream)
-
图像组 (GOP group of pictures)
-
图像(image)
-
宏块(Marco block)
-
块(block)
-
-
标准
-
mpeg1
- 1992
-
mpeg2
-
-
技术
-
采样
- YCbCr比rgb 更好压缩
-
预测
-
1952
-
差值脉冲编码调制
-
帧内预测(消除 空域 冗余)
-
帧间 时域
-
运动图像 临近帧 相关性
- 空间位置 相对偏移量 运动矢量
-
-
变换
-
正交变换 去除 空间像素 相关性
-
变换后 频域系数 使 图像紧凑
-
能量 集中 低频区域
-
举例
-
K-L(Karhunen-Loeve)
-
DCT
-
DWT(wavelet 小波)
-
-
-
-
量化
-
降低 数据精度 减少编码量
-
矢量量化 标量量化
-
有损压缩 失真
-
调整量化步长 调整图像质量
-
-
熵编码
-
去除 信源符号 信息冗余
-
信息熵原理 压缩
-
-
mpeg4 基于对象编码
-
依赖 场景 任意形状 对象检测 编码
-
AV对象(Audio/Visual)
-
知识产权保护
-
表示 听觉 视觉 视听组合
-
允许组合
-
-
分割与编码
- 如图
-
视频对象平面 VOP video object plane
- 视频某一时刻采样
-
-
-
H26.x标准
-
h261 1990 h263 1995
-
h264 mepg4 part10 高级视频编码
-
特点
-
提高效率
-
提告网络适应
-
-
技术
-
分层设计
-
高精度 多模式 运动估计
-
4x4整数变换
-
统一VLC
-
帧内预测
-
切换帧(SP SI)
-
面向IP、无线环境
-
AVS audio video standards
-
我国自主制定标准
-
目标
- 媒体数据压缩至原 百分之一
-
技术
-
整数变换(8x8)
-
量化
-
帧内预测
-
像素插值
-
运动补偿(帧间)
-
熵编码(二维)
-
环内滤波
-
多媒体数据安全 专题六
隐写术
-
信息 嵌入 媒体数据 传送
-
隐藏消息 -> 隐蔽通信
-
对抗式研究:信息隐藏 <-> 信息隐藏分析
数字水印
-
标识信息 (如数字水印)嵌入 数字载体 (媒体,文档)
-
不影响 原载体 使用价值
-
不容易 探知 修改
-
生产方 易识别
-
保护版权 信息安全 防伪溯源
多媒体取证
-
多媒体 原始性鉴别
-
无损取证溯源
-
对 篡改内容 取证
-
对 多媒体设备 溯源分析
-
多媒体感知哈希
-
多媒体数据集 映射 感知特征集
-
多媒体数据 <-> “指纹”(特征)数据
- 图像相似<->指纹(特征)相似
多媒体内容隐私
-
保护敏感内容
-
图像
-
访问权限控制
-
可见范围
-
有效期
-
-
重要信息 特殊编码
-
-
视频
-
保护 数据源 编码过程
-
保护隐私 不影响观看
-
保护目标
-
身份
-
人脸
-
-
案例
基于图像信息隐藏
-
心理 视觉欺骗(所见即所得)-> 秘密信息 位于 对图像影响小的位置
-
提取方法 还原 秘密信息
-
技术指标
-
隐蔽性
-
鲁棒性
-
安全性
-
对称性
-
可纠错
-
效率
-
-
技术
-
空间域
-
原始像素 嵌入信息
-
最低有效位 LSB
- 隐藏信息 -> 宿主最低有效位
-
-
变换域
-
隐藏信息 图像高频分量
- 人眼 高频 不敏感
-
扩频隐藏
-
DCT隐藏
-
小波隐藏
-
-
融合
-
利用 图像 相关性 ,放大 原始公开图像 隐藏 三副与公开图像 大小一样的数字图像
-
彩色图像 实用
-
-
量化噪声伪装
-
通过 控制量化等级 嵌入 图像数据流
-
嵌入数据 相对 原图 类似噪声
-
不易发现
-
-
-
基于音频信息隐藏
-
音频载体 对人耳 不敏感的音频参数
-
技术指标
-
鲁棒性
-
安全性
-
透明性
-
不可检测
-
-
技术
-
时域
-
对 音频信号 幅度 / 文件结构 处理
-
LSB隐藏
-
回声隐藏
-
音频文件结构隐藏
-
-
频域
-
离散傅立叶变换 -> 频域特征处理 -> 信息嵌入
-
LSB
-
扩频
-
相位
-
频带分隔
-
-
-
离散余弦变换域(DCT)
-
DCT变换->DCT系数操作->信息嵌入
-
对 数模、模数转换 抵抗力强
-
-
小波域
-
压缩域
-
基于视频信息隐藏
-
原始视频
- 秘密信息 嵌入 元数据 -> 压缩编码
-
压缩域
-
解码 -> 编码过程 嵌入 信息
-
技术
-
联合预测误差 隐藏
-
MPEG压缩域 隐藏
-
-
-
码流域
-
信息 嵌入 压缩 码流
-
接收方 从 码流 提取 秘密信息
-
技术
- MPEG4 纹理编码 隐藏
-
基于jpeg压缩 数字水印
-
算法流程
-
图像分割 8x8 不重叠 图像块(后续单独处理)
- 如图
-
颜色空间转换 RGB->YCbCr
- 如图
-
Y:离散余弦变换
-
DCT变换的图像数据
-
DC 直流系数
- 图像主要区域
-
AC 交流系数
- 图像轮廓细节
-
-
如图
-
-
数据量化
-
根据量化表计算 公式:B=G/Q
-
B:量化后结果
-
G:输入值
-
Q:量化系数
-
-
如图
-
-
嵌入信息 Y 放回 YCbCr -> RGB
-
嵌入原理
-
低频分量
-
图像的主要信息
-
决定灰度等级
-
-
中频分量
- 图像的基本结构
-
高频分量
- 边缘和细节
-
如图
-
-
如图
-
-