一、FFmpeg介绍
FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用 LGPL 或 GPL 许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库 libavcodec,为了保证高可移植性和编解码质量,libavcodec里很多code都是从头开发的。
FFmpeg 在 Linux 平台下开发,但它同样也可以在其它操作系统环境中编译运行,包括 Windows、Mac OS X等。这个项目最早由 Fabrice Bellard 发起,2004年至2015年间由 Michael Niedermayer 主要负责维护。许多 FFmpeg 的开发人员都来自 MPlayer 项目,而且当前 FFmpeg 也是放在 MPlayer 项目组的服务器上。项目的名称来自 MPEG 视频编码标准,前面的”FF”代表”Fast Forward”。
FFmpeg 官方网站:http://ffmpeg.org/
FFmpeg 下载地址:http://ffmpeg.org/download.html
FFmpeg 仓库地址:https://github.com/FFmpeg/FFmpeg
二、ffmpeg 命令
如果说ffprobe是用于探测媒体文件的格式以及详细信息,ffplay是一个播放媒体文件的工具,那么ffmpeg就是强大的媒体文件转换工具。它可以转换任何格式的媒体文件,并且还可以用自己的AudioFilter以及VideoFilter进行处理和编辑。
1.通用参数:
-f fmt: 指定格式(音频或者视频格式)。
-i filename: 指定输入文件名。
-y: 覆盖已有文件。
-t duration: 指定时长。
-fs limit_size: 设置文件大小的上限。
-ss limit_size: 从指定的时间(单位为秒)开始,也支持[-]hh:mm:ss[.xxx]格式
-re: 代表按照帧率发送。在作为推流工具的时候一定要加入该参数,否则ffmpeg会按照最高速率向流媒体服务器不停地发送数据。
-map: 指定输出文件的流映射关系。如果没有-map选项,则ffmpeg采用默认的映射关系。
视频参数
-b: 指定比特率(bit/s),ffmpeg是自动使用VBR的,若指定了该参数则使用平均比特率。
-bitexact: 使用标准比特率。
-vb: 指定视频比特率(bit/s).
-r rate: 帧速率(fps)。
-s size: 指定分辨率(320 * 320)
-aspect aspect: 设置视频长宽比(4:3,16:9或者1.3333,1.7777)。
-croptop size: 设置顶部切除尺寸(in pixels)。
-cropbottom size: 设置顶底切除尺寸(in pixels)。
-cropleft size: 设置左切除尺寸(in pixels)。
-cropright size: 设置右切除尺寸(in pixels)。
-padtop size: 设置顶部补齐尺寸(in pixels)。
-padbottom size: 设置底部补齐尺寸(in pixels)。
-padleft size:设置左补齐尺寸(in pixels)。
-padright size:设置右补齐尺寸(in pixels)。
-padcolor color: 补齐带颜色(000000-FFFFFF)。
-vn: 取消视频的输出。
-vcode codec: 强制使用codec编解码方式('copy'代表不进行重新编码)。
2.音频参数:
-ab: 设置比特率(单位为bit/s)。
-aq quality: 设置音频质量(指定编码)。
-ar rate: 设置音频采样率(单位为Hz)。
-ac channels: 设置声道数。1就是单声道,2就是立体声。
-an: 取消音频轨。
-acodec codec: 指定音频编码('copy'代表不做音频转码)。
-vol volume: 设置录制音量大小(默认256)<百分比>。
3.使用示例:
- 列出ffmpeg支持的所有格式:
ffmpeg -formats
- 剪切一段媒体文件(可以是音频或者视频文件):
ffmpeg -i input.mp4 -ss 00:00:50.0 -codec copy -t 20 output.mp4
表示将文件 input.mp4 从第 50s 开始剪切 20s 的时间,输出到文件 output.mp4 中,其中 -ss
指定偏移时间(time Offset),-t
指定的时长(duration)。
- 提取一个视频文件中的音频文件:
ffmpeg -i input.mp4 -vn -acodec copy output.m4a
- 使一个视频中的音频静音,即只保留视频:
ffmpeg -i input.mp4 -an -vcodec copy output.mp4
- 从MP4文件中抽取视频流导出为裸H264数据:
ffmpeg -i input.mp4 -an -vcodec copy -bsf:v h264_mp4toannexb output.h264
上述指令里不使用音频数据 (-an),视频数据使用 mp4toannexb 这个 bitstream filter 来转换为原始的 H264 数据。
- 使用AAC音频数据和H264的视频生成MP4文件:
ffmpeg -i test.aac -i test.h264 -acodec copy -bsf:a aac_adtstoasc -vcodec copy -f mp4 output.mp4
上述代码使用一个名为 aac_adtstoasc 的 bitstream filter。
- 对音频文件的编码格式做转换:
ffmpeg -i input.wav -acodec libfdk_aac output.aac
- 从 WAV 音频文件中导出 PCM 裸数据:
ffmpeg -i input.wav -acodec pcm_s16le output.pcm
这样就可以导出用16个bit来表示一个 sample 的 PCM 数据了,并且每个 sample 的字节排列顺序都是小尾端表示的格式,声道数和采样率使用的都是原始 WAV 文件的声道数和采样率的 PCM 数据。
- 重新编码视频文件,复制音频流,同时封装到 MP4 格式的文件中:
ffmpeg -i input.flv -vcodec libx264 -acodec copy output.mp4
- 将一个MP4格式的视频转换为gif格式的动图:
ffmpeg -i input.mp4 -vf scale=100:-1 -t 5 -r 10 image.gif
上述命令按照分辨率比例不动宽度改为 100(使用VideoFilter的scaleFilter),帧率改为 10(-r),只处理前 5 秒钟 (-t) 的视频,生成 gif。
- 将一个视频的画面部分生成图片:
ffmpeg -i output.mp4 -r 0.25 frames_%04d.png
上述命令每4秒截取一帧视频画面生成一张图片,生成的图片从 frames_0001.png 开始一直递增下去。
- 使用一组图片可以组成一个gif,如果你连拍了一组照片,可以用下面这行命令生成一个gif:
ffmpeg -i frames+%04d.png -r 5 output.gif
- 使用音量效果器,可以改变一个音频媒体文件中的音量:
ffmpeg -i input.wav -af 'volume=0.5' output.wav
上述命令是将音频文件中的声音减小一半,输出到 output.wav 文件中。
- 淡入效果器的使用:
ffmpeg -i input.wav -filter_complex afade=t=in:ss=0:d=5 output.wav
上述命令可以将 input.wav 文件中的前 5s 做一个淡入效果,输出到 output.wav 中。
- 淡出效果器的使用:
ffmpeg -i input.wav -filter_complex afade=t=out:st=200:d=5 output.wav
上述命令可以将input.wav文件从200s开始,做5秒的淡出效果,并放到output.wav文件中。
- 将两路声音进行合并:
ffmpeg -i vocal.wav -i accompany.wav -filter_complex amix=inputs=2:duration=shortest output.wav
上述命令是将 vocal.wav 和 accompany.wav 两个文件进行 mix,按照时间长度较短的音频文件的时间长度作为最终输出的 output.wav 的时间长度。
- 对声音进行变速但不变调效果器的使用:
ffmpeg -i vocal.wav -filter_complex atempo=0.5 output.wav
上述命令将 vocal.wav 按照 0.5 倍的速度进行处理生成 output.wav,时间长度会变成输入的 2 倍。但是音高是不变的,这就是大家常说的变速不变调。
- 为视频增加水印的效果:
ffmpeg -i input.mp4 -i icon.png -filter_complex '[0:v][1:v]overlay=main_w-overlay_w-10:10:1[out]' -map '[out]' output.mp4
上述命令包含了几个内置参数,main_w
代表主视频宽度,overlay_w
代表水印宽度,main_h
代表主视频高度,overlay_h
代表水印高度。
- 视频提亮效果器的使用:
ffmpeg -i input.mp4 -c:v libx264 -b:v 800k -c:a libfdk_aac -vf eq=brightness=0.25 -f mp4 output.mp4
提亮参数是 brightness
,取值范围是从 -1.0
到 1.0
,默认值是 0
;
对比度参数是 contrast
,取值范围是从 -2.0
到 2.0
,默认值是 1.0
;
- 视频旋转效果器的使用:
ffmpeg -i input.mp4 -vf "transpose=1: -b:v 600k output.mp4
- 视频裁剪效果器的使用:
ffmpeg -i input.mp4 -an -vf "crop=240:480:120:0" -vcodec libx264 -b:v 600k output.mp4
参数 crop=width:height:x:y
,其中 width
和 height
表示裁剪后的尺寸,x:y
表示裁剪区域的左上角坐标。
- 将一张RGBA格式表示的数据转换为JPEG格式的图片:
ffmpeg -f rawvideo -pix_fmt rgba -s 480*480 -i texture.rgb -f image2 -vcodec mjpeg output.jpg
- 将一个YUV格式表示的数据转换为JPEG格式的图片:
ffmpeg -f rawvideo -pix_fmt yuv420p -s 480*480 -i texture.yuv -f image2 -vcodec mjpeg output.jpg
- 将一段视频推送到流媒体服务器上:
ffmpeg -re -i input.mp4 -acodec copy -vcodec copy -f flv rtmp://xxxxx
上述代码中,rtmp:xxxx
代表流媒体服务器的地址,加上 -re
参数代表将实际媒体文件的播放速度作为推流速度进行推送。
- 将流媒体服务器上的流dump到本地:
ffmpeg -i http://xxx/xxx.flv -acodec copy -vcodec copy -f flv output.flv
- 将两个音频文件以两路流的形式封装到一个文件中,比如在K歌的应用场景中,原伴唱实时切换的场景下,可以使用一个文件包含两路流,一路是伴奏流,另外一路是原唱流:
ffmpeg -i input_1.mp3 -i input_2.mp3 -map 0:a -c:a:0 libfdk_aac -b:a:0 96k -map 1:a -c:a:1 libfdk_aac -b:a:1 64k -vn -f mp4 ouput.m4a
- Blibli 音视频合并输出: ``` ffmpeg -i 视频缓存文件路径 -i 音频缓存文件路径 -c:v copy -strict experimental 导出文件路径
例如:
ffmpeg -i “video.m4s” -i “audio.m4s” -c:v copy -strict experimental “合成.mp4”
28. 合并MP4视频输出:<br />
在视频文件所在目录下新建一个文件 filelist.txt,内容如下:
file ‘1.mp4’ file ‘2.mp4’ file ‘3.mp4’
_注:文件名及路径根据实际情况修改。_<br />
然后在命令行执行如下命令:
ffmpeg -f concat -i filelist.txt -c copy output.mp4
<a name="aef22c53"></a>
## 三、ffprobe 命令
ffprobe查看一个音频的文件:
ffprobe ~/Downloads/2018121023.mp3
ffpeobe查看一个视频的文件:
ffprobe ~/Downloads/2018121051.mp4
键入上述命令之后,可以看到第一部分的信息是 Metadata 信息:
Metadata: major_brand: jsom minor_version: 512 compatible_brands: isomiso2avc1mp41 encoder: Lavf55.12.100
这行信息表明了该文件的 Metadata 信息,比如 encoder 是 Lavf55.12.100,其中 Lavf 代表的是 FFmpeg 输出的文件,后面的编号代表了 FFmpeg 的版本代号,接下来的一行信息如下:
Duration: 00:04:34.560 start: 0.023220, bitrate: 577kb/s
上面的一行的内容表示Duration是4分34秒560毫秒,开始播放的时间是从23ms开始播放的,整个文件的比特率是577Kbit/s,紧接着再来看下一行:
Stream#0:0 (un): Video:h264 (avc1/0x31637661), yuv420p, 480*480, 508kb/s, 24fps
这行信息表示第一个stream是视频流,编码方式是H264的格式(封装格式是AVC1),每一帧的数据表示是YUV420P的格式,分辨率是480*480,这路流的比特率是508Kbit/s,帧率是每秒钟24帧,紧接着再来看下一行:
```bash
Stream#0:1 (und):Audio: aac(LC)(mp4a/0x6134706D), 44100Hz, stereo, fltp, 63kb/s
这行信息表示第二个stream是音频流,编码方式是AAC(封装格式是MP4A),并且采用的Profile是LC规格,采样率是44100Hz,声道数是立体声,数据表示格式是浮点型,这路音频流的比特率是63Kbit/s。
ffprobe -show_format ~/Downloads/2018121051.mp4
上述命令可以输出格式信息format_name、时间长度duration、文件大小size、比特率bit_rate、流的数目nb_streams等。
ffprobe -print_format json -show_streams 2018121051.mp4
上述命令可以以JSON格式的形式输出具体每一个流最详细的信息,视频中会有视频的宽高信息、是否有b帧、视频帧的总数目、视频的编码格式、显示比例、比特率等信息,音频中会有音频的编码格式、表示格式、声道数、时间长度、比特率、帧的总数目等信息。
ffprobe显示帧信息的命令:
ffprobe -show_frames 2018121051.mp4
ffprobe查看包信息的命令:
ffprobe -show_packets 2018121051.mp4
日常生活中会接触到一些多媒体文件存在3行 Stream 的情况。
视频Stream: h264 yuv420P
音频Stream: aac 48000Hz stereo fltp (default) title: 粤语
音频Stream: aac 48000Hz stereo fltp title: 国语
这说明,该媒体文件中有三路流:一路是视频流,另外两路流是音频流,默认播放的是粤语的音频流,在大多数的播放器里面都可以进行音频流的切换,可以切换到国语的音频流进行观看。
四、ffplay 命令
ffplay播放一个音频文件:
ffplay ~/Downloads/2018121023.mp3
这时会弹出一个窗口,一边播放MP3文件,一边将播放声音的语谱图画到该窗口上。针对该窗口的操作如下,点击窗口的任意一个位置,ffplay会按照点击的位置计算出时间的进度,然后跳(seek)到这个时间点上继续播放;按下键盘上的右键会默认快进10s,左键默认后退10s,上键默认快进1min,下键默认后退1min;按ESC键就是退出播放进程;如果按w键则将绘制音频的波形图等。
ffplay播放一个视频文件:
ffplay ~/Downloads/2018121051.mp4
这时会直接在新弹出的窗口上播放该视频,如果按下s键则可以进入frame-step模式,即按s键一次就会播放下一帧图像。
ffplay 2018121051.mp4 -loop 10
上述命令代表播放视频结束之后会从头再次播放,共循环播放10次。
ffplay 大话西游.mkv -vst 1
上文最后提到的两路音频流,ffplay可以指定使用哪一路音频流或者视频流。上述命令表示播放视频中的第一路视频流,如果参数vst后面跟的是2,那么就播放第二路视频流,但是如果没有第二路视频流,就会是黑屏即什么都不显示。
介绍一些开发工作中常用的几个命令,这些命令在工作中debug的时候非常有用。首先用ffplay播放裸数据,无论是音频的pcm文件还是视频帧原始格式表示的数据(YUV420P或者rgba)。先来看看音频pcm文件的播放命令:
ffplay song.pcm -f s16le -channels 2 -ar 44100
上述这行命令其实就可以正常播放song.pcm了,当然,前提是格式(-f)、声道数(-channels)、采样率(-ar)必须设置正确,如果其中一项参数设置不正确,都不会得到正常的播放结果。
然后再来看一帧视频帧的播放,首先是YUV420P格式的视频帧:
ffplay -f rawvideo -pixel_format yuv420p -s 480*480 texture.yuv
其实对于一帧视频帧,或者更直接来说一张PNG或者JPEG的图片,直接用ffplay是可以显示或播放的,当然PNG或者JPEG都会在其头部信息里面指明这张图片的宽高以及格式表示。若想让ffplay显示一张YUV的原始数据表示的图片,那么需要告诉ffplay一些重要的信息,其中包括(-f rawvideo代表原始格式)、表示格式(-pixel_format yuv420p)、宽高(-s 480*480)。对于RGB表示的图像,其实是一样的,命令如下:
ffplay -f rawvideo -pixel_format rgb24 -s 480*480 texture.rgb
上述代码是播放rgb的原始数据,当然还需要指明前面提到的三项基本信息。
指定以音频为基准进行同步(默认):
ffplay 2018121051.mp4 -sync audio
指定以视频为基准进行同步:
ffplay 2018121051.mp4 -sync video
指定以外部时钟为基准进行同步:
ffplay 2018121051.mp4 -sync ext
对于视频播放器,不得不提的一个问题就是音画同步,在ffplay中音画同步的实现方式其实有三种,分辨是:以音频为主时间轴作为同步源;以视频为主时间轴作为同步源;以外部时钟为主时间轴作为同步源。ffplay中默认的对齐方式是以音频为基准进行对齐的,那么以音频对齐方式为基准是怎么实现的呢?
播放器接收到的视频帧或者音频帧,内部都会有时间戳(PTS时钟)来标识它实际应该在什么时候进行展示。实际的对齐策略如下:比较视频当前的播放时间和音频当前的播放时间,如果视频播放过快,则通过加大延迟或者重复播放来降低视频播放速度;如果视频播放慢了,则通过减小延迟或者丢帧来追赶音频播放的时间点。关键就在于音视频时间的比较以及延迟的计算,当然在比较的过程中会设置一个阀值(Threshold),若超过预设的阀值就应该做调整(丢帧渲染或者重复渲染),这就是整个对齐策略。参考文章:
1.FFmpeg、FFprobe、FFplay命令行使用 - 简书