使用ffmpeg将音频与图像和视频连接

Question

我有1张图片，1个音频文件和1个视频。 我想将所有这些都合并成一个视频

显示图像并播放前10秒钟的音频文件
播放视频文件

到目前为止，这是我一直在尝试的方法。

ffmpeg \
-loop 1 -framerate 24 -t 10 -i item1.jpg \
-i "https://audio-ssl.itunes.apple.com/apple-assets-us-std-000001/Music/66/58/f7/mzi.eoocfriy.aac.p.m4a" \
-i item4.mp4 \
-filter_complex \
"[0]scale=432:432,setdar=1[img1]; \
 [1]volume=1[aud1]; \
 [2]scale=432:432,setdar=1[vid1]; \ 
 [img1][aud1][vid1] concat=n=3:v=1:a=1" \
outputfile.mp4

我得到了错误：

[Parsed_setdar_4 @ 0x3063780]'Parsed_setdar_4'过滤器输出垫0（视频）和'Parsed_concat_6'过滤器输入垫1（音频）之间的媒体类型不匹配[AVFilterGraph @ 0x30479a0]无法创建链接setdar：0-> concat：1错误初始化复杂的过滤器。 无效的论点

我试图用Google搜索，但仍然无法弄清楚我在做什么错？

更新：我运行了以下命令：

ffmpeg \
-loop 1 -framerate 24 -t 10 -i item1.jpg \
-t 10 -i "https://audio-ssl.itunes.apple.com/apple-assets-us-std-000001/Music/66/58/f7/mzi.eoocfriy.aac.p.m4a" \
-i item4.mp4 \
-f lavfi -t 1 -i anullsrc \
-filter_complex \
"[0]scale=432:432,setsar=1[img1]; \
[2]scale=432:432,setsar=1[vid1]; \ 
[img1][1][vid1][3] concat=n=2:v=1:a=1" \
outputfile.mp4

并得到以下错误：

ffmpeg version 3.3.3 Copyright (c) 2000-2017 the FFmpeg developers
  built with gcc 4.8 (Ubuntu 4.8.4-2ubuntu1~14.04.3)
  configuration: --extra-libs=-ldl --prefix=/opt/ffmpeg --mandir=/usr/share/man --enable-avresample --disable-debug --enable-nonfree --enable-gpl --enable-version3 --enable-libopencore-amrnb --enable-libopencore-amrwb --disable-decoder=amrnb --disable-decoder=amrwb --enable-libpulse --enable-libfreetype --enable-gnutls --disable-ffserver --enable-libx264 --enable-libx265 --enable-libfdk-aac --enable-libvorbis --enable-libtheora --enable-libmp3lame --enable-libopus --enable-libvpx --enable-libspeex --enable-libass --enable-avisynth --enable-libsoxr --enable-libxvid --enable-libvidstab --enable-libwavpack --enable-nvenc --enable-libzimg
  libavutil      55. 58.100 / 55. 58.100
  libavcodec     57. 89.100 / 57. 89.100
  libavformat    57. 71.100 / 57. 71.100
  libavdevice    57.  6.100 / 57.  6.100
  libavfilter     6. 82.100 /  6. 82.100
  libavresample   3.  5.  0 /  3.  5.  0
  libswscale      4.  6.100 /  4.  6.100
  libswresample   2.  7.100 /  2.  7.100
  libpostproc    54.  5.100 / 54.  5.100
Input #0, image2, from 'item1.jpg':
  Duration: 00:00:00.04, start: 0.000000, bitrate: 8365 kb/s
    Stream #0:0: Video: mjpeg, yuvj420p(pc, bt470bg/unknown/unknown), 432x432 [SAR 1:1 DAR 1:1], 24 fps, 24 tbr, 24 tbn, 24 tbc
Input #1, mov,mp4,m4a,3gp,3g2,mj2, from 'https://audio-ssl.itunes.apple.com/apple-assets-us-std-000001/Music/66/58/f7/mzi.eoocfriy.aac.p.m4a':
  Metadata:
    major_brand     : M4A
    minor_version   : 0
    compatible_brands: M4A mp42isom
    creation_time   : 1983-06-16T23:20:44.000000Z
    iTunSMPB        :  00000000 00000840 00000000 00000000001423C0 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000
  Duration: 00:00:29.98, start: 0.047891, bitrate: 285 kb/s
    Stream #1:0(eng): Audio: aac (LC) (mp4a / 0x6134706D), 44100 Hz, stereo, fltp, 271 kb/s (default)
    Metadata:
      creation_time   : 1983-06-16T23:20:44.000000Z
Input #2, mov,mp4,m4a,3gp,3g2,mj2, from 'item4.mp4':
  Metadata:
    major_brand     : isom
    minor_version   : 512
    compatible_brands: isomiso2avc1mp41
    creation_time   : 1970-01-01T00:00:00.000000Z
    encoder         : Lavf53.24.2
  Duration: 00:00:13.70, start: 0.000000, bitrate: 615 kb/s
    Stream #2:0(und): Video: h264 (Main) (avc1 / 0x31637661), yuv420p, 320x240 [SAR 1:1 DAR 4:3], 229 kb/s, 15 fps, 15 tbr, 15360 tbn, 30 tbc (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : VideoHandler
    Stream #2:1(und): Audio: aac (LC) (mp4a / 0x6134706D), 48000 Hz, 5.1, fltp, 382 kb/s (default)
    Metadata:
      creation_time   : 1970-01-01T00:00:00.000000Z
      handler_name    : SoundHandler
Input #3, lavfi, from 'anullsrc':
  Duration: N/A, start: 0.000000, bitrate: 705 kb/s
    Stream #3:0: Audio: pcm_u8, 44100 Hz, stereo, u8, 705 kb/s
[AVFilterGraph @ 0x3955e20] No such filter: ' '
Error initializing complex filters.
Invalid argument

Answer 1

当配置成对的流时，对于每个段，concat过滤器都希望有一对对应的输入。 因此，如果要同时容纳1个视频流和2个音频流，则每个段输入应为[v][a][a] 。

因此，在这种情况下，需要虚拟音频与第二视频配对。

ffmpeg \
-loop 1 -framerate 24 -t 10 -i item1.jpg \
-t 10 -i "https://audio-ssl.itunes.apple.com/apple-assets-us-std-000001/Music/66/58/f7/mzi.eoocfriy.aac.p.m4a" \
-i item4.mp4 \
-f lavfi -t 1 -i anullsrc \
-filter_complex \
"[0]scale=432:432,setsar=1[img1]; \
 [2]scale=432:432,setsar=1[vid1]; \
 [img1][1][vid1][3] concat=n=2:v=1:a=1" \
outputfile.mp4

anullsrc提供虚拟音频。

简介音频必须限于图像持续时间，因为concat过滤器会在每个段中使用较长流的持续时间。

因为SAR是已更改的实际参数，所以使用setsar而不是setdar ，并且有可能在将SAR简化为有理数后，SAR可能不匹配。

concat中的n应该为2因为它指定了配对段的数量，而不是输入的总数。

使用ffmpeg将音频与图像和视频连接

问题描述

1 个解决方案

解决方案1
2 已采纳 2018-05-09 09:58:57

使用ffmpeg将音频与图像和视频连接

问题描述

1 个解决方案

解决方案1 2 已采纳 2018-05-09 09:58:57

解决方案1
2 已采纳 2018-05-09 09:58:57