常用命令
| 原参数 | 中文作用 |
|---|---|
| -pp | 进度条模式,不再刷屏日志 |
| -m large-v2 | 指定 large-v2 主模型 |
| -o source | 输出目录 = 音频所在文件夹 |
| --batch_recursive | 批量递归子目录 |
| --ff_fftdn 97 | 最强 FFT 降噪(97 级) |
| --vad_method silero_v5 | 换用 silero_v5 版 VAD |
| --temperature 0 | 关闭随机采样,完全贪心 |
| --no_speech_threshold 0.8 | 把 >0.8 且解码失败的段当静音扔掉 |
| --multilingual False | 不逐段检测语言,固定 --language |
| --language fi | 指定音频语言为芬兰语 |
| --check_files | 转写前先校验所有文件完整性 |
| --standard | 一键启用标准字幕排版(42 字×2 行,逗号 70% 断句) |
| --diarize pyannote_v3.1 | 用 pyannote v3.1 做说话人分离 |
| -f srt | 只输出 SRT 格式 |
01. 输入/输出通用
| 英文原文 | 中文释义 |
|---|---|
| audio | 必填:音频文件(可写通配符、列表或目录) |
| -h, --help | 显示帮助 |
| --output_dir OUTPUT_DIR, -o OUTPUT_DIR | 输出目录(default / source / . 等关键字) |
| --output_format [{…} …], -f | 输出格式:json lrc txt text vtt srt tsv all(可空格并列) |
| --batch_recursive, -br | 递归处理子目录 |
| --skip | 若字幕已存在则跳过(仅通配/目录模式) |
| --check_files | 转写前先检查所有输入文件是否损坏 |
| --beep_off | 完成后不播放提示音 |
| --print_progress, -pp | 用进度条代替详细日志 |
| --postfix | 在字幕文件名后追加语言代号 |
02. 模型/设备/性能
| 英文原文 | 中文释义 |
|---|---|
| --model MODEL, -m MODEL | 使用哪个 Whisper 模型(large-v2 等) |
| --model_dir MODEL_DIR | 模型保存路径 |
| --device DEVICE, -d DEVICE | cuda / cpu / cuda:1 等 |
| --compute_type {…}, -ct | 量化精度:auto int8 float16 等 |
| --threads THREADS | CPU 推理线程数(0=自动,最大 4) |
| --version | 显示 Faster-Whisper 版本 |
| --checkcuda, -cc | 返回 CUDA 设备数量(供 SubtitleEdit 内部用) |
| --model_preload MODEL_PRELOAD | 是否预加载模型(True/False/None) |
03. 任务与语言
| 英文原文 | 中文释义 |
|---|---|
| --task | 任务:转写或翻译为英文 |
| --language {…}, -l | 音频语言(auto 则检测) |
| --language_detection_threshold | 语言检测概率阈值(默认 0.5) |
| --language_detection_segments | 检测语言用的片段数(默认 1) |
| --multilingual | 每段都重新检测语言 |
04. 解码/采样策略
| 英文原文 | 中文释义 |
|---|---|
| --temperature TEMPERATURE | 采样温度(0=贪心) |
| --best_of BEST_OF, -bo | 非零温度时候选数 |
| --beam_size BEAM_SIZE, -bs | beam search 宽度(温度=0 时生效) |
| --patience PATIENCE, -p | beam patience(默认 2.0) |
| --length_penalty | 长度惩罚系数 |
| --repetition_penalty | 重复惩罚(>1 生效) |
| --no_repeat_ngram_size | 禁止重复 ngram 大小(0=关闭) |
| --suppress_blank | 抑制开头空白(默认 True) |
| --suppress_tokens | 要屏蔽的 token ID 列表(-1=屏蔽特殊符) |
| --initial_prompt, -prompt | 首窗提示文本(auto/default/None) |
| --prefix | 首窗前缀文本 |
| --condition_on_previous_text | 把上一窗输出作为下一窗提示(默认 True) |
| --prompt_reset_on_temperature | 温度高于此值时重置提示 |
| --without_timestamps | 强制无时间戳(<30 s 音频) |
| --max_initial_timestamp | 允许的首时间戳上限(秒) |
| --temperature_increment_on_fallback, -fallback | 解码失败时温度递增值(None=关闭) |
| --compression_ratio_threshold | gzip 压缩比高于此值视为失败 |
| --logprob_threshold | 平均 logprob 低于此值视为失败 |
| --no_speech_threshold | < |
| --max_new_tokens | 每块最大生成 token 数 |
| --chunk_length | 手动指定音频分块长度(秒) |
05. 时间戳与字词级
| 英文原文 | 中文释义 |
|---|---|
| --word_timestamps, -wt | 输出字级时间戳(默认开) |
| --highlight_words, -hw | SRT/VTT 中给每个字加下划线(卡拉 OK 效果) |
| --prepend_punctuations | 向前合并的标点 |
| --append_punctuations | 向后合并的标点 |
06. VAD(语音活动检测)
| 英文原文 | 中文释义 |
|---|---|
| --vad_filter, -vad | 启用 VAD(默认开) |
| --vad_threshold | 概率高于此值视为 speech(默认 0.45) |
| --vad_min_speech_duration_ms | 短于此值的语音段被丢弃(ms) |
| --vad_max_speech_duration_s | 最大语音段长度(秒,超长会在末静音处切) |
| --vad_min_silence_duration_ms | 段尾等待静音时长(ms) |
| --vad_speech_pad_ms | 段首尾补音时长(ms) |
| --vad_window_size_samples | 喂给 VAD 的窗长(512/1024/1536) |
| --vad_method | VAD 模型选择(silero_v5_fw 等) |
| --vad_dump | 导出 VAD 调试字幕与中间音频 |
| --vad_dump_aud | 同时导出 VAD 收集的语音块音频 |
| --vad_device | pyannote 系列 VAD 所用设备 |
07. 幻觉抑制
| 英文原文 | 中文释义 |
|---|---|
| --hallucination_silence_threshold, -hst | 实验:跳过长于阈值(秒)的疑似幻觉静音段 |
| --hallucination_silence_th_temp, -hst_temp | 温度高于此值时忽略 hst 分数 |
| --clip_timestamps, -clip | 仅处理指定起止片段(秒,逗号分隔) |
| --hotwords | 给模型传递热词/短语提示 |
| --batched | 启用批量推理(速度↑ 长音频质量↓) |
| --batch_size | 批量并行请求数(默认 8) |
| --batch_recursive | 批量模式下也递归子目录 |
| --ignore_dupe_prompt, -idp | 禁止把重复片段加入 prompt(防幻觉循环) |
| --hallucinations_list_off | 关闭已知幻觉屏蔽列表 |
| --v3_offsets_off | 禁用 large-v3 专用伪 VAD 偏移 |
| --reprompt, --carry_initial_prompt | 每窗都携带初始提示 |
| --prompt_reset_on_no_end | 句末无结束符时重置提示(0=关 1=. 2=.,) |
| --rehot | 开发用:把 auto prompt 转热词逻辑 |
| --unmerged | 批量模式下不合并片段(更慢,时间戳更碎) |
08. 日语专门
| 英文原文 | 中文释义 |
|---|---|
| --japanese, -ja | 日语输出风格:blend/kanji/hiragana/katakana |
09. 句段/字幕排版
| 英文原文 | 中文释义 |
|---|---|
| --sentence | 每句新段(配合下方 max_* 参数) |
| --standard | 一键预设:--max_line_width=42 --max_line_count=2 --max_comma_cent=70 --sentence |
| --standard_asia | 亚洲语言预设:width=16 count=2 comma_cent=80 --sentence |
| --max_comma | 句长超过此值时把逗号当句末(需 --sentence) |
| --max_comma_cent | 行宽百分比阈值,开始逗号断句(100=禁用) |
| --max_gap | 长于该秒的静音当句号处理 |
| --max_line_width | 单行最大字符数 |
| --max_line_count | 每条字幕最大行数 |
| --min_dist_to_end | 行尾留词长度阈值(0=禁用) |
| --one_word | 1=每行一字 2=再去空格且≥50 ms |
10. 音频前置滤镜(ff_ 系列)
| 英文原文 | 中文释义 |
|---|---|
| --ff_dump | 导出经滤镜后的 16 kHz 音频及中间文件 |
| --ff_track | 选择音轨(1 起始) |
| --ff_fc | 仅取前中心声道 |
| --ff_lc | 仅取左声道 |
| --ff_invert | 左声道反相后混成单声道(去同相内容) |
| --ff_mp3 | 先转 MP3 再转回(降质测试) |
| --ff_sync | 按时间戳拉伸/压缩音频(±3600 样本/s) |
| --ff_rnndn_sh | RNN 去噪 GregorR SH 模型(激进,去歌唱) |
| --ff_rnndn_xiph | RNN 去噪 Xiph 原始模型 |
| --ff_fftdn [0-97] | FFT 通用降噪(12=正常 0=关) |
| --ff_tempo [0.5-2.0] | 变速不变调(1.0=关) |
| --ff_gate | 门限:削掉小信号 |
| --ff_speechnorm | 极速语音放大 |
| --ff_loudnorm | EBU R128 响度归一化 |
| --ff_silence_suppress | 静音抑制:参数1=噪声容限(dB) 参数2=最短静音(秒) |
| --ff_lowhighpass | 带通 50 Hz-7.8 kHz |
| --ff_vocal_extract, -ff_voc | 人声提取:目前仅 mdx_kim2 |
| --mdx_chunk | mdx 模型分块秒数(小→省显存) |
| --voc_device | 人声提取所用设备 |
11. 说话人分离
| 英文原文 | 中文释义 |
|---|---|
| --diarize | 启用分离:pyannote_v3.0 / v3.1 / reverb_v1 / v2 |
| --diarize_device | 分离所用设备 |
| --diarize_threads | 分离线程(0=自动) |
| --diarize_dump | 导出分离调试文件 |
| --speaker | 把默认 SPEAKER 字样替换成自定义词 |
| --num_speakers | 已知说话人数量 |
| --min_speakers | 最少说话人(与上互斥) |
| --max_speakers | 最多说话人(与上互斥) |
| --diarize_ff | 是否在 ff 滤镜后做分离(True/False/None) |
| --return_embeddings, -embeddings | 导出每说话人一份 embedding |
| --diarize_only | 仅做分离,不做转写 |