Skip to content

常用命令

原参数中文作用
-pp进度条模式,不再刷屏日志
-m large-v2指定 large-v2 主模型
-o source输出目录 = 音频所在文件夹
--batch_recursive批量递归子目录
--ff_fftdn 97最强 FFT 降噪(97 级)
--vad_method silero_v5换用 silero_v5 版 VAD
--temperature 0关闭随机采样,完全贪心
--no_speech_threshold 0.8把 >0.8 且解码失败的段当静音扔掉
--multilingual False不逐段检测语言,固定 --language
--language fi指定音频语言为芬兰语
--check_files转写前先校验所有文件完整性
--standard一键启用标准字幕排版(42 字×2 行,逗号 70% 断句)
--diarize pyannote_v3.1用 pyannote v3.1 做说话人分离
-f srt只输出 SRT 格式

01. 输入/输出通用

英文原文中文释义
audio必填:音频文件(可写通配符、列表或目录)
-h, --help显示帮助
--output_dir OUTPUT_DIR, -o OUTPUT_DIR输出目录(default / source / . 等关键字)
--output_format [{…} …], -f输出格式:json lrc txt text vtt srt tsv all(可空格并列)
--batch_recursive, -br递归处理子目录
--skip若字幕已存在则跳过(仅通配/目录模式)
--check_files转写前先检查所有输入文件是否损坏
--beep_off完成后不播放提示音
--print_progress, -pp用进度条代替详细日志
--postfix在字幕文件名后追加语言代号

02. 模型/设备/性能

英文原文中文释义
--model MODEL, -m MODEL使用哪个 Whisper 模型(large-v2 等)
--model_dir MODEL_DIR模型保存路径
--device DEVICE, -d DEVICEcuda / cpu / cuda:1 等
--compute_type {…}, -ct量化精度:auto int8 float16 等
--threads THREADSCPU 推理线程数(0=自动,最大 4)
--version显示 Faster-Whisper 版本
--checkcuda, -cc返回 CUDA 设备数量(供 SubtitleEdit 内部用)
--model_preload MODEL_PRELOAD是否预加载模型(True/False/None)

03. 任务与语言

英文原文中文释义
--task任务:转写或翻译为英文
--language {…}, -l音频语言(auto 则检测)
--language_detection_threshold语言检测概率阈值(默认 0.5)
--language_detection_segments检测语言用的片段数(默认 1)
--multilingual每段都重新检测语言

04. 解码/采样策略

英文原文中文释义
--temperature TEMPERATURE采样温度(0=贪心)
--best_of BEST_OF, -bo非零温度时候选数
--beam_size BEAM_SIZE, -bsbeam search 宽度(温度=0 时生效)
--patience PATIENCE, -pbeam patience(默认 2.0)
--length_penalty长度惩罚系数
--repetition_penalty重复惩罚(>1 生效)
--no_repeat_ngram_size禁止重复 ngram 大小(0=关闭)
--suppress_blank抑制开头空白(默认 True)
--suppress_tokens要屏蔽的 token ID 列表(-1=屏蔽特殊符)
--initial_prompt, -prompt首窗提示文本(auto/default/None)
--prefix首窗前缀文本
--condition_on_previous_text把上一窗输出作为下一窗提示(默认 True)
--prompt_reset_on_temperature温度高于此值时重置提示
--without_timestamps强制无时间戳(<30 s 音频)
--max_initial_timestamp允许的首时间戳上限(秒)
--temperature_increment_on_fallback, -fallback解码失败时温度递增值(None=关闭)
--compression_ratio_thresholdgzip 压缩比高于此值视为失败
--logprob_threshold平均 logprob 低于此值视为失败
--no_speech_threshold<
--max_new_tokens每块最大生成 token 数
--chunk_length手动指定音频分块长度(秒)

05. 时间戳与字词级

英文原文中文释义
--word_timestamps, -wt输出字级时间戳(默认开)
--highlight_words, -hwSRT/VTT 中给每个字加下划线(卡拉 OK 效果)
--prepend_punctuations向前合并的标点
--append_punctuations向后合并的标点

06. VAD(语音活动检测)

英文原文中文释义
--vad_filter, -vad启用 VAD(默认开)
--vad_threshold概率高于此值视为 speech(默认 0.45)
--vad_min_speech_duration_ms短于此值的语音段被丢弃(ms)
--vad_max_speech_duration_s最大语音段长度(秒,超长会在末静音处切)
--vad_min_silence_duration_ms段尾等待静音时长(ms)
--vad_speech_pad_ms段首尾补音时长(ms)
--vad_window_size_samples喂给 VAD 的窗长(512/1024/1536)
--vad_methodVAD 模型选择(silero_v5_fw 等)
--vad_dump导出 VAD 调试字幕与中间音频
--vad_dump_aud同时导出 VAD 收集的语音块音频
--vad_devicepyannote 系列 VAD 所用设备

07. 幻觉抑制

英文原文中文释义
--hallucination_silence_threshold, -hst实验:跳过长于阈值(秒)的疑似幻觉静音段
--hallucination_silence_th_temp, -hst_temp温度高于此值时忽略 hst 分数
--clip_timestamps, -clip仅处理指定起止片段(秒,逗号分隔)
--hotwords给模型传递热词/短语提示
--batched启用批量推理(速度↑ 长音频质量↓)
--batch_size批量并行请求数(默认 8)
--batch_recursive批量模式下也递归子目录
--ignore_dupe_prompt, -idp禁止把重复片段加入 prompt(防幻觉循环)
--hallucinations_list_off关闭已知幻觉屏蔽列表
--v3_offsets_off禁用 large-v3 专用伪 VAD 偏移
--reprompt, --carry_initial_prompt每窗都携带初始提示
--prompt_reset_on_no_end句末无结束符时重置提示(0=关 1=. 2=.,)
--rehot开发用:把 auto prompt 转热词逻辑
--unmerged批量模式下不合并片段(更慢,时间戳更碎)

08. 日语专门

英文原文中文释义
--japanese, -ja日语输出风格:blend/kanji/hiragana/katakana

09. 句段/字幕排版

英文原文中文释义
--sentence每句新段(配合下方 max_* 参数)
--standard一键预设:--max_line_width=42 --max_line_count=2 --max_comma_cent=70 --sentence
--standard_asia亚洲语言预设:width=16 count=2 comma_cent=80 --sentence
--max_comma句长超过此值时把逗号当句末(需 --sentence)
--max_comma_cent行宽百分比阈值,开始逗号断句(100=禁用)
--max_gap长于该秒的静音当句号处理
--max_line_width单行最大字符数
--max_line_count每条字幕最大行数
--min_dist_to_end行尾留词长度阈值(0=禁用)
--one_word1=每行一字 2=再去空格且≥50 ms

10. 音频前置滤镜(ff_ 系列)

英文原文中文释义
--ff_dump导出经滤镜后的 16 kHz 音频及中间文件
--ff_track选择音轨(1 起始)
--ff_fc仅取前中心声道
--ff_lc仅取左声道
--ff_invert左声道反相后混成单声道(去同相内容)
--ff_mp3先转 MP3 再转回(降质测试)
--ff_sync按时间戳拉伸/压缩音频(±3600 样本/s)
--ff_rnndn_shRNN 去噪 GregorR SH 模型(激进,去歌唱)
--ff_rnndn_xiphRNN 去噪 Xiph 原始模型
--ff_fftdn [0-97]FFT 通用降噪(12=正常 0=关)
--ff_tempo [0.5-2.0]变速不变调(1.0=关)
--ff_gate门限:削掉小信号
--ff_speechnorm极速语音放大
--ff_loudnormEBU R128 响度归一化
--ff_silence_suppress静音抑制:参数1=噪声容限(dB) 参数2=最短静音(秒)
--ff_lowhighpass带通 50 Hz-7.8 kHz
--ff_vocal_extract, -ff_voc人声提取:目前仅 mdx_kim2
--mdx_chunkmdx 模型分块秒数(小→省显存)
--voc_device人声提取所用设备

11. 说话人分离

英文原文中文释义
--diarize启用分离:pyannote_v3.0 / v3.1 / reverb_v1 / v2
--diarize_device分离所用设备
--diarize_threads分离线程(0=自动)
--diarize_dump导出分离调试文件
--speaker把默认 SPEAKER 字样替换成自定义词
--num_speakers已知说话人数量
--min_speakers最少说话人(与上互斥)
--max_speakers最多说话人(与上互斥)
--diarize_ff是否在 ff 滤镜后做分离(True/False/None)
--return_embeddings, -embeddings导出每说话人一份 embedding
--diarize_only仅做分离,不做转写

Released under the MIT License.