Jungle0128-Wiki

常用命令

原参数	中文作用
-pp	进度条模式，不再刷屏日志
-m large-v2	指定 large-v2 主模型
-o source	输出目录 = 音频所在文件夹
--batch_recursive	批量递归子目录
--ff_fftdn 97	最强 FFT 降噪（97 级）
--vad_method silero_v5	换用 silero_v5 版 VAD
--temperature 0	关闭随机采样，完全贪心
--no_speech_threshold 0.8	把 >0.8 且解码失败的段当静音扔掉
--multilingual False	不逐段检测语言，固定 --language
--language fi	指定音频语言为芬兰语
--check_files	转写前先校验所有文件完整性
--standard	一键启用标准字幕排版（42 字×2 行，逗号 70% 断句）
--diarize pyannote_v3.1	用 pyannote v3.1 做说话人分离
-f srt	只输出 SRT 格式

01. 输入/输出通用

英文原文	中文释义
audio	必填：音频文件（可写通配符、列表或目录）
-h, --help	显示帮助
--output_dir OUTPUT_DIR, -o OUTPUT_DIR	输出目录（default / source / . 等关键字）
--output_format [{…} …], -f	输出格式：json lrc txt text vtt srt tsv all（可空格并列）
--batch_recursive, -br	递归处理子目录
--skip	若字幕已存在则跳过（仅通配/目录模式）
--check_files	转写前先检查所有输入文件是否损坏
--beep_off	完成后不播放提示音
--print_progress, -pp	用进度条代替详细日志
--postfix	在字幕文件名后追加语言代号

02. 模型/设备/性能

英文原文	中文释义
--model MODEL, -m MODEL	使用哪个 Whisper 模型（large-v2 等）
--model_dir MODEL_DIR	模型保存路径
--device DEVICE, -d DEVICE	cuda / cpu / cuda:1 等
--compute_type {…}, -ct	量化精度：auto int8 float16 等
--threads THREADS	CPU 推理线程数（0=自动，最大 4）
--version	显示 Faster-Whisper 版本
--checkcuda, -cc	返回 CUDA 设备数量（供 SubtitleEdit 内部用）
--model_preload MODEL_PRELOAD	是否预加载模型（True/False/None）

03. 任务与语言

英文原文	中文释义
--task	任务：转写或翻译为英文
--language {…}, -l	音频语言（auto 则检测）
--language_detection_threshold	语言检测概率阈值（默认 0.5）
--language_detection_segments	检测语言用的片段数（默认 1）
--multilingual	每段都重新检测语言

04. 解码/采样策略

英文原文	中文释义
--temperature TEMPERATURE	采样温度（0=贪心）
--best_of BEST_OF, -bo	非零温度时候选数
--beam_size BEAM_SIZE, -bs	beam search 宽度（温度=0 时生效）
--patience PATIENCE, -p	beam patience（默认 2.0）
--length_penalty	长度惩罚系数
--repetition_penalty	重复惩罚（>1 生效）
--no_repeat_ngram_size	禁止重复 ngram 大小（0=关闭）
--suppress_blank	抑制开头空白（默认 True）
--suppress_tokens	要屏蔽的 token ID 列表（-1=屏蔽特殊符）
--initial_prompt, -prompt	首窗提示文本（auto/default/None）
--prefix	首窗前缀文本
--condition_on_previous_text	把上一窗输出作为下一窗提示（默认 True）
--prompt_reset_on_temperature	温度高于此值时重置提示
--without_timestamps	强制无时间戳（<30 s 音频）
--max_initial_timestamp	允许的首时间戳上限（秒）
--temperature_increment_on_fallback, -fallback	解码失败时温度递增值（None=关闭）
--compression_ratio_threshold	gzip 压缩比高于此值视为失败
--logprob_threshold	平均 logprob 低于此值视为失败
--no_speech_threshold	<
--max_new_tokens	每块最大生成 token 数
--chunk_length	手动指定音频分块长度（秒）

05. 时间戳与字词级

英文原文	中文释义
--word_timestamps, -wt	输出字级时间戳（默认开）
--highlight_words, -hw	SRT/VTT 中给每个字加下划线（卡拉 OK 效果）
--prepend_punctuations	向前合并的标点
--append_punctuations	向后合并的标点

06. VAD（语音活动检测）

英文原文	中文释义
--vad_filter, -vad	启用 VAD（默认开）
--vad_threshold	概率高于此值视为 speech（默认 0.45）
--vad_min_speech_duration_ms	短于此值的语音段被丢弃（ms）
--vad_max_speech_duration_s	最大语音段长度（秒，超长会在末静音处切）
--vad_min_silence_duration_ms	段尾等待静音时长（ms）
--vad_speech_pad_ms	段首尾补音时长（ms）
--vad_window_size_samples	喂给 VAD 的窗长（512/1024/1536）
--vad_method	VAD 模型选择（silero_v5_fw 等）
--vad_dump	导出 VAD 调试字幕与中间音频
--vad_dump_aud	同时导出 VAD 收集的语音块音频
--vad_device	pyannote 系列 VAD 所用设备

07. 幻觉抑制

英文原文	中文释义
--hallucination_silence_threshold, -hst	实验：跳过长于阈值（秒）的疑似幻觉静音段
--hallucination_silence_th_temp, -hst_temp	温度高于此值时忽略 hst 分数
--clip_timestamps, -clip	仅处理指定起止片段（秒，逗号分隔）
--hotwords	给模型传递热词/短语提示
--batched	启用批量推理（速度↑ 长音频质量↓）
--batch_size	批量并行请求数（默认 8）
--batch_recursive	批量模式下也递归子目录
--ignore_dupe_prompt, -idp	禁止把重复片段加入 prompt（防幻觉循环）
--hallucinations_list_off	关闭已知幻觉屏蔽列表
--v3_offsets_off	禁用 large-v3 专用伪 VAD 偏移
--reprompt, --carry_initial_prompt	每窗都携带初始提示
--prompt_reset_on_no_end	句末无结束符时重置提示（0=关 1=. 2=.,）
--rehot	开发用：把 auto prompt 转热词逻辑
--unmerged	批量模式下不合并片段（更慢，时间戳更碎）

08. 日语专门

英文原文	中文释义
--japanese, -ja	日语输出风格：blend/kanji/hiragana/katakana

09. 句段/字幕排版

英文原文	中文释义
--sentence	每句新段（配合下方 max_* 参数）
--standard	一键预设：--max_line_width=42 --max_line_count=2 --max_comma_cent=70 --sentence
--standard_asia	亚洲语言预设：width=16 count=2 comma_cent=80 --sentence
--max_comma	句长超过此值时把逗号当句末（需 --sentence）
--max_comma_cent	行宽百分比阈值，开始逗号断句（100=禁用）
--max_gap	长于该秒的静音当句号处理
--max_line_width	单行最大字符数
--max_line_count	每条字幕最大行数
--min_dist_to_end	行尾留词长度阈值（0=禁用）
--one_word	1=每行一字 2=再去空格且≥50 ms

10. 音频前置滤镜（ff_ 系列）

英文原文	中文释义
--ff_dump	导出经滤镜后的 16 kHz 音频及中间文件
--ff_track	选择音轨（1 起始）
--ff_fc	仅取前中心声道
--ff_lc	仅取左声道
--ff_invert	左声道反相后混成单声道（去同相内容）
--ff_mp3	先转 MP3 再转回（降质测试）
--ff_sync	按时间戳拉伸/压缩音频（±3600 样本/s）
--ff_rnndn_sh	RNN 去噪 GregorR SH 模型（激进，去歌唱）
--ff_rnndn_xiph	RNN 去噪 Xiph 原始模型
--ff_fftdn [0-97]	FFT 通用降噪（12=正常 0=关）
--ff_tempo [0.5-2.0]	变速不变调（1.0=关）
--ff_gate	门限：削掉小信号
--ff_speechnorm	极速语音放大
--ff_loudnorm	EBU R128 响度归一化
--ff_silence_suppress	静音抑制：参数1=噪声容限(dB) 参数2=最短静音(秒)
--ff_lowhighpass	带通 50 Hz-7.8 kHz
--ff_vocal_extract, -ff_voc	人声提取：目前仅 mdx_kim2
--mdx_chunk	mdx 模型分块秒数（小→省显存）
--voc_device	人声提取所用设备

11. 说话人分离

英文原文	中文释义
--diarize	启用分离：pyannote_v3.0 / v3.1 / reverb_v1 / v2
--diarize_device	分离所用设备
--diarize_threads	分离线程（0=自动）
--diarize_dump	导出分离调试文件
--speaker	把默认 SPEAKER 字样替换成自定义词
--num_speakers	已知说话人数量
--min_speakers	最少说话人（与上互斥）
--max_speakers	最多说话人（与上互斥）
--diarize_ff	是否在 ff 滤镜后做分离（True/False/None）
--return_embeddings, -embeddings	导出每说话人一份 embedding
--diarize_only	仅做分离，不做转写

常用命令 ​

01. 输入/输出通用 ​

02. 模型/设备/性能 ​

03. 任务与语言 ​

04. 解码/采样策略 ​

05. 时间戳与字词级 ​

06. VAD（语音活动检测） ​

07. 幻觉抑制 ​

08. 日语专门 ​

09. 句段/字幕排版 ​

10. 音频前置滤镜（ff_ 系列） ​

11. 说话人分离 ​

常用命令

01. 输入/输出通用

02. 模型/设备/性能

03. 任务与语言

04. 解码/采样策略

05. 时间戳与字词级

06. VAD（语音活动检测）

07. 幻觉抑制

08. 日语专门

09. 句段/字幕排版

10. 音频前置滤镜（ff_ 系列）

11. 说话人分离