Readme
Whisper Chinese Pro — Cert(繁中/台語/客語,三引擎認證版) 貼到 Replicate model page 的公開說明。對外發佈動作(cog push / 建 model / 公告)由帳號持有者本人執行。 對應內部企劃:BRIEF.md。
Court-grade Traditional-Chinese ASR with word-level alignment, speaker diarization, and an optional three-engine certification mode that flags disputed segments and returns a confidence index. Native support for Mandarin / Taiwanese (台語) / Hakka (客語), backed by a 210k-term MOE lexicon plus domain corpora.
Why this model 通用 ASR(含原生 Whisper)給你「一份逐字稿」。本模型給你「一份可驗證、敢上法庭的逐字稿」:
wav2vec2 強制對齊 — 單字時間軸 ±40ms(不是 Whisper 粗略 word_timestamps)。 三引擎認證版(option) — 第二引擎交叉比對,標記 disputed 段 + agreement_score + confidence_index。LLM-native audio 做不到的「可重現、可逐句溯源」。 中文家族原生 — 台語/客語不是 fallback,是專屬 prompt + 詞庫。 長檔自動切片 — >15min 以 silence 切 10min/chunk,跨 chunk 仍交叉驗證。 熱詞注入 — hotwords 疊加在 210k 內建詞庫之上,領域術語/人名一次到位。 Inputs 參數 型別 預設 說明 file Path — 音檔/影片 mp3/mp4/m4a/wav file_url str “” 或給音訊 URL language enum auto auto/zh/zh-tw/zh-hk/en/ja/ko num_speakers int 0 已知人數(0=自動,≤32) enable_diarization bool true 輸出 speaker 標籤 enable_certification bool false ★ 三引擎認證版(+~80% 時間) hotwords str “” 自訂熱詞 hf_token Secret — HuggingFace token(pyannote 必需) Output(節錄) { “segments”: [ {“start”: 0.0, “end”: 3.2, “text”: “說話內容”, “speaker”: “SPEAKER_00”, “words”: [{“word”: “說”, “start”: 0.1, “end”: 0.3, “score”: 0.95}], “agreement_score”: 0.97, “disputed”: false} ], “language”: “zh”, “duration”: 600.5, “rtf”: 8.4, “engines_used”: [“whisper_turbo”, “hybrid_diarize”], “certification”: {“agreement_score”: 0.95, “disputed_ratio”: 0.05, “confidence_index”: 94} } confidence_index = agreement×70 + (1−disputed)×20 + min(rtf/30,1)×10(0–100,認證版才有)。
Pricing(建議) 模式 硬體 ~1hr 音檔成本 建議定價 標準(單引擎+對齊+語者) L40S ~$0.18 $0.30/hr 認證版(三引擎) L40S ~$0.30 $0.50/hr 對標 thomasmol 單引擎 ~$0.30/hr;認證版 $0.50/hr 仍具競爭力(差異化 = 可驗證)。
Limitations(誠實揭露) 台語準確率上限約 54%(模型級),認證版會把不確定段標 disputed 而非藏起來。 認證版時間 +~80%;對成本敏感且非法律用途可關閉。 diarization 需 HF token 並接受 pyannote terms。 30 天市場驗證觀察指標 上架後追:誰在用 / 什麼音檔長度 / 哪種 language 最多 / 認證版開啟率 / 有無付費轉換。 這四項決定是否投資 GPU 並行(成本優化)與 Evidence Workflow(產品突破)。