aodianyun/indextts2-thai

Public

5 runs

Run aodianyun/indextts2-thai with an API

Use one of our client libraries to get started quickly. Clicking on a library will take you to the Playground tab where you can tweak different inputs, see the results, and copy the corresponding code to use in your own project.

Input schema

The fields you can use to run this model with an API. If you don't give a value for a field its default value will be used.

Field	Type	Default value	Description
prompt_audio	string		说话人参考音频（泰语，wav/mp3）
text	string		待合成的文本（建议泰文为主，可少量混英文）
temperature	number	0.5	采样温度，越低越稳定、越少离谱音色，越高越有表现力（推荐 0.3~0.8）
top_p	number	0.7	nucleus sampling 截断概率，越低越“保守”，越高越“开放”（推荐 0.5~0.9）
top_k	integer	20	每步候选 token 数，越小越稳，越大越有创意但更易出噪音（推荐 10~30）
do_sample	boolean	True	是否开启采样；False 时使用 beam search，一般更稳定、噪音更少
num_beams	integer	1	beam search 的 beam 数，>1 且 do_sample=False 时生效，越大越慢但更稳（推荐 3~5）
length_penalty	number	0	beam search 长度惩罚系数，0 表示不过度偏好长句，一般保持 0 即可
repetition_penalty	number	1.2	重复惩罚系数，略微大于 1 可减少奇怪重复/口吃感（推荐 1.1~1.3）
max_mel_tokens	integer	1500	最大 mel token 数，上限越大越不容易被截断但会变慢（推荐 1500~2200）
max_text_tokens_per_segment	integer	120	单段最大文本长度，适当减小可提升长句稳定性（推荐 80~120）
interval_silence	integer	200	分段之间插入的静音时长（毫秒），控制句子停顿感（推荐 200~400）
emo_alpha	number	0.8	情感强度 [0,1]，越小越接近原声线且更稳，越大情感更夸张（推荐 0.5~0.8）
use_emo_text	boolean	False	是否根据文本/emo_text 自动推断情感向量，不依赖情感参考音频
emo_text	string		独立的情感提示文本；留空时默认使用合成文本本身
use_random	boolean	False	情感向量采样是否加入随机性，一般建议关闭以保证可复现和稳定性
verbose	boolean	False	是否打印详细调试信息，仅排查问题时建议开启

{
  "type": "object",
  "title": "Input",
  "required": [
    "prompt_audio",
    "text"
  ],
  "properties": {
    "text": {
      "type": "string",
      "title": "Text",
      "x-order": 1,
      "description": "\u5f85\u5408\u6210\u7684\u6587\u672c\uff08\u5efa\u8bae\u6cf0\u6587\u4e3a\u4e3b\uff0c\u53ef\u5c11\u91cf\u6df7\u82f1\u6587\uff09"
    },
    "top_k": {
      "type": "integer",
      "title": "Top K",
      "default": 20,
      "x-order": 4,
      "description": "\u6bcf\u6b65\u5019\u9009 token \u6570\uff0c\u8d8a\u5c0f\u8d8a\u7a33\uff0c\u8d8a\u5927\u8d8a\u6709\u521b\u610f\u4f46\u66f4\u6613\u51fa\u566a\u97f3\uff08\u63a8\u8350 10~30\uff09"
    },
    "top_p": {
      "type": "number",
      "title": "Top P",
      "default": 0.7,
      "x-order": 3,
      "description": "nucleus sampling \u622a\u65ad\u6982\u7387\uff0c\u8d8a\u4f4e\u8d8a\u201c\u4fdd\u5b88\u201d\uff0c\u8d8a\u9ad8\u8d8a\u201c\u5f00\u653e\u201d\uff08\u63a8\u8350 0.5~0.9\uff09"
    },
    "verbose": {
      "type": "boolean",
      "title": "Verbose",
      "default": false,
      "x-order": 16,
      "description": "\u662f\u5426\u6253\u5370\u8be6\u7ec6\u8c03\u8bd5\u4fe1\u606f\uff0c\u4ec5\u6392\u67e5\u95ee\u9898\u65f6\u5efa\u8bae\u5f00\u542f"
    },
    "emo_text": {
      "type": "string",
      "title": "Emo Text",
      "default": "",
      "x-order": 14,
      "description": "\u72ec\u7acb\u7684\u60c5\u611f\u63d0\u793a\u6587\u672c\uff1b\u7559\u7a7a\u65f6\u9ed8\u8ba4\u4f7f\u7528\u5408\u6210\u6587\u672c\u672c\u8eab"
    },
    "do_sample": {
      "type": "boolean",
      "title": "Do Sample",
      "default": true,
      "x-order": 5,
      "description": "\u662f\u5426\u5f00\u542f\u91c7\u6837\uff1bFalse \u65f6\u4f7f\u7528 beam search\uff0c\u4e00\u822c\u66f4\u7a33\u5b9a\u3001\u566a\u97f3\u66f4\u5c11"
    },
    "emo_alpha": {
      "type": "number",
      "title": "Emo Alpha",
      "default": 0.8,
      "x-order": 12,
      "description": "\u60c5\u611f\u5f3a\u5ea6 [0,1]\uff0c\u8d8a\u5c0f\u8d8a\u63a5\u8fd1\u539f\u58f0\u7ebf\u4e14\u66f4\u7a33\uff0c\u8d8a\u5927\u60c5\u611f\u66f4\u5938\u5f20\uff08\u63a8\u8350 0.5~0.8\uff09"
    },
    "num_beams": {
      "type": "integer",
      "title": "Num Beams",
      "default": 1,
      "x-order": 6,
      "description": "beam search \u7684 beam \u6570\uff0c>1 \u4e14 do_sample=False \u65f6\u751f\u6548\uff0c\u8d8a\u5927\u8d8a\u6162\u4f46\u66f4\u7a33\uff08\u63a8\u8350 3~5\uff09"
    },
    "use_random": {
      "type": "boolean",
      "title": "Use Random",
      "default": false,
      "x-order": 15,
      "description": "\u60c5\u611f\u5411\u91cf\u91c7\u6837\u662f\u5426\u52a0\u5165\u968f\u673a\u6027\uff0c\u4e00\u822c\u5efa\u8bae\u5173\u95ed\u4ee5\u4fdd\u8bc1\u53ef\u590d\u73b0\u548c\u7a33\u5b9a\u6027"
    },
    "temperature": {
      "type": "number",
      "title": "Temperature",
      "default": 0.5,
      "x-order": 2,
      "description": "\u91c7\u6837\u6e29\u5ea6\uff0c\u8d8a\u4f4e\u8d8a\u7a33\u5b9a\u3001\u8d8a\u5c11\u79bb\u8c31\u97f3\u8272\uff0c\u8d8a\u9ad8\u8d8a\u6709\u8868\u73b0\u529b\uff08\u63a8\u8350 0.3~0.8\uff09"
    },
    "prompt_audio": {
      "type": "string",
      "title": "Prompt Audio",
      "format": "uri",
      "x-order": 0,
      "description": "\u8bf4\u8bdd\u4eba\u53c2\u8003\u97f3\u9891\uff08\u6cf0\u8bed\uff0cwav/mp3\uff09"
    },
    "use_emo_text": {
      "type": "boolean",
      "title": "Use Emo Text",
      "default": false,
      "x-order": 13,
      "description": "\u662f\u5426\u6839\u636e\u6587\u672c/emo_text \u81ea\u52a8\u63a8\u65ad\u60c5\u611f\u5411\u91cf\uff0c\u4e0d\u4f9d\u8d56\u60c5\u611f\u53c2\u8003\u97f3\u9891"
    },
    "length_penalty": {
      "type": "number",
      "title": "Length Penalty",
      "default": 0,
      "x-order": 7,
      "description": "beam search \u957f\u5ea6\u60e9\u7f5a\u7cfb\u6570\uff0c0 \u8868\u793a\u4e0d\u8fc7\u5ea6\u504f\u597d\u957f\u53e5\uff0c\u4e00\u822c\u4fdd\u6301 0 \u5373\u53ef"
    },
    "max_mel_tokens": {
      "type": "integer",
      "title": "Max Mel Tokens",
      "default": 1500,
      "x-order": 9,
      "description": "\u6700\u5927 mel token \u6570\uff0c\u4e0a\u9650\u8d8a\u5927\u8d8a\u4e0d\u5bb9\u6613\u88ab\u622a\u65ad\u4f46\u4f1a\u53d8\u6162\uff08\u63a8\u8350 1500~2200\uff09"
    },
    "interval_silence": {
      "type": "integer",
      "title": "Interval Silence",
      "default": 200,
      "x-order": 11,
      "description": "\u5206\u6bb5\u4e4b\u95f4\u63d2\u5165\u7684\u9759\u97f3\u65f6\u957f\uff08\u6beb\u79d2\uff09\uff0c\u63a7\u5236\u53e5\u5b50\u505c\u987f\u611f\uff08\u63a8\u8350 200~400\uff09"
    },
    "repetition_penalty": {
      "type": "number",
      "title": "Repetition Penalty",
      "default": 1.2,
      "x-order": 8,
      "description": "\u91cd\u590d\u60e9\u7f5a\u7cfb\u6570\uff0c\u7565\u5fae\u5927\u4e8e 1 \u53ef\u51cf\u5c11\u5947\u602a\u91cd\u590d/\u53e3\u5403\u611f\uff08\u63a8\u8350 1.1~1.3\uff09"
    },
    "max_text_tokens_per_segment": {
      "type": "integer",
      "title": "Max Text Tokens Per Segment",
      "default": 120,
      "x-order": 10,
      "description": "\u5355\u6bb5\u6700\u5927\u6587\u672c\u957f\u5ea6\uff0c\u9002\u5f53\u51cf\u5c0f\u53ef\u63d0\u5347\u957f\u53e5\u7a33\u5b9a\u6027\uff08\u63a8\u8350 80~120\uff09"
    }
  }
}

Output schema

The shape of the response you’ll get when you run this model with an API.

Schema

{
  "type": "string",
  "title": "Output",
  "format": "uri"
}