voiser-ai/mdx23 | API reference

Public

554 runs

Run voiser-ai/mdx23 with an API

Use one of our client libraries to get started quickly. Clicking on a library will take you to the Playground tab where you can tweak different inputs, see the results, and copy the corresponding code to use in your own project.

Input schema

The fields you can use to run this model with an API. If you don't give a value for a field its default value will be used.

Field	Type	Default value	Description
reference_audio	string		Ses klonlama için referans ses dosyası (WAV/MP3). Modelin bu sesi taklit etmesini sağlar. 3-30 saniye arası temiz bir kayıt önerilir. Boş bırakılırsa modelin varsayılan sesi kullanılır.
text	string	Merhaba, bugün hava çok güzel.	Sese çevrilecek metin. Türkçe, İngilizce, Çince, Almanca, Fransızca, İspanyolca, Japonca, Korece ve daha birçok dili destekler. Pinyin ve IPA girdileri de kabul edilir.
model_language	None	auto	MOSS-TTS v1.5 dil etiketi. Dil biliniyorsa seçmek kaliteyi artırır; auto seçilirse model dili kendisi çıkarır.
text_normalization_language	None	none	Metin ön işleme dili. Seçilen dil destekleniyorsa düz tam sayılar o dilde yazıya çevrilir. 'none' seçilirse metin aynen modele gider.
audio_temperature	number	1.7 Max: 3	Ses üretimi sıcaklığı. Düşük değerler (0.5-1.0) daha monoton ve kararlı bir ses üretir. Yüksek değerler (1.5-2.0) daha doğal, duygusal ve canlı bir ses üretir ancak tutarsızlık riski artar. Çince için 1.7, İngilizce için 1.5 önerilir.
audio_top_p	number	0.8 Max: 1	Ses için Nucleus Sampling eşiği. Model bir sonraki ses parçasını seçerken, olasılık sıralamasında üst yüzde kaçlık dilimi kullanacağını belirler. 0.8 = en olası %80'lik dilimden seç. Düşük değerler daha tutarlı, yüksek değerler daha çeşitli sonuç verir.
audio_top_k	integer	25 Min: 1 Max: 200	Ses için Top-K Sampling. Model bir sonraki ses parçasını seçerken en olası kaç adayı değerlendireceğini belirler. 25 = en olası 25 aday arasından seç. Düşük değerler daha güvenli, yüksek değerler daha yaratıcı sonuç verir.
max_new_tokens	integer	2048 Min: 64 Max: 8192	Üretilebilecek maksimum token sayısı. Çıktı ses uzunluğunu kontrol eder. Kural: 1 saniye ≈ 12.5 token. Örnek: 2048 token ≈ ~163 saniye ses. Uzun metinler için artırın.
expected_duration_sec	number	0 Max: 120	Beklenen çıktı ses süresi (saniye). 0 = otomatik (model kendisi belirler). Belirlenmişse modelin konuşma hızını bu süreye göre ayarlar. En iyi sonuç için metnin doğal okuma süresinin 0.5x-1.5x aralığında olmalıdır.
audio_repetition_penalty	number	1 Min: 0.5 Max: 3	Ses tekrar cezası. 1.0 = ceza yok. 1.0'dan büyük değerler, modelin aynı ses kalıplarını tekrar etmesini engeller. Tekrarlayan/takılan ses sorunlarında artırın.
text_temperature	number	1.5 Max: 3	[Deneysel] Metin motoru sıcaklığı. Modelin hangi kelimelerin/yapıların üretileceğine karar verme aşamasını kontrol eder. Varsayılan 1.5 değeri model geliştiricileri tarafından optimize edilmiştir, değiştirmek önerilmez.
text_top_p	number	1 Max: 1	[Deneysel] Metin için Nucleus Sampling. Metin token seçiminde kullanılır. Varsayılan 1.0 değeri model geliştiricileri tarafından optimize edilmiştir.
text_top_k	integer	50 Min: 1 Max: 200	[Deneysel] Metin için Top-K Sampling. Metin token adaylarını sınırlar. Varsayılan 50 değeri model geliştiricileri tarafından optimize edilmiştir.
output_format	None	mp3	Çıktı ses formatı. MP3 seçilirse otomatik olarak 44100Hz ve 192kbps kalitesine yükseltilir. WAV seçilirse modelin ham sesi (24000Hz) korunur.

{
  "type": "object",
  "title": "Input",
  "properties": {
    "text": {
      "type": "string",
      "title": "Text",
      "default": "Merhaba, bug\u00fcn hava \u00e7ok g\u00fczel.",
      "x-order": 1,
      "description": "Sese \u00e7evrilecek metin. T\u00fcrk\u00e7e, \u0130ngilizce, \u00c7ince, Almanca, Frans\u0131zca, \u0130spanyolca, Japonca, Korece ve daha bir\u00e7ok dili destekler. Pinyin ve IPA girdileri de kabul edilir."
    },
    "text_top_k": {
      "type": "integer",
      "title": "Text Top K",
      "default": 50,
      "maximum": 200,
      "minimum": 1,
      "x-order": 12,
      "description": "[Deneysel] Metin i\u00e7in Top-K Sampling. Metin token adaylar\u0131n\u0131 s\u0131n\u0131rlar. Varsay\u0131lan 50 de\u011feri model geli\u015ftiricileri taraf\u0131ndan optimize edilmi\u015ftir."
    },
    "text_top_p": {
      "type": "number",
      "title": "Text Top P",
      "default": 1,
      "maximum": 1,
      "minimum": 0,
      "x-order": 11,
      "description": "[Deneysel] Metin i\u00e7in Nucleus Sampling. Metin token se\u00e7iminde kullan\u0131l\u0131r. Varsay\u0131lan 1.0 de\u011feri model geli\u015ftiricileri taraf\u0131ndan optimize edilmi\u015ftir."
    },
    "audio_top_k": {
      "type": "integer",
      "title": "Audio Top K",
      "default": 25,
      "maximum": 200,
      "minimum": 1,
      "x-order": 6,
      "description": "Ses i\u00e7in Top-K Sampling. Model bir sonraki ses par\u00e7as\u0131n\u0131 se\u00e7erken en olas\u0131 ka\u00e7 aday\u0131 de\u011ferlendirece\u011fini belirler. 25 = en olas\u0131 25 aday aras\u0131ndan se\u00e7. D\u00fc\u015f\u00fck de\u011ferler daha g\u00fcvenli, y\u00fcksek de\u011ferler daha yarat\u0131c\u0131 sonu\u00e7 verir."
    },
    "audio_top_p": {
      "type": "number",
      "title": "Audio Top P",
      "default": 0.8,
      "maximum": 1,
      "minimum": 0,
      "x-order": 5,
      "description": "Ses i\u00e7in Nucleus Sampling e\u015fi\u011fi. Model bir sonraki ses par\u00e7as\u0131n\u0131 se\u00e7erken, olas\u0131l\u0131k s\u0131ralamas\u0131nda \u00fcst y\u00fczde ka\u00e7l\u0131k dilimi kullanaca\u011f\u0131n\u0131 belirler. 0.8 = en olas\u0131 %80'lik dilimden se\u00e7. D\u00fc\u015f\u00fck de\u011ferler daha tutarl\u0131, y\u00fcksek de\u011ferler daha \u00e7e\u015fitli sonu\u00e7 verir."
    },
    "output_format": {
      "enum": [
        "mp3",
        "wav"
      ],
      "type": "string",
      "title": "output_format",
      "description": "\u00c7\u0131kt\u0131 ses format\u0131. MP3 se\u00e7ilirse otomatik olarak 44100Hz ve 192kbps kalitesine y\u00fckseltilir. WAV se\u00e7ilirse modelin ham sesi (24000Hz) korunur.",
      "default": "mp3",
      "x-order": 13
    },
    "max_new_tokens": {
      "type": "integer",
      "title": "Max New Tokens",
      "default": 2048,
      "maximum": 8192,
      "minimum": 64,
      "x-order": 7,
      "description": "\u00dcretilebilecek maksimum token say\u0131s\u0131. \u00c7\u0131kt\u0131 ses uzunlu\u011funu kontrol eder. Kural: 1 saniye \u2248 12.5 token. \u00d6rnek: 2048 token \u2248 ~163 saniye ses. Uzun metinler i\u00e7in art\u0131r\u0131n."
    },
    "model_language": {
      "enum": [
        "auto",
        "Chinese",
        "Cantonese",
        "English",
        "Arabic",
        "Czech",
        "Danish",
        "Dutch",
        "Finnish",
        "French",
        "German",
        "Greek",
        "Hebrew",
        "Hindi",
        "Hungarian",
        "Italian",
        "Japanese",
        "Korean",
        "Macedonian",
        "Malay",
        "Persian (Farsi)",
        "Polish",
        "Portuguese",
        "Romanian",
        "Russian",
        "Spanish",
        "Swahili",
        "Swedish",
        "Tagalog",
        "Thai",
        "Turkish",
        "Vietnamese"
      ],
      "type": "string",
      "title": "model_language",
      "description": "MOSS-TTS v1.5 dil etiketi. Dil biliniyorsa se\u00e7mek kaliteyi art\u0131r\u0131r; auto se\u00e7ilirse model dili kendisi \u00e7\u0131kar\u0131r.",
      "default": "auto",
      "x-order": 2
    },
    "reference_audio": {
      "type": "string",
      "title": "Reference Audio",
      "format": "uri",
      "x-order": 0,
      "description": "Ses klonlama i\u00e7in referans ses dosyas\u0131 (WAV/MP3). Modelin bu sesi taklit etmesini sa\u011flar. 3-30 saniye aras\u0131 temiz bir kay\u0131t \u00f6nerilir. Bo\u015f b\u0131rak\u0131l\u0131rsa modelin varsay\u0131lan sesi kullan\u0131l\u0131r."
    },
    "text_temperature": {
      "type": "number",
      "title": "Text Temperature",
      "default": 1.5,
      "maximum": 3,
      "minimum": 0,
      "x-order": 10,
      "description": "[Deneysel] Metin motoru s\u0131cakl\u0131\u011f\u0131. Modelin hangi kelimelerin/yap\u0131lar\u0131n \u00fcretilece\u011fine karar verme a\u015famas\u0131n\u0131 kontrol eder. Varsay\u0131lan 1.5 de\u011feri model geli\u015ftiricileri taraf\u0131ndan optimize edilmi\u015ftir, de\u011fi\u015ftirmek \u00f6nerilmez."
    },
    "audio_temperature": {
      "type": "number",
      "title": "Audio Temperature",
      "default": 1.7,
      "maximum": 3,
      "minimum": 0,
      "x-order": 4,
      "description": "Ses \u00fcretimi s\u0131cakl\u0131\u011f\u0131. D\u00fc\u015f\u00fck de\u011ferler (0.5-1.0) daha monoton ve kararl\u0131 bir ses \u00fcretir. Y\u00fcksek de\u011ferler (1.5-2.0) daha do\u011fal, duygusal ve canl\u0131 bir ses \u00fcretir ancak tutars\u0131zl\u0131k riski artar. \u00c7ince i\u00e7in 1.7, \u0130ngilizce i\u00e7in 1.5 \u00f6nerilir."
    },
    "expected_duration_sec": {
      "type": "number",
      "title": "Expected Duration Sec",
      "default": 0,
      "maximum": 120,
      "minimum": 0,
      "x-order": 8,
      "description": "Beklenen \u00e7\u0131kt\u0131 ses s\u00fcresi (saniye). 0 = otomatik (model kendisi belirler). Belirlenmi\u015fse modelin konu\u015fma h\u0131z\u0131n\u0131 bu s\u00fcreye g\u00f6re ayarlar. En iyi sonu\u00e7 i\u00e7in metnin do\u011fal okuma s\u00fcresinin 0.5x-1.5x aral\u0131\u011f\u0131nda olmal\u0131d\u0131r."
    },
    "audio_repetition_penalty": {
      "type": "number",
      "title": "Audio Repetition Penalty",
      "default": 1,
      "maximum": 3,
      "minimum": 0.5,
      "x-order": 9,
      "description": "Ses tekrar cezas\u0131. 1.0 = ceza yok. 1.0'dan b\u00fcy\u00fck de\u011ferler, modelin ayn\u0131 ses kal\u0131plar\u0131n\u0131 tekrar etmesini engeller. Tekrarlayan/tak\u0131lan ses sorunlar\u0131nda art\u0131r\u0131n."
    },
    "text_normalization_language": {
      "enum": [
        "none",
        "tr",
        "fa",
        "sv",
        "es",
        "it",
        "de",
        "pt",
        "ja",
        "zh",
        "en",
        "fr",
        "hu",
        "ko",
        "ru",
        "ar",
        "pl",
        "cs",
        "da",
        "el"
      ],
      "type": "string",
      "title": "text_normalization_language",
      "description": "Metin \u00f6n i\u015fleme dili. Se\u00e7ilen dil destekleniyorsa d\u00fcz tam say\u0131lar o dilde yaz\u0131ya \u00e7evrilir. 'none' se\u00e7ilirse metin aynen modele gider.",
      "default": "none",
      "x-order": 3
    }
  }
}

Output schema

The shape of the response you’ll get when you run this model with an API.

Schema

{
  "type": "string",
  "title": "Output",
  "format": "uri"
}