voiser-ai/mdx23
Run voiser-ai/mdx23 with an API
Use one of our client libraries to get started quickly. Clicking on a library will take you to the Playground tab where you can tweak different inputs, see the results, and copy the corresponding code to use in your own project.
Input schema
The fields you can use to run this model with an API. If you don't give a value for a field its default value will be used.
| Field | Type | Default value | Description |
|---|---|---|---|
| reference_audio |
string
|
Ses klonlama için referans ses dosyası (WAV/MP3). Modelin bu sesi taklit etmesini sağlar. 3-30 saniye arası temiz bir kayıt önerilir. Boş bırakılırsa modelin varsayılan sesi kullanılır.
|
|
| text |
string
|
Merhaba, bugün hava çok güzel.
|
Sese çevrilecek metin. Türkçe, İngilizce, Çince, Almanca, Fransızca, İspanyolca, Japonca, Korece ve daha birçok dili destekler. Pinyin ve IPA girdileri de kabul edilir.
|
| audio_temperature |
number
|
1.7
Max: 3 |
Ses üretimi sıcaklığı. Düşük değerler (0.5-1.0) daha monoton ve kararlı bir ses üretir. Yüksek değerler (1.5-2.0) daha doğal, duygusal ve canlı bir ses üretir ancak tutarsızlık riski artar. Çince için 1.7, İngilizce için 1.5 önerilir.
|
| audio_top_p |
number
|
0.8
Max: 1 |
Ses için Nucleus Sampling eşiği. Model bir sonraki ses parçasını seçerken, olasılık sıralamasında üst yüzde kaçlık dilimi kullanacağını belirler. 0.8 = en olası %80'lik dilimden seç. Düşük değerler daha tutarlı, yüksek değerler daha çeşitli sonuç verir.
|
| audio_top_k |
integer
|
25
Min: 1 Max: 200 |
Ses için Top-K Sampling. Model bir sonraki ses parçasını seçerken en olası kaç adayı değerlendireceğini belirler. 25 = en olası 25 aday arasından seç. Düşük değerler daha güvenli, yüksek değerler daha yaratıcı sonuç verir.
|
| max_new_tokens |
integer
|
2048
Min: 64 Max: 8192 |
Üretilebilecek maksimum token sayısı. Çıktı ses uzunluğunu kontrol eder. Kural: 1 saniye ≈ 12.5 token. Örnek: 2048 token ≈ ~163 saniye ses. Uzun metinler için artırın.
|
| expected_duration_sec |
number
|
0
Max: 120 |
Beklenen çıktı ses süresi (saniye). 0 = otomatik (model kendisi belirler). Belirlenmişse modelin konuşma hızını bu süreye göre ayarlar. En iyi sonuç için metnin doğal okuma süresinin 0.5x-1.5x aralığında olmalıdır.
|
| audio_repetition_penalty |
number
|
1
Min: 0.5 Max: 3 |
Ses tekrar cezası. 1.0 = ceza yok. 1.0'dan büyük değerler, modelin aynı ses kalıplarını tekrar etmesini engeller. Tekrarlayan/takılan ses sorunlarında artırın.
|
| text_temperature |
number
|
1.5
Max: 3 |
[Deneysel] Metin motoru sıcaklığı. Modelin hangi kelimelerin/yapıların üretileceğine karar verme aşamasını kontrol eder. Varsayılan 1.5 değeri model geliştiricileri tarafından optimize edilmiştir, değiştirmek önerilmez.
|
| text_top_p |
number
|
1
Max: 1 |
[Deneysel] Metin için Nucleus Sampling. Metin token seçiminde kullanılır. Varsayılan 1.0 değeri model geliştiricileri tarafından optimize edilmiştir.
|
| text_top_k |
integer
|
50
Min: 1 Max: 200 |
[Deneysel] Metin için Top-K Sampling. Metin token adaylarını sınırlar. Varsayılan 50 değeri model geliştiricileri tarafından optimize edilmiştir.
|
| output_format |
None
|
mp3
|
Çıktı ses formatı. MP3 seçilirse otomatik olarak 44100Hz ve 192kbps kalitesine yükseltilir. WAV seçilirse modelin ham sesi (24000Hz) korunur.
|
{
"type": "object",
"title": "Input",
"properties": {
"text": {
"type": "string",
"title": "Text",
"default": "Merhaba, bug\u00fcn hava \u00e7ok g\u00fczel.",
"x-order": 1,
"description": "Sese \u00e7evrilecek metin. T\u00fcrk\u00e7e, \u0130ngilizce, \u00c7ince, Almanca, Frans\u0131zca, \u0130spanyolca, Japonca, Korece ve daha bir\u00e7ok dili destekler. Pinyin ve IPA girdileri de kabul edilir."
},
"text_top_k": {
"type": "integer",
"title": "Text Top K",
"default": 50,
"maximum": 200,
"minimum": 1,
"x-order": 10,
"description": "[Deneysel] Metin i\u00e7in Top-K Sampling. Metin token adaylar\u0131n\u0131 s\u0131n\u0131rlar. Varsay\u0131lan 50 de\u011feri model geli\u015ftiricileri taraf\u0131ndan optimize edilmi\u015ftir."
},
"text_top_p": {
"type": "number",
"title": "Text Top P",
"default": 1,
"maximum": 1,
"minimum": 0,
"x-order": 9,
"description": "[Deneysel] Metin i\u00e7in Nucleus Sampling. Metin token se\u00e7iminde kullan\u0131l\u0131r. Varsay\u0131lan 1.0 de\u011feri model geli\u015ftiricileri taraf\u0131ndan optimize edilmi\u015ftir."
},
"audio_top_k": {
"type": "integer",
"title": "Audio Top K",
"default": 25,
"maximum": 200,
"minimum": 1,
"x-order": 4,
"description": "Ses i\u00e7in Top-K Sampling. Model bir sonraki ses par\u00e7as\u0131n\u0131 se\u00e7erken en olas\u0131 ka\u00e7 aday\u0131 de\u011ferlendirece\u011fini belirler. 25 = en olas\u0131 25 aday aras\u0131ndan se\u00e7. D\u00fc\u015f\u00fck de\u011ferler daha g\u00fcvenli, y\u00fcksek de\u011ferler daha yarat\u0131c\u0131 sonu\u00e7 verir."
},
"audio_top_p": {
"type": "number",
"title": "Audio Top P",
"default": 0.8,
"maximum": 1,
"minimum": 0,
"x-order": 3,
"description": "Ses i\u00e7in Nucleus Sampling e\u015fi\u011fi. Model bir sonraki ses par\u00e7as\u0131n\u0131 se\u00e7erken, olas\u0131l\u0131k s\u0131ralamas\u0131nda \u00fcst y\u00fczde ka\u00e7l\u0131k dilimi kullanaca\u011f\u0131n\u0131 belirler. 0.8 = en olas\u0131 %80'lik dilimden se\u00e7. D\u00fc\u015f\u00fck de\u011ferler daha tutarl\u0131, y\u00fcksek de\u011ferler daha \u00e7e\u015fitli sonu\u00e7 verir."
},
"output_format": {
"enum": [
"mp3",
"wav"
],
"type": "string",
"title": "output_format",
"description": "\u00c7\u0131kt\u0131 ses format\u0131. MP3 se\u00e7ilirse otomatik olarak 44100Hz ve 192kbps kalitesine y\u00fckseltilir. WAV se\u00e7ilirse modelin ham sesi (24000Hz) korunur.",
"default": "mp3",
"x-order": 11
},
"max_new_tokens": {
"type": "integer",
"title": "Max New Tokens",
"default": 2048,
"maximum": 8192,
"minimum": 64,
"x-order": 5,
"description": "\u00dcretilebilecek maksimum token say\u0131s\u0131. \u00c7\u0131kt\u0131 ses uzunlu\u011funu kontrol eder. Kural: 1 saniye \u2248 12.5 token. \u00d6rnek: 2048 token \u2248 ~163 saniye ses. Uzun metinler i\u00e7in art\u0131r\u0131n."
},
"reference_audio": {
"type": "string",
"title": "Reference Audio",
"format": "uri",
"x-order": 0,
"description": "Ses klonlama i\u00e7in referans ses dosyas\u0131 (WAV/MP3). Modelin bu sesi taklit etmesini sa\u011flar. 3-30 saniye aras\u0131 temiz bir kay\u0131t \u00f6nerilir. Bo\u015f b\u0131rak\u0131l\u0131rsa modelin varsay\u0131lan sesi kullan\u0131l\u0131r."
},
"text_temperature": {
"type": "number",
"title": "Text Temperature",
"default": 1.5,
"maximum": 3,
"minimum": 0,
"x-order": 8,
"description": "[Deneysel] Metin motoru s\u0131cakl\u0131\u011f\u0131. Modelin hangi kelimelerin/yap\u0131lar\u0131n \u00fcretilece\u011fine karar verme a\u015famas\u0131n\u0131 kontrol eder. Varsay\u0131lan 1.5 de\u011feri model geli\u015ftiricileri taraf\u0131ndan optimize edilmi\u015ftir, de\u011fi\u015ftirmek \u00f6nerilmez."
},
"audio_temperature": {
"type": "number",
"title": "Audio Temperature",
"default": 1.7,
"maximum": 3,
"minimum": 0,
"x-order": 2,
"description": "Ses \u00fcretimi s\u0131cakl\u0131\u011f\u0131. D\u00fc\u015f\u00fck de\u011ferler (0.5-1.0) daha monoton ve kararl\u0131 bir ses \u00fcretir. Y\u00fcksek de\u011ferler (1.5-2.0) daha do\u011fal, duygusal ve canl\u0131 bir ses \u00fcretir ancak tutars\u0131zl\u0131k riski artar. \u00c7ince i\u00e7in 1.7, \u0130ngilizce i\u00e7in 1.5 \u00f6nerilir."
},
"expected_duration_sec": {
"type": "number",
"title": "Expected Duration Sec",
"default": 0,
"maximum": 120,
"minimum": 0,
"x-order": 6,
"description": "Beklenen \u00e7\u0131kt\u0131 ses s\u00fcresi (saniye). 0 = otomatik (model kendisi belirler). Belirlenmi\u015fse modelin konu\u015fma h\u0131z\u0131n\u0131 bu s\u00fcreye g\u00f6re ayarlar. En iyi sonu\u00e7 i\u00e7in metnin do\u011fal okuma s\u00fcresinin 0.5x-1.5x aral\u0131\u011f\u0131nda olmal\u0131d\u0131r."
},
"audio_repetition_penalty": {
"type": "number",
"title": "Audio Repetition Penalty",
"default": 1,
"maximum": 3,
"minimum": 0.5,
"x-order": 7,
"description": "Ses tekrar cezas\u0131. 1.0 = ceza yok. 1.0'dan b\u00fcy\u00fck de\u011ferler, modelin ayn\u0131 ses kal\u0131plar\u0131n\u0131 tekrar etmesini engeller. Tekrarlayan/tak\u0131lan ses sorunlar\u0131nda art\u0131r\u0131n."
}
}
}
Output schema
The shape of the response you’ll get when you run this model with an API.
{
"type": "string",
"title": "Output",
"format": "uri"
}