You're looking at a specific version of this model. Jump to the model overview.

voiser-ai /mdx23:4c5e71c1

Input schema

The fields you can use to run this model with an API. If you don’t give a value for a field its default value will be used.

Field Type Default value Description
reference_audio
string
Ses klonlama için referans ses dosyası (WAV/MP3). Modelin bu sesi taklit etmesini sağlar. 3-30 saniye arası temiz bir kayıt önerilir. Boş bırakılırsa modelin varsayılan sesi kullanılır.
text
string
Merhaba, bugün hava çok güzel.
Sese çevrilecek metin. Türkçe, İngilizce, Çince, Almanca, Fransızca, İspanyolca, Japonca, Korece ve daha birçok dili destekler. Pinyin ve IPA girdileri de kabul edilir.
audio_temperature
number
1.7

Max: 3

Ses üretimi sıcaklığı. Düşük değerler (0.5-1.0) daha monoton ve kararlı bir ses üretir. Yüksek değerler (1.5-2.0) daha doğal, duygusal ve canlı bir ses üretir ancak tutarsızlık riski artar. Çince için 1.7, İngilizce için 1.5 önerilir.
audio_top_p
number
0.8

Max: 1

Ses için Nucleus Sampling eşiği. Model bir sonraki ses parçasını seçerken, olasılık sıralamasında üst yüzde kaçlık dilimi kullanacağını belirler. 0.8 = en olası %80'lik dilimden seç. Düşük değerler daha tutarlı, yüksek değerler daha çeşitli sonuç verir.
audio_top_k
integer
25

Min: 1

Max: 200

Ses için Top-K Sampling. Model bir sonraki ses parçasını seçerken en olası kaç adayı değerlendireceğini belirler. 25 = en olası 25 aday arasından seç. Düşük değerler daha güvenli, yüksek değerler daha yaratıcı sonuç verir.
max_new_tokens
integer
2048

Min: 64

Max: 8192

Üretilebilecek maksimum token sayısı. Çıktı ses uzunluğunu kontrol eder. Kural: 1 saniye ≈ 12.5 token. Örnek: 2048 token ≈ ~163 saniye ses. Uzun metinler için artırın.
expected_duration_sec
number
0

Max: 120

Beklenen çıktı ses süresi (saniye). 0 = otomatik (model kendisi belirler). Belirlenmişse modelin konuşma hızını bu süreye göre ayarlar. En iyi sonuç için metnin doğal okuma süresinin 0.5x-1.5x aralığında olmalıdır.
audio_repetition_penalty
number
1

Min: 0.5

Max: 3

Ses tekrar cezası. 1.0 = ceza yok. 1.0'dan büyük değerler, modelin aynı ses kalıplarını tekrar etmesini engeller. Tekrarlayan/takılan ses sorunlarında artırın.
text_temperature
number
1.5

Max: 3

[Deneysel] Metin motoru sıcaklığı. Modelin hangi kelimelerin/yapıların üretileceğine karar verme aşamasını kontrol eder. Varsayılan 1.5 değeri model geliştiricileri tarafından optimize edilmiştir, değiştirmek önerilmez.
text_top_p
number
1

Max: 1

[Deneysel] Metin için Nucleus Sampling. Metin token seçiminde kullanılır. Varsayılan 1.0 değeri model geliştiricileri tarafından optimize edilmiştir.
text_top_k
integer
50

Min: 1

Max: 200

[Deneysel] Metin için Top-K Sampling. Metin token adaylarını sınırlar. Varsayılan 50 değeri model geliştiricileri tarafından optimize edilmiştir.
output_format
None
mp3
Çıktı ses formatı.
sample_rate
None
44100
Çıktı örnekleme hızı (Hz). 24000 modelin ham hızıdır, 44100 daha yüksek kalite için resample edilir.

Output schema

The shape of the response you’ll get when you run this model with an API.

Schema
{'format': 'uri', 'title': 'Output', 'type': 'string'}