You're looking at a specific version of this model. Jump to the model overview.
Input schema
The fields you can use to run this model with an API. If you don’t give a value for a field its default value will be used.
| Field | Type | Default value | Description |
|---|---|---|---|
| reference_audio |
string
|
Ses klonlama için referans ses dosyası (WAV/MP3). Modelin bu sesi taklit etmesini sağlar. 3-30 saniye arası temiz bir kayıt önerilir. Boş bırakılırsa modelin varsayılan sesi kullanılır.
|
|
| text |
string
|
Merhaba, bugün hava çok güzel.
|
Sese çevrilecek metin. Türkçe, İngilizce, Çince, Almanca, Fransızca, İspanyolca, Japonca, Korece ve daha birçok dili destekler. Pinyin ve IPA girdileri de kabul edilir.
|
| audio_temperature |
number
|
1.7
Max: 3 |
Ses üretimi sıcaklığı. Düşük değerler (0.5-1.0) daha monoton ve kararlı bir ses üretir. Yüksek değerler (1.5-2.0) daha doğal, duygusal ve canlı bir ses üretir ancak tutarsızlık riski artar. Çince için 1.7, İngilizce için 1.5 önerilir.
|
| audio_top_p |
number
|
0.8
Max: 1 |
Ses için Nucleus Sampling eşiği. Model bir sonraki ses parçasını seçerken, olasılık sıralamasında üst yüzde kaçlık dilimi kullanacağını belirler. 0.8 = en olası %80'lik dilimden seç. Düşük değerler daha tutarlı, yüksek değerler daha çeşitli sonuç verir.
|
| audio_top_k |
integer
|
25
Min: 1 Max: 200 |
Ses için Top-K Sampling. Model bir sonraki ses parçasını seçerken en olası kaç adayı değerlendireceğini belirler. 25 = en olası 25 aday arasından seç. Düşük değerler daha güvenli, yüksek değerler daha yaratıcı sonuç verir.
|
| max_new_tokens |
integer
|
2048
Min: 64 Max: 8192 |
Üretilebilecek maksimum token sayısı. Çıktı ses uzunluğunu kontrol eder. Kural: 1 saniye ≈ 12.5 token. Örnek: 2048 token ≈ ~163 saniye ses. Uzun metinler için artırın.
|
| expected_duration_sec |
number
|
0
Max: 120 |
Beklenen çıktı ses süresi (saniye). 0 = otomatik (model kendisi belirler). Belirlenmişse modelin konuşma hızını bu süreye göre ayarlar. En iyi sonuç için metnin doğal okuma süresinin 0.5x-1.5x aralığında olmalıdır.
|
| audio_repetition_penalty |
number
|
1
Min: 0.5 Max: 3 |
Ses tekrar cezası. 1.0 = ceza yok. 1.0'dan büyük değerler, modelin aynı ses kalıplarını tekrar etmesini engeller. Tekrarlayan/takılan ses sorunlarında artırın.
|
| text_temperature |
number
|
1.5
Max: 3 |
[Deneysel] Metin motoru sıcaklığı. Modelin hangi kelimelerin/yapıların üretileceğine karar verme aşamasını kontrol eder. Varsayılan 1.5 değeri model geliştiricileri tarafından optimize edilmiştir, değiştirmek önerilmez.
|
| text_top_p |
number
|
1
Max: 1 |
[Deneysel] Metin için Nucleus Sampling. Metin token seçiminde kullanılır. Varsayılan 1.0 değeri model geliştiricileri tarafından optimize edilmiştir.
|
| text_top_k |
integer
|
50
Min: 1 Max: 200 |
[Deneysel] Metin için Top-K Sampling. Metin token adaylarını sınırlar. Varsayılan 50 değeri model geliştiricileri tarafından optimize edilmiştir.
|
| output_format |
None
|
mp3
|
Çıktı ses formatı. MP3 seçilirse otomatik olarak 44100Hz ve 192kbps kalitesine yükseltilir. WAV seçilirse modelin ham sesi (24000Hz) korunur.
|
Output schema
The shape of the response you’ll get when you run this model with an API.
{'format': 'uri', 'title': 'Output', 'type': 'string'}