LLaVA-13b: Large Language and Vision Model - Replicate

Visual instruction tuning towards large language and vision models with GPT-4 level capabilities

Public

36M runs

License

GitHub

Paper