cjwbw / mindall-e

text-to-image generation

Public
1.8K runs
T4
GitHub
License

Run with an API

Playground API Examples README Versions

Input

Run this model in Node.js with one line of code:

npx create-replicate --model=cjwbw/mindall-e

or set up a project from scratch

Install Replicate’s Node.js client library:

npm install replicate

Set the REPLICATE_API_TOKEN environment variable:

export REPLICATE_API_TOKEN=<paste-your-token-here>

Find your API token in your account settings.

Import and set up the client:

import Replicate from "replicate";

const replicate = new Replicate({
  auth: process.env.REPLICATE_API_TOKEN,
});

Run cjwbw/mindall-e using Replicate’s API. Check out the model's schema for an overview of inputs and outputs.

const output = await replicate.run(
  "cjwbw/mindall-e:c94a63715097e12c62d3f110fcabb1b70b5c8f5aa04251e116f58a545a47d812",
  {
    input: {
      seed: 0,
      prompt: "A painting of a monkey with sunglasses in the frame",
      num_samples: 4
    }
  }
);

console.log(output);

To learn more, take a look at the guide on getting started with Node.js.

Install Replicate’s Python client library:

pip install replicate

Set the REPLICATE_API_TOKEN environment variable:

export REPLICATE_API_TOKEN=<paste-your-token-here>

Find your API token in your account settings.

Import the client:

import replicate

Run cjwbw/mindall-e using Replicate’s API. Check out the model's schema for an overview of inputs and outputs.

output = replicate.run(
    "cjwbw/mindall-e:c94a63715097e12c62d3f110fcabb1b70b5c8f5aa04251e116f58a545a47d812",
    input={
        "seed": 0,
        "prompt": "A painting of a monkey with sunglasses in the frame",
        "num_samples": 4
    }
)
print(output)

To learn more, take a look at the guide on getting started with Python.

Set the REPLICATE_API_TOKEN environment variable:

export REPLICATE_API_TOKEN=<paste-your-token-here>

Find your API token in your account settings.

Run cjwbw/mindall-e using Replicate’s API. Check out the model's schema for an overview of inputs and outputs.

curl -s -X POST \
  -H "Authorization: Bearer $REPLICATE_API_TOKEN" \
  -H "Content-Type: application/json" \
  -H "Prefer: wait" \
  -d $'{
    "version": "cjwbw/mindall-e:c94a63715097e12c62d3f110fcabb1b70b5c8f5aa04251e116f58a545a47d812",
    "input": {
      "seed": 0,
      "prompt": "A painting of a monkey with sunglasses in the frame",
      "num_samples": 4
    }
  }' \
  https://api.replicate.com/v1/predictions

To learn more, take a look at Replicate’s HTTP API reference docs.

Output

{
  "completed_at": "2022-08-09T23:07:40.136019Z",
  "created_at": "2022-08-09T23:03:31.872891Z",
  "data_removed": false,
  "error": null,
  "id": "ebosqg5hfrh6xdci7liziui5ye",
  "input": {
    "seed": 0,
    "prompt": "A painting of a monkey with sunglasses in the frame",
    "num_samples": 4
  },
  "logs": "\n  0%|          | 0/256 [00:00<?, ?it/s]\n  0%|          | 1/256 [00:00<02:10,  1.96it/s]\n  1%|          | 3/256 [00:00<01:35,  2.64it/s]\n  2%|▏         | 5/256 [00:00<01:12,  3.48it/s]\n  3%|▎         | 7/256 [00:00<00:55,  4.49it/s]\n  4%|▎         | 9/256 [00:01<00:43,  5.62it/s]\n  4%|▍         | 11/256 [00:01<00:42,  5.77it/s]\n  5%|▌         | 13/256 [00:01<00:34,  6.97it/s]\n  6%|▌         | 15/256 [00:01<00:29,  8.14it/s]\n  7%|▋         | 17/256 [00:01<00:25,  9.21it/s]\n  7%|▋         | 19/256 [00:02<00:23, 10.14it/s]\n  8%|▊         | 21/256 [00:02<00:27,  8.62it/s]\n  9%|▉         | 23/256 [00:02<00:24,  9.60it/s]\n 10%|▉         | 25/256 [00:02<00:22, 10.41it/s]\n 11%|█         | 27/256 [00:02<00:20, 11.04it/s]\n 11%|█▏        | 29/256 [00:03<00:25,  9.05it/s]\n 12%|█▏        | 31/256 [00:03<00:22,  9.90it/s]\n 13%|█▎        | 33/256 [00:03<00:21, 10.59it/s]\n 14%|█▎        | 35/256 [00:03<00:25,  8.78it/s]\n 14%|█▍        | 37/256 [00:03<00:22,  9.64it/s]\n 15%|█▌        | 39/256 [00:04<00:21, 10.32it/s]\n 16%|█▌        | 41/256 [00:04<00:24,  8.61it/s]\n 17%|█▋        | 43/256 [00:04<00:22,  9.46it/s]\n 18%|█▊        | 45/256 [00:04<00:20, 10.11it/s]\n 18%|█▊        | 47/256 [00:05<00:24,  8.48it/s]\n 19%|█▉        | 49/256 [00:05<00:22,  9.31it/s]\n 20%|█▉        | 51/256 [00:05<00:20,  9.95it/s]\n 21%|██        | 53/256 [00:05<00:24,  8.33it/s]\n 21%|██▏       | 55/256 [00:05<00:22,  9.13it/s]\n 22%|██▏       | 57/256 [00:06<00:25,  7.86it/s]\n 23%|██▎       | 59/256 [00:06<00:22,  8.71it/s]\n 24%|██▍       | 61/256 [00:06<00:20,  9.41it/s]\n 25%|██▍       | 63/256 [00:06<00:24,  7.97it/s]\n 25%|██▌       | 65/256 [00:07<00:21,  8.73it/s]\n 26%|██▌       | 67/256 [00:07<00:25,  7.48it/s]\n 27%|██▋       | 69/256 [00:07<00:22,  8.32it/s]\n 28%|██▊       | 71/256 [00:07<00:25,  7.38it/s]\n 29%|██▊       | 73/256 [00:08<00:22,  8.23it/s]\n 29%|██▉       | 75/256 [00:08<00:24,  7.38it/s]\n 30%|███       | 77/256 [00:08<00:21,  8.20it/s]\n 31%|███       | 79/256 [00:08<00:23,  7.40it/s]\n 32%|███▏      | 81/256 [00:09<00:21,  8.21it/s]\n 32%|███▏      | 83/256 [00:09<00:23,  7.34it/s]\n 33%|███▎      | 85/256 [00:09<00:21,  8.12it/s]\n 34%|███▍      | 87/256 [00:10<00:23,  7.33it/s]\n 35%|███▍      | 89/256 [00:10<00:20,  8.10it/s]\n 36%|███▌      | 91/256 [00:10<00:22,  7.30it/s]\n 36%|███▋      | 93/256 [00:10<00:20,  8.06it/s]\n 37%|███▋      | 95/256 [00:11<00:22,  7.26it/s]\n 38%|███▊      | 97/256 [00:11<00:19,  8.00it/s]\n 38%|███▊      | 98/256 [00:11<00:24,  6.36it/s]\n 39%|███▉      | 100/256 [00:11<00:21,  7.20it/s]\n 39%|███▉      | 101/256 [00:11<00:26,  5.93it/s]\n 40%|████      | 103/256 [00:12<00:22,  6.79it/s]\n 41%|████      | 104/256 [00:12<00:26,  5.69it/s]\n 41%|████▏     | 106/256 [00:12<00:22,  6.57it/s]\n 42%|████▏     | 107/256 [00:12<00:26,  5.53it/s]\n 43%|████▎     | 109/256 [00:12<00:22,  6.41it/s]\n 43%|████▎     | 110/256 [00:13<00:26,  5.44it/s]\n 44%|████▍     | 112/256 [00:13<00:22,  6.32it/s]\n 44%|████▍     | 113/256 [00:13<00:26,  5.44it/s]\n 45%|████▍     | 115/256 [00:13<00:22,  6.31it/s]\n 45%|████▌     | 116/256 [00:14<00:26,  5.38it/s]\n 46%|████▌     | 117/256 [00:14<00:22,  6.24it/s]\n 46%|████▌     | 118/256 [00:14<00:19,  7.01it/s]\n 46%|████▋     | 119/256 [00:14<00:24,  5.70it/s]\n 47%|████▋     | 120/256 [00:14<00:20,  6.53it/s]\n 47%|████▋     | 121/256 [00:14<00:18,  7.26it/s]\n 48%|████▊     | 122/256 [00:15<00:22,  5.87it/s]\n 48%|████▊     | 123/256 [00:15<00:19,  6.67it/s]\n 48%|████▊     | 124/256 [00:15<00:17,  7.36it/s]\n 49%|████▉     | 125/256 [00:15<00:22,  5.94it/s]\n 49%|████▉     | 126/256 [00:15<00:19,  6.71it/s]\n 50%|████▉     | 127/256 [00:15<00:17,  7.38it/s]\n 50%|█████     | 128/256 [00:15<00:21,  5.90it/s]\n 50%|█████     | 129/256 [00:16<00:19,  6.67it/s]\n 51%|█████     | 130/256 [00:16<00:17,  7.31it/s]\n 51%|█████     | 131/256 [00:16<00:21,  5.83it/s]\n 52%|█████▏    | 132/256 [00:16<00:18,  6.60it/s]\n 52%|█████▏    | 133/256 [00:16<00:16,  7.24it/s]\n 52%|█████▏    | 134/256 [00:16<00:21,  5.80it/s]\n 53%|█████▎    | 135/256 [00:16<00:18,  6.56it/s]\n 53%|█████▎    | 136/256 [00:17<00:21,  5.54it/s]\n 54%|█████▎    | 137/256 [00:17<00:18,  6.32it/s]\n 54%|█████▍    | 138/256 [00:17<00:21,  5.39it/s]\n 54%|█████▍    | 139/256 [00:17<00:18,  6.17it/s]\n 55%|█████▍    | 140/256 [00:17<00:21,  5.31it/s]\n 55%|█████▌    | 141/256 [00:18<00:18,  6.09it/s]\n 55%|█████▌    | 142/256 [00:18<00:22,  5.12it/s]\n 56%|█████▌    | 143/256 [00:18<00:19,  5.92it/s]\n 56%|█████▋    | 144/256 [00:18<00:21,  5.11it/s]\n 57%|█████▋    | 145/256 [00:18<00:18,  5.90it/s]\n 57%|█████▋    | 146/256 [00:19<00:21,  5.09it/s]\n 57%|█████▋    | 147/256 [00:19<00:18,  5.87it/s]\n 58%|█████▊    | 148/256 [00:19<00:21,  5.05it/s]\n 58%|█████▊    | 149/256 [00:19<00:18,  5.82it/s]\n 59%|█████▊    | 150/256 [00:19<00:21,  5.03it/s]\n 59%|█████▉    | 151/256 [00:19<00:18,  5.80it/s]\n 59%|█████▉    | 152/256 [00:20<00:20,  5.00it/s]\n 60%|█████▉    | 153/256 [00:20<00:17,  5.77it/s]\n 60%|██████    | 154/256 [00:20<00:20,  4.99it/s]\n 61%|██████    | 155/256 [00:20<00:17,  5.76it/s]\n 61%|██████    | 156/256 [00:20<00:20,  4.96it/s]\n 61%|██████▏   | 157/256 [00:21<00:17,  5.73it/s]\n 62%|██████▏   | 158/256 [00:21<00:19,  4.94it/s]\n 62%|██████▏   | 159/256 [00:21<00:17,  5.70it/s]\n 62%|██████▎   | 160/256 [00:21<00:19,  4.92it/s]\n 63%|██████▎   | 161/256 [00:21<00:16,  5.68it/s]\n 63%|██████▎   | 162/256 [00:22<00:19,  4.90it/s]\n 64%|██████▎   | 163/256 [00:22<00:16,  5.66it/s]\n 64%|██████▍   | 164/256 [00:22<00:18,  4.89it/s]\n 64%|██████▍   | 165/256 [00:22<00:16,  5.64it/s]\n 65%|██████▍   | 166/256 [00:22<00:18,  4.88it/s]\n 65%|██████▌   | 167/256 [00:22<00:15,  5.60it/s]\n 66%|██████▌   | 168/256 [00:23<00:17,  5.04it/s]\n 66%|██████▌   | 169/256 [00:23<00:15,  5.75it/s]\n 66%|██████▋   | 170/256 [00:23<00:16,  5.11it/s]\n 67%|██████▋   | 171/256 [00:23<00:14,  5.81it/s]\n 67%|██████▋   | 172/256 [00:23<00:16,  5.15it/s]\n 68%|██████▊   | 173/256 [00:24<00:14,  5.83it/s]\n 68%|██████▊   | 174/256 [00:24<00:15,  5.15it/s]\n 68%|██████▊   | 175/256 [00:24<00:13,  5.83it/s]\n 69%|██████▉   | 176/256 [00:24<00:15,  5.15it/s]\n 69%|██████▉   | 177/256 [00:24<00:13,  5.82it/s]\n 70%|██████▉   | 178/256 [00:25<00:15,  5.13it/s]\n 70%|██████▉   | 179/256 [00:25<00:16,  4.78it/s]\n 70%|███████   | 180/256 [00:25<00:16,  4.57it/s]\n 71%|███████   | 181/256 [00:25<00:16,  4.42it/s]\n 71%|███████   | 182/256 [00:25<00:17,  4.33it/s]\n 71%|███████▏  | 183/256 [00:26<00:17,  4.27it/s]\n 72%|███████▏  | 184/256 [00:26<00:17,  4.23it/s]\n 72%|███████▏  | 185/256 [00:26<00:16,  4.18it/s]\n 73%|███████▎  | 186/256 [00:26<00:16,  4.13it/s]\n 73%|███████▎  | 187/256 [00:27<00:16,  4.11it/s]\n 73%|███████▎  | 188/256 [00:27<00:16,  4.08it/s]\n 74%|███████▍  | 189/256 [00:27<00:13,  4.80it/s]\n 74%|███████▍  | 190/256 [00:27<00:15,  4.33it/s]\n 75%|███████▍  | 191/256 [00:28<00:15,  4.28it/s]\n 75%|███████▌  | 192/256 [00:28<00:15,  4.25it/s]\n 75%|███████▌  | 193/256 [00:28<00:14,  4.22it/s]\n 76%|███████▌  | 194/256 [00:28<00:14,  4.19it/s]\n 76%|███████▌  | 195/256 [00:29<00:14,  4.17it/s]\n 77%|███████▋  | 196/256 [00:29<00:14,  4.15it/s]\n 77%|███████▋  | 197/256 [00:29<00:14,  4.13it/s]\n 77%|███████▋  | 198/256 [00:29<00:14,  4.11it/s]\n 78%|███████▊  | 199/256 [00:30<00:13,  4.10it/s]\n 78%|███████▊  | 200/256 [00:30<00:13,  4.09it/s]\n 79%|███████▊  | 201/256 [00:30<00:13,  4.08it/s]\n 79%|███████▉  | 202/256 [00:30<00:13,  4.07it/s]\n 79%|███████▉  | 203/256 [00:31<00:13,  4.05it/s]\n 80%|███████▉  | 204/256 [00:31<00:12,  4.04it/s]\n 80%|████████  | 205/256 [00:31<00:12,  4.03it/s]\n 80%|████████  | 206/256 [00:31<00:12,  4.02it/s]\n 81%|████████  | 207/256 [00:32<00:12,  4.02it/s]\n 81%|████████▏ | 208/256 [00:32<00:11,  4.01it/s]\n 82%|████████▏ | 209/256 [00:32<00:11,  4.00it/s]\n 82%|████████▏ | 210/256 [00:32<00:11,  4.00it/s]\n 82%|████████▏ | 211/256 [00:33<00:11,  4.00it/s]\n 83%|████████▎ | 212/256 [00:33<00:11,  3.98it/s]\n 83%|████████▎ | 213/256 [00:33<00:10,  3.95it/s]\n 84%|████████▎ | 214/256 [00:33<00:10,  3.94it/s]\n 84%|████████▍ | 215/256 [00:34<00:10,  3.90it/s]\n 84%|████████▍ | 216/256 [00:34<00:10,  3.90it/s]\n 85%|████████▍ | 217/256 [00:34<00:10,  3.89it/s]\n 85%|████████▌ | 218/256 [00:34<00:09,  3.87it/s]\n 86%|████████▌ | 219/256 [00:35<00:09,  3.86it/s]\n 86%|████████▌ | 220/256 [00:35<00:09,  3.85it/s]\n 86%|████████▋ | 221/256 [00:35<00:09,  3.84it/s]\n 87%|████████▋ | 222/256 [00:35<00:08,  3.84it/s]\n 87%|████████▋ | 223/256 [00:36<00:08,  3.84it/s]\n 88%|████████▊ | 224/256 [00:36<00:08,  3.83it/s]\n 88%|████████▊ | 225/256 [00:36<00:08,  3.82it/s]\n 88%|████████▊ | 226/256 [00:36<00:07,  3.81it/s]\n 89%|████████▊ | 227/256 [00:37<00:07,  3.80it/s]\n 89%|████████▉ | 228/256 [00:37<00:07,  3.80it/s]\n 89%|████████▉ | 229/256 [00:37<00:07,  3.79it/s]\n 90%|████████▉ | 230/256 [00:37<00:06,  3.79it/s]\n 90%|█████████ | 231/256 [00:38<00:06,  3.78it/s]\n 91%|█████████ | 232/256 [00:38<00:06,  3.78it/s]\n 91%|█████████ | 233/256 [00:38<00:06,  3.75it/s]\n 91%|█████████▏| 234/256 [00:39<00:05,  3.73it/s]\n 92%|█████████▏| 235/256 [00:39<00:05,  3.73it/s]\n 92%|█████████▏| 236/256 [00:39<00:05,  3.73it/s]\n 93%|█████████▎| 237/256 [00:39<00:05,  3.71it/s]\n 93%|█████████▎| 238/256 [00:40<00:04,  3.70it/s]\n 93%|█████████▎| 239/256 [00:40<00:04,  3.70it/s]\n 94%|█████████▍| 240/256 [00:40<00:04,  3.70it/s]\n 94%|█████████▍| 241/256 [00:40<00:04,  3.69it/s]\n 95%|█████████▍| 242/256 [00:41<00:03,  3.68it/s]\n 95%|█████████▍| 243/256 [00:41<00:03,  3.66it/s]\n 95%|█████████▌| 244/256 [00:41<00:03,  3.65it/s]\n 96%|█████████▌| 245/256 [00:42<00:03,  3.64it/s]\n 96%|█████████▌| 246/256 [00:42<00:02,  3.64it/s]\n 96%|█████████▋| 247/256 [00:42<00:02,  3.63it/s]\n 97%|█████████▋| 248/256 [00:42<00:02,  3.63it/s]\n 97%|█████████▋| 249/256 [00:43<00:01,  3.63it/s]\n 98%|█████████▊| 250/256 [00:43<00:01,  3.63it/s]\n 98%|█████████▊| 251/256 [00:43<00:01,  3.62it/s]\n 98%|█████████▊| 252/256 [00:43<00:01,  3.61it/s]\n 99%|█████████▉| 253/256 [00:44<00:00,  3.61it/s]\n 99%|█████████▉| 254/256 [00:44<00:00,  3.61it/s]\n100%|█████████▉| 255/256 [00:44<00:00,  3.59it/s]\n100%|██████████| 256/256 [00:45<00:00,  3.59it/s]\n100%|██████████| 256/256 [00:45<00:00,  5.67it/s]\n<class 'numpy.ndarray'>",
  "metrics": {
    "predict_time": 50.190088,
    "total_time": 248.263128
  },
  "output": [
    {
      "image": "https://replicate.delivery/mgxm/f97d6e3f-667e-408f-84d1-c096b3639c54/output_0.png"
    },
    {
      "image": "https://replicate.delivery/mgxm/ef5c3a1d-3777-474b-826c-4d987af916e9/output_1.png"
    },
    {
      "image": "https://replicate.delivery/mgxm/6d4f8de9-3fd7-4e7d-992a-2c2f47820bc4/output_2.png"
    },
    {
      "image": "https://replicate.delivery/mgxm/d514f01d-7386-41d3-b330-af415d01025c/output_3.png"
    }
  ],
  "started_at": "2022-08-09T23:06:49.945931Z",
  "status": "succeeded",
  "urls": {
    "get": "https://api.replicate.com/v1/predictions/ebosqg5hfrh6xdci7liziui5ye",
    "cancel": "https://api.replicate.com/v1/predictions/ebosqg5hfrh6xdci7liziui5ye/cancel"
  },
  "version": "c94a63715097e12c62d3f110fcabb1b70b5c8f5aa04251e116f58a545a47d812"
}

Generated in

50.2 seconds

Tweak it Report


  0%|          | 0/256 [00:00<?, ?it/s]
  0%|          | 1/256 [00:00<02:10,  1.96it/s]
  1%|          | 3/256 [00:00<01:35,  2.64it/s]
  2%|▏         | 5/256 [00:00<01:12,  3.48it/s]
  3%|▎         | 7/256 [00:00<00:55,  4.49it/s]
  4%|▎         | 9/256 [00:01<00:43,  5.62it/s]
  4%|▍         | 11/256 [00:01<00:42,  5.77it/s]
  5%|▌         | 13/256 [00:01<00:34,  6.97it/s]
  6%|▌         | 15/256 [00:01<00:29,  8.14it/s]
  7%|▋         | 17/256 [00:01<00:25,  9.21it/s]
  7%|▋         | 19/256 [00:02<00:23, 10.14it/s]
  8%|▊         | 21/256 [00:02<00:27,  8.62it/s]
  9%|▉         | 23/256 [00:02<00:24,  9.60it/s]
 10%|▉         | 25/256 [00:02<00:22, 10.41it/s]
 11%|█         | 27/256 [00:02<00:20, 11.04it/s]
 11%|█▏        | 29/256 [00:03<00:25,  9.05it/s]
 12%|█▏        | 31/256 [00:03<00:22,  9.90it/s]
 13%|█▎        | 33/256 [00:03<00:21, 10.59it/s]
 14%|█▎        | 35/256 [00:03<00:25,  8.78it/s]
 14%|█▍        | 37/256 [00:03<00:22,  9.64it/s]
 15%|█▌        | 39/256 [00:04<00:21, 10.32it/s]
 16%|█▌        | 41/256 [00:04<00:24,  8.61it/s]
 17%|█▋        | 43/256 [00:04<00:22,  9.46it/s]
 18%|█▊        | 45/256 [00:04<00:20, 10.11it/s]
 18%|█▊        | 47/256 [00:05<00:24,  8.48it/s]
 19%|█▉        | 49/256 [00:05<00:22,  9.31it/s]
 20%|█▉        | 51/256 [00:05<00:20,  9.95it/s]
 21%|██        | 53/256 [00:05<00:24,  8.33it/s]
 21%|██▏       | 55/256 [00:05<00:22,  9.13it/s]
 22%|██▏       | 57/256 [00:06<00:25,  7.86it/s]
 23%|██▎       | 59/256 [00:06<00:22,  8.71it/s]
 24%|██▍       | 61/256 [00:06<00:20,  9.41it/s]
 25%|██▍       | 63/256 [00:06<00:24,  7.97it/s]
 25%|██▌       | 65/256 [00:07<00:21,  8.73it/s]
 26%|██▌       | 67/256 [00:07<00:25,  7.48it/s]
 27%|██▋       | 69/256 [00:07<00:22,  8.32it/s]
 28%|██▊       | 71/256 [00:07<00:25,  7.38it/s]
 29%|██▊       | 73/256 [00:08<00:22,  8.23it/s]
 29%|██▉       | 75/256 [00:08<00:24,  7.38it/s]
 30%|███       | 77/256 [00:08<00:21,  8.20it/s]
 31%|███       | 79/256 [00:08<00:23,  7.40it/s]
 32%|███▏      | 81/256 [00:09<00:21,  8.21it/s]
 32%|███▏      | 83/256 [00:09<00:23,  7.34it/s]
 33%|███▎      | 85/256 [00:09<00:21,  8.12it/s]
 34%|███▍      | 87/256 [00:10<00:23,  7.33it/s]
 35%|███▍      | 89/256 [00:10<00:20,  8.10it/s]
 36%|███▌      | 91/256 [00:10<00:22,  7.30it/s]
 36%|███▋      | 93/256 [00:10<00:20,  8.06it/s]
 37%|███▋      | 95/256 [00:11<00:22,  7.26it/s]
 38%|███▊      | 97/256 [00:11<00:19,  8.00it/s]
 38%|███▊      | 98/256 [00:11<00:24,  6.36it/s]
 39%|███▉      | 100/256 [00:11<00:21,  7.20it/s]
 39%|███▉      | 101/256 [00:11<00:26,  5.93it/s]
 40%|████      | 103/256 [00:12<00:22,  6.79it/s]
 41%|████      | 104/256 [00:12<00:26,  5.69it/s]
 41%|████▏     | 106/256 [00:12<00:22,  6.57it/s]
 42%|████▏     | 107/256 [00:12<00:26,  5.53it/s]
 43%|████▎     | 109/256 [00:12<00:22,  6.41it/s]
 43%|████▎     | 110/256 [00:13<00:26,  5.44it/s]
 44%|████▍     | 112/256 [00:13<00:22,  6.32it/s]
 44%|████▍     | 113/256 [00:13<00:26,  5.44it/s]
 45%|████▍     | 115/256 [00:13<00:22,  6.31it/s]
 45%|████▌     | 116/256 [00:14<00:26,  5.38it/s]
 46%|████▌     | 117/256 [00:14<00:22,  6.24it/s]
 46%|████▌     | 118/256 [00:14<00:19,  7.01it/s]
 46%|████▋     | 119/256 [00:14<00:24,  5.70it/s]
 47%|████▋     | 120/256 [00:14<00:20,  6.53it/s]
 47%|████▋     | 121/256 [00:14<00:18,  7.26it/s]
 48%|████▊     | 122/256 [00:15<00:22,  5.87it/s]
 48%|████▊     | 123/256 [00:15<00:19,  6.67it/s]
 48%|████▊     | 124/256 [00:15<00:17,  7.36it/s]
 49%|████▉     | 125/256 [00:15<00:22,  5.94it/s]
 49%|████▉     | 126/256 [00:15<00:19,  6.71it/s]
 50%|████▉     | 127/256 [00:15<00:17,  7.38it/s]
 50%|█████     | 128/256 [00:15<00:21,  5.90it/s]
 50%|█████     | 129/256 [00:16<00:19,  6.67it/s]
 51%|█████     | 130/256 [00:16<00:17,  7.31it/s]
 51%|█████     | 131/256 [00:16<00:21,  5.83it/s]
 52%|█████▏    | 132/256 [00:16<00:18,  6.60it/s]
 52%|█████▏    | 133/256 [00:16<00:16,  7.24it/s]
 52%|█████▏    | 134/256 [00:16<00:21,  5.80it/s]
 53%|█████▎    | 135/256 [00:16<00:18,  6.56it/s]
 53%|█████▎    | 136/256 [00:17<00:21,  5.54it/s]
 54%|█████▎    | 137/256 [00:17<00:18,  6.32it/s]
 54%|█████▍    | 138/256 [00:17<00:21,  5.39it/s]
 54%|█████▍    | 139/256 [00:17<00:18,  6.17it/s]
 55%|█████▍    | 140/256 [00:17<00:21,  5.31it/s]
 55%|█████▌    | 141/256 [00:18<00:18,  6.09it/s]
 55%|█████▌    | 142/256 [00:18<00:22,  5.12it/s]
 56%|█████▌    | 143/256 [00:18<00:19,  5.92it/s]
 56%|█████▋    | 144/256 [00:18<00:21,  5.11it/s]
 57%|█████▋    | 145/256 [00:18<00:18,  5.90it/s]
 57%|█████▋    | 146/256 [00:19<00:21,  5.09it/s]
 57%|█████▋    | 147/256 [00:19<00:18,  5.87it/s]
 58%|█████▊    | 148/256 [00:19<00:21,  5.05it/s]
 58%|█████▊    | 149/256 [00:19<00:18,  5.82it/s]
 59%|█████▊    | 150/256 [00:19<00:21,  5.03it/s]
 59%|█████▉    | 151/256 [00:19<00:18,  5.80it/s]
 59%|█████▉    | 152/256 [00:20<00:20,  5.00it/s]
 60%|█████▉    | 153/256 [00:20<00:17,  5.77it/s]
 60%|██████    | 154/256 [00:20<00:20,  4.99it/s]
 61%|██████    | 155/256 [00:20<00:17,  5.76it/s]
 61%|██████    | 156/256 [00:20<00:20,  4.96it/s]
 61%|██████▏   | 157/256 [00:21<00:17,  5.73it/s]
 62%|██████▏   | 158/256 [00:21<00:19,  4.94it/s]
 62%|██████▏   | 159/256 [00:21<00:17,  5.70it/s]
 62%|██████▎   | 160/256 [00:21<00:19,  4.92it/s]
 63%|██████▎   | 161/256 [00:21<00:16,  5.68it/s]
 63%|██████▎   | 162/256 [00:22<00:19,  4.90it/s]
 64%|██████▎   | 163/256 [00:22<00:16,  5.66it/s]
 64%|██████▍   | 164/256 [00:22<00:18,  4.89it/s]
 64%|██████▍   | 165/256 [00:22<00:16,  5.64it/s]
 65%|██████▍   | 166/256 [00:22<00:18,  4.88it/s]
 65%|██████▌   | 167/256 [00:22<00:15,  5.60it/s]
 66%|██████▌   | 168/256 [00:23<00:17,  5.04it/s]
 66%|██████▌   | 169/256 [00:23<00:15,  5.75it/s]
 66%|██████▋   | 170/256 [00:23<00:16,  5.11it/s]
 67%|██████▋   | 171/256 [00:23<00:14,  5.81it/s]
 67%|██████▋   | 172/256 [00:23<00:16,  5.15it/s]
 68%|██████▊   | 173/256 [00:24<00:14,  5.83it/s]
 68%|██████▊   | 174/256 [00:24<00:15,  5.15it/s]
 68%|██████▊   | 175/256 [00:24<00:13,  5.83it/s]
 69%|██████▉   | 176/256 [00:24<00:15,  5.15it/s]
 69%|██████▉   | 177/256 [00:24<00:13,  5.82it/s]
 70%|██████▉   | 178/256 [00:25<00:15,  5.13it/s]
 70%|██████▉   | 179/256 [00:25<00:16,  4.78it/s]
 70%|███████   | 180/256 [00:25<00:16,  4.57it/s]
 71%|███████   | 181/256 [00:25<00:16,  4.42it/s]
 71%|███████   | 182/256 [00:25<00:17,  4.33it/s]
 71%|███████▏  | 183/256 [00:26<00:17,  4.27it/s]
 72%|███████▏  | 184/256 [00:26<00:17,  4.23it/s]
 72%|███████▏  | 185/256 [00:26<00:16,  4.18it/s]
 73%|███████▎  | 186/256 [00:26<00:16,  4.13it/s]
 73%|███████▎  | 187/256 [00:27<00:16,  4.11it/s]
 73%|███████▎  | 188/256 [00:27<00:16,  4.08it/s]
 74%|███████▍  | 189/256 [00:27<00:13,  4.80it/s]
 74%|███████▍  | 190/256 [00:27<00:15,  4.33it/s]
 75%|███████▍  | 191/256 [00:28<00:15,  4.28it/s]
 75%|███████▌  | 192/256 [00:28<00:15,  4.25it/s]
 75%|███████▌  | 193/256 [00:28<00:14,  4.22it/s]
 76%|███████▌  | 194/256 [00:28<00:14,  4.19it/s]
 76%|███████▌  | 195/256 [00:29<00:14,  4.17it/s]
 77%|███████▋  | 196/256 [00:29<00:14,  4.15it/s]
 77%|███████▋  | 197/256 [00:29<00:14,  4.13it/s]
 77%|███████▋  | 198/256 [00:29<00:14,  4.11it/s]
 78%|███████▊  | 199/256 [00:30<00:13,  4.10it/s]
 78%|███████▊  | 200/256 [00:30<00:13,  4.09it/s]
 79%|███████▊  | 201/256 [00:30<00:13,  4.08it/s]
 79%|███████▉  | 202/256 [00:30<00:13,  4.07it/s]
 79%|███████▉  | 203/256 [00:31<00:13,  4.05it/s]
 80%|███████▉  | 204/256 [00:31<00:12,  4.04it/s]
 80%|████████  | 205/256 [00:31<00:12,  4.03it/s]
 80%|████████  | 206/256 [00:31<00:12,  4.02it/s]
 81%|████████  | 207/256 [00:32<00:12,  4.02it/s]
 81%|████████▏ | 208/256 [00:32<00:11,  4.01it/s]
 82%|████████▏ | 209/256 [00:32<00:11,  4.00it/s]
 82%|████████▏ | 210/256 [00:32<00:11,  4.00it/s]
 82%|████████▏ | 211/256 [00:33<00:11,  4.00it/s]
 83%|████████▎ | 212/256 [00:33<00:11,  3.98it/s]
 83%|████████▎ | 213/256 [00:33<00:10,  3.95it/s]
 84%|████████▎ | 214/256 [00:33<00:10,  3.94it/s]
 84%|████████▍ | 215/256 [00:34<00:10,  3.90it/s]
 84%|████████▍ | 216/256 [00:34<00:10,  3.90it/s]
 85%|████████▍ | 217/256 [00:34<00:10,  3.89it/s]
 85%|████████▌ | 218/256 [00:34<00:09,  3.87it/s]
 86%|████████▌ | 219/256 [00:35<00:09,  3.86it/s]
 86%|████████▌ | 220/256 [00:35<00:09,  3.85it/s]
 86%|████████▋ | 221/256 [00:35<00:09,  3.84it/s]
 87%|████████▋ | 222/256 [00:35<00:08,  3.84it/s]
 87%|████████▋ | 223/256 [00:36<00:08,  3.84it/s]
 88%|████████▊ | 224/256 [00:36<00:08,  3.83it/s]
 88%|████████▊ | 225/256 [00:36<00:08,  3.82it/s]
 88%|████████▊ | 226/256 [00:36<00:07,  3.81it/s]
 89%|████████▊ | 227/256 [00:37<00:07,  3.80it/s]
 89%|████████▉ | 228/256 [00:37<00:07,  3.80it/s]
 89%|████████▉ | 229/256 [00:37<00:07,  3.79it/s]
 90%|████████▉ | 230/256 [00:37<00:06,  3.79it/s]
 90%|█████████ | 231/256 [00:38<00:06,  3.78it/s]
 91%|█████████ | 232/256 [00:38<00:06,  3.78it/s]
 91%|█████████ | 233/256 [00:38<00:06,  3.75it/s]
 91%|█████████▏| 234/256 [00:39<00:05,  3.73it/s]
 92%|█████████▏| 235/256 [00:39<00:05,  3.73it/s]
 92%|█████████▏| 236/256 [00:39<00:05,  3.73it/s]
 93%|█████████▎| 237/256 [00:39<00:05,  3.71it/s]
 93%|█████████▎| 238/256 [00:40<00:04,  3.70it/s]
 93%|█████████▎| 239/256 [00:40<00:04,  3.70it/s]
 94%|█████████▍| 240/256 [00:40<00:04,  3.70it/s]
 94%|█████████▍| 241/256 [00:40<00:04,  3.69it/s]
 95%|█████████▍| 242/256 [00:41<00:03,  3.68it/s]
 95%|█████████▍| 243/256 [00:41<00:03,  3.66it/s]
 95%|█████████▌| 244/256 [00:41<00:03,  3.65it/s]
 96%|█████████▌| 245/256 [00:42<00:03,  3.64it/s]
 96%|█████████▌| 246/256 [00:42<00:02,  3.64it/s]
 96%|█████████▋| 247/256 [00:42<00:02,  3.63it/s]
 97%|█████████▋| 248/256 [00:42<00:02,  3.63it/s]
 97%|█████████▋| 249/256 [00:43<00:01,  3.63it/s]
 98%|█████████▊| 250/256 [00:43<00:01,  3.63it/s]
 98%|█████████▊| 251/256 [00:43<00:01,  3.62it/s]
 98%|█████████▊| 252/256 [00:43<00:01,  3.61it/s]
 99%|█████████▉| 253/256 [00:44<00:00,  3.61it/s]
 99%|█████████▉| 254/256 [00:44<00:00,  3.61it/s]
100%|█████████▉| 255/256 [00:44<00:00,  3.59it/s]
100%|██████████| 256/256 [00:45<00:00,  3.59it/s]
100%|██████████| 256/256 [00:45<00:00,  5.67it/s]
<class 'numpy.ndarray'>

Examples

View more examples

Run time and cost

This model costs approximately $0.044 to run on Replicate, or 22 runs per $1, but this varies depending on your inputs. It is also open source and you can run it on your own computer with Docker.

This model runs on Nvidia T4 GPU hardware. Predictions typically complete within 4 minutes. The predict time for this model varies significantly based on the inputs.

Readme

This is a cog implementation of https://github.com/kakaobrain/minDALL-E

minDALL-E on Conceptual Captions

minDALL-E, named after minGPT, is a 1.3B text-to-image generation model trained on 14 million image-text pairs for non-commercial purposes.

BibTex

If you find this repository useful in your research, please cite:

@misc{kakaobrain2021minDALL-E,
  title         = {minDALL-E on Conceptual Captions},
  author        = {Saehoon Kim, Sanghun Cho, Chiheon Kim, Doyup Lee, and Woonhyuk Baek},
  year          = {2021},
  howpublished  = {\url{https://github.com/kakaobrain/minDALL-E}},
}

References

[1] Ramesh et al. Zero-Shot Text-to-Image Generation, ICML 2021.
[2] Esser et al. Taming Transformers for High-Resolution Image Synthesis, CVPR 2021.
[3] Karras et al. A Style-Based Generator Architecture for Generative Adversarial Networks, CVPR 2019.
[4] Sharma et al. Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning, ACL 2018.
[5] Changpinyo et al. Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts, CVPR 2021.
[6] Radford et al. Learning Transferable Visual Models From Natural Language Supervision, ICML 2021.
[7] Esser et al. ImageBART: Bidirectional Context with Multinomial Diffusion for Autoregressive Image Synthesis, NeurIPS 2021.
[8] https://github.com/karpathy/minGPT

Licenses

The source codes are licensed under Apache 2.0 License.
The stage2 pretrained weights are licensed under CC-BY-NC-SA 4.0 License.

Contact

We hope that minDALL-E helps various projects in research-oriented institutes and startups. If you would like to collaborate with us or share a feedback, please e-mail to us, contact@kakaobrain.com

Limitations

Although minDALL-E is trained on a small set (14M image-text pairs), this might be vulnerable to malicious attacks from the prompt engineering to generate socially unacceptable images. If you obersve these images, please report the “prompt” and “generated images” to us.