Spaces:

broadwell
/

ma-images

Sleeping

App Files Files Community

broadwell commited on Aug 21

Commit

3e19435

•

1 Parent(s): 6f2e4d3

Delete CLIP_Explainability/app.py

Browse files

Files changed (1) hide show

CLIP_Explainability/app.py +0 -711

CLIP_Explainability/app.py DELETED Viewed

@@ -1,711 +0,0 @@
-from base64 import b64encode
-from io import BytesIO
-from math import ceil
-import clip
-from multilingual_clip import legacy_multilingual_clip, pt_multilingual_clip
-import numpy as np
-import pandas as pd
-from PIL import Image
-import requests
-import streamlit as st
-import torch
-from torchvision.transforms import ToPILImage
-from transformers import AutoTokenizer, AutoModel, BertTokenizer
-from CLIP_Explainability.clip_ import load, tokenize
-from CLIP_Explainability.rn_cam import (
-    # interpret_rn,
-    interpret_rn_overlapped,
-    rn_perword_relevance,
-)
-from CLIP_Explainability.vit_cam import (
-    # interpret_vit,
-    vit_perword_relevance,
-    interpret_vit_overlapped,
-)
-from pytorch_grad_cam.grad_cam import GradCAM
-MAX_IMG_WIDTH = 500
-MAX_IMG_HEIGHT = 800
-st.set_page_config(layout="wide")
-# The `find_best_matches` function compares the text feature vector to the feature vectors of all images and finds the best matches. The function returns the IDs of the best matching images.
-def find_best_matches(text_features, image_features, image_ids):
-    # Compute the similarity between the search query and each image using the Cosine similarity
-    similarities = (image_features @ text_features.T).squeeze(1)
-    # Sort the images by their similarity score
-    best_image_idx = (-similarities).argsort()
-    # Return the image IDs of the best matches
-    return [[image_ids[i], similarities[i].item()] for i in best_image_idx]
-# The `encode_search_query` function takes a text description and encodes it into a feature vector using the CLIP model.
-def encode_search_query(search_query, model_type):
-    with torch.no_grad():
-        # Encode and normalize the search query using the multilingual model
-        if model_type == "M-CLIP (multilingual ViT)":
-            text_encoded = st.session_state.ml_model.forward(
-                search_query, st.session_state.ml_tokenizer
-            )
-            text_encoded /= text_encoded.norm(dim=-1, keepdim=True)
-        elif model_type == "J-CLIP (日本語 ViT)":
-            t_text = st.session_state.ja_tokenizer(
-                search_query, padding=True, return_tensors="pt"
-            )
-            text_encoded = st.session_state.ja_model.get_text_features(**t_text)
-            text_encoded /= text_encoded.norm(dim=-1, keepdim=True)
-        else:  # model_type == legacy
-            text_encoded = st.session_state.rn_model(search_query)
-            text_encoded /= text_encoded.norm(dim=-1, keepdim=True)
-    # Retrieve the feature vector
-    return text_encoded
-def clip_search(search_query):
-    if st.session_state.search_field_value != search_query:
-        st.session_state.search_field_value = search_query
-    model_type = st.session_state.active_model
-    if len(search_query) >= 1:
-        text_features = encode_search_query(search_query, model_type)
-        # Compute the similarity between the descrption and each photo using the Cosine similarity
-        # similarities = list((text_features @ photo_features.T).squeeze(0))
-        # Sort the photos by their similarity score
-        if model_type == "M-CLIP (multilingual ViT)":
-            matches = find_best_matches(
-                text_features,
-                st.session_state.ml_image_features,
-                st.session_state.image_ids,
-            )
-        elif model_type == "J-CLIP (日本語 ViT)":
-            matches = find_best_matches(
-                text_features,
-                st.session_state.ja_image_features,
-                st.session_state.image_ids,
-            )
-        else:  # model_type == legacy
-            matches = find_best_matches(
-                text_features,
-                st.session_state.rn_image_features,
-                st.session_state.image_ids,
-            )
-        st.session_state.search_image_ids = [match[0] for match in matches]
-        st.session_state.search_image_scores = {match[0]: match[1] for match in matches}
-def string_search():
-    if "search_field_value" in st.session_state:
-        clip_search(st.session_state.search_field_value)
-def load_image_features():
-    # Load the image feature vectors
-    if st.session_state.vision_mode == "tiled":
-        ml_image_features = np.load("./image_features/tiled_ml_features.npy")
-        ja_image_features = np.load("./image_features/tiled_ja_features.npy")
-        rn_image_features = np.load("./image_features/tiled_rn_features.npy")
-    elif st.session_state.vision_mode == "stretched":
-        ml_image_features = np.load("./image_features/resized_ml_features.npy")
-        ja_image_features = np.load("./image_features/resized_ja_features.npy")
-        rn_image_features = np.load("./image_features/resized_rn_features.npy")
-    else:  # st.session_state.vision_mode == "cropped":
-        ml_image_features = np.load("./image_features/cropped_ml_features.npy")
-        ja_image_features = np.load("./image_features/cropped_ja_features.npy")
-        rn_image_features = np.load("./image_features/cropped_rn_features.npy")
-    # Convert features to Tensors: Float32 on CPU and Float16 on GPU
-    device = st.session_state.device
-    if device == "cpu":
-        ml_image_features = torch.from_numpy(ml_image_features).float().to(device)
-        ja_image_features = torch.from_numpy(ja_image_features).float().to(device)
-        rn_image_features = torch.from_numpy(rn_image_features).float().to(device)
-    else:
-        ml_image_features = torch.from_numpy(ml_image_features).to(device)
-        ja_image_features = torch.from_numpy(ja_image_features).to(device)
-        rn_image_features = torch.from_numpy(rn_image_features).to(device)
-    st.session_state.ml_image_features = ml_image_features / ml_image_features.norm(
-        dim=-1, keepdim=True
-    )
-    st.session_state.ja_image_features = ja_image_features / ja_image_features.norm(
-        dim=-1, keepdim=True
-    )
-    st.session_state.rn_image_features = rn_image_features / rn_image_features.norm(
-        dim=-1, keepdim=True
-    )
-    string_search()
-def init():
-    st.session_state.current_page = 1
-    device = "cuda" if torch.cuda.is_available() else "cpu"
-    st.session_state.device = device
-    # Load the open CLIP models
-    with st.spinner("Loading models and data, please wait..."):
-        ml_model_name = "M-CLIP/XLM-Roberta-Large-Vit-B-16Plus"
-        ml_model_path = "./models/vit_b_16_plus_240-laion400m_e32-699c4b84.pt"
-        st.session_state.ml_image_model, st.session_state.ml_image_preprocess = load(
-            ml_model_path, device=device, jit=False
-        )
-        st.session_state.ml_model = (
-            pt_multilingual_clip.MultilingualCLIP.from_pretrained(ml_model_name)
-        )
-        st.session_state.ml_tokenizer = AutoTokenizer.from_pretrained(ml_model_name)
-        ja_model_name = "hakuhodo-tech/japanese-clip-vit-h-14-bert-wider"
-        ja_model_path = "./models/ViT-H-14-laion2B-s32B-b79K.bin"
-        st.session_state.ja_image_model, st.session_state.ja_image_preprocess = load(
-            ja_model_path, device=device, jit=False
-        )
-        st.session_state.ja_model = AutoModel.from_pretrained(
-            ja_model_name, trust_remote_code=True
-        ).to(device)
-        st.session_state.ja_tokenizer = AutoTokenizer.from_pretrained(
-            ja_model_name, trust_remote_code=True
-        )
-        st.session_state.rn_image_model, st.session_state.rn_image_preprocess = (
-            clip.load("RN50x4", device=device)
-        )
-        st.session_state.rn_model = legacy_multilingual_clip.load_model(
-            "M-BERT-Base-69"
-        )
-        st.session_state.rn_tokenizer = BertTokenizer.from_pretrained(
-            "bert-base-multilingual-cased"
-        )
-        # Load the image IDs
-        st.session_state.images_info = pd.read_csv("./metadata.csv")
-        st.session_state.images_info.set_index("filename", inplace=True)
-        with open("./images_list.txt", "r", encoding="utf-8") as images_list:
-            st.session_state.image_ids = list(images_list.read().strip().split("\n"))
-        st.session_state.active_model = "M-CLIP (multilingual ViT)"
-    st.session_state.vision_mode = "tiled"
-    st.session_state.search_image_ids = []
-    st.session_state.search_image_scores = {}
-    st.session_state.activations_image = None
-    st.session_state.text_table_df = None
-    with st.spinner("Loading models and data, please wait..."):
-        load_image_features()
-if "images_info" not in st.session_state:
-    init()
-def visualize_gradcam(viz_image_id):
-    if "search_field_value" not in st.session_state:
-        return
-    header_cols = st.columns([80, 20], vertical_alignment="bottom")
-    with header_cols[0]:
-        st.title("Image + query details")
-    with header_cols[1]:
-        if st.button("Close"):
-            st.rerun()
-    st.markdown(
-        f"**Query text:** {st.session_state.search_field_value} | **Image relevance:** {round(st.session_state.search_image_scores[viz_image_id], 3)}"
-    )
-    with st.spinner("Calculating..."):
-        # info_text = st.text("Calculating activation regions...")
-        image_url = st.session_state.images_info.loc[viz_image_id]["image_url"]
-        image_response = requests.get(image_url)
-        image = Image.open(BytesIO(image_response.content), formats=["JPEG", "GIF"])
-        image = image.convert("RGB")
-        img_dim = 224
-        if st.session_state.active_model == "M-CLIP (multilingual ViT)":
-            img_dim = 240
-        elif st.session_state.active_model == "Legacy (multilingual ResNet)":
-            img_dim = 288
-        orig_img_dims = image.size
-        ##### If the features are based on tiled image slices
-        tile_behavior = None
-        if st.session_state.vision_mode == "tiled":
-            scaled_dims = [img_dim, img_dim]
-            if orig_img_dims[0] > orig_img_dims[1]:
-                scale_ratio = round(orig_img_dims[0] / orig_img_dims[1])
-                if scale_ratio > 1:
-                    scaled_dims = [scale_ratio * img_dim, img_dim]
-                    tile_behavior = "width"
-            elif orig_img_dims[0] < orig_img_dims[1]:
-                scale_ratio = round(orig_img_dims[1] / orig_img_dims[0])
-                if scale_ratio > 1:
-                    scaled_dims = [img_dim, scale_ratio * img_dim]
-                    tile_behavior = "height"
-            resized_image = image.resize(scaled_dims, Image.LANCZOS)
-            if tile_behavior == "width":
-                image_tiles = []
-                for x in range(0, scale_ratio):
-                    box = (x * img_dim, 0, (x + 1) * img_dim, img_dim)
-                    image_tiles.append(resized_image.crop(box))
-            elif tile_behavior == "height":
-                image_tiles = []
-                for y in range(0, scale_ratio):
-                    box = (0, y * img_dim, img_dim, (y + 1) * img_dim)
-                    image_tiles.append(resized_image.crop(box))
-            else:
-                image_tiles = [resized_image]
-        elif st.session_state.vision_mode == "stretched":
-            image_tiles = [image.resize((img_dim, img_dim), Image.LANCZOS)]
-        else:  # vision_mode == "cropped"
-            if orig_img_dims[0] > orig_img_dims[1]:
-                scale_factor = orig_img_dims[0] / orig_img_dims[1]
-                resized_img_dims = (round(scale_factor * img_dim), img_dim)
-                resized_img = image.resize(resized_img_dims)
-            elif orig_img_dims[0] < orig_img_dims[1]:
-                scale_factor = orig_img_dims[1] / orig_img_dims[0]
-                resized_img_dims = (img_dim, round(scale_factor * img_dim))
-            else:
-                resized_img_dims = (img_dim, img_dim)
-            resized_img = image.resize(resized_img_dims)
-            left = round((resized_img_dims[0] - img_dim) / 2)
-            top = round((resized_img_dims[1] - img_dim) / 2)
-            x_right = round(resized_img_dims[0] - img_dim) - left
-            x_bottom = round(resized_img_dims[1] - img_dim) - top
-            right = resized_img_dims[0] - x_right
-            bottom = resized_img_dims[1] - x_bottom
-            # Crop the center of the image
-            image_tiles = [resized_img.crop((left, top, right, bottom))]
-        image_visualizations = []
-        if st.session_state.active_model == "M-CLIP (multilingual ViT)":
-            # Sometimes used for token importance viz
-            tokenized_text = st.session_state.ml_tokenizer.tokenize(
-                st.session_state.search_field_value
-            )
-            text_features = st.session_state.ml_model.forward(
-                st.session_state.search_field_value, st.session_state.ml_tokenizer
-            )
-            image_model = st.session_state.ml_image_model
-            for altered_image in image_tiles:
-                p_image = (
-                    st.session_state.ml_image_preprocess(altered_image)
-                    .unsqueeze(0)
-                    .to(st.session_state.device)
-                )
-                vis_t = interpret_vit_overlapped(
-                    p_image.type(st.session_state.ml_image_model.dtype),
-                    text_features,
-                    image_model.visual,
-                    st.session_state.device,
-                    img_dim=img_dim,
-                )
-                image_visualizations.append(vis_t)
-        elif st.session_state.active_model == "J-CLIP (日本語 ViT)":
-            # Sometimes used for token importance viz
-            tokenized_text = st.session_state.ja_tokenizer.tokenize(
-                st.session_state.search_field_value
-            )
-            t_text = st.session_state.ja_tokenizer(
-                st.session_state.search_field_value, return_tensors="pt"
-            )
-            text_features = st.session_state.ja_model.get_text_features(**t_text)
-            image_model = st.session_state.ja_image_model
-            for altered_image in image_tiles:
-                p_image = (
-                    st.session_state.ja_image_preprocess(altered_image)
-                    .unsqueeze(0)
-                    .to(st.session_state.device)
-                )
-                vis_t = interpret_vit_overlapped(
-                    p_image.type(st.session_state.ja_image_model.dtype),
-                    text_features,
-                    image_model.visual,
-                    st.session_state.device,
-                    img_dim=img_dim,
-                )
-                image_visualizations.append(vis_t)
-        else:  # st.session_state.active_model == Legacy
-            # Sometimes used for token importance viz
-            tokenized_text = st.session_state.rn_tokenizer.tokenize(
-                st.session_state.search_field_value
-            )
-            text_features = st.session_state.rn_model(
-                st.session_state.search_field_value
-            )
-            image_model = st.session_state.rn_image_model
-            for altered_image in image_tiles:
-                p_image = (
-                    st.session_state.rn_image_preprocess(altered_image)
-                    .unsqueeze(0)
-                    .to(st.session_state.device)
-                )
-                vis_t = interpret_rn_overlapped(
-                    p_image.type(st.session_state.rn_image_model.dtype),
-                    text_features,
-                    image_model.visual,
-                    GradCAM,
-                    st.session_state.device,
-                    img_dim=img_dim,
-                )
-                image_visualizations.append(vis_t)
-        transform = ToPILImage()
-        vis_images = [transform(vis_t) for vis_t in image_visualizations]
-        if st.session_state.vision_mode == "cropped":
-            resized_img.paste(vis_images[0], (left, top))
-            vis_images = [resized_img]
-        if orig_img_dims[0] > orig_img_dims[1]:
-            scale_factor = MAX_IMG_WIDTH / orig_img_dims[0]
-            scaled_dims = [MAX_IMG_WIDTH, int(orig_img_dims[1] * scale_factor)]
-        else:
-            scale_factor = MAX_IMG_HEIGHT / orig_img_dims[1]
-            scaled_dims = [int(orig_img_dims[0] * scale_factor), MAX_IMG_HEIGHT]
-        if tile_behavior == "width":
-            vis_image = Image.new("RGB", (len(vis_images) * img_dim, img_dim))
-            for x, v_img in enumerate(vis_images):
-                vis_image.paste(v_img, (x * img_dim, 0))
-            st.session_state.activations_image = vis_image.resize(scaled_dims)
-        elif tile_behavior == "height":
-            vis_image = Image.new("RGB", (img_dim, len(vis_images) * img_dim))
-            for y, v_img in enumerate(vis_images):
-                vis_image.paste(v_img, (0, y * img_dim))
-            st.session_state.activations_image = vis_image.resize(scaled_dims)
-        else:
-            st.session_state.activations_image = vis_images[0].resize(scaled_dims)
-        image_io = BytesIO()
-        st.session_state.activations_image.save(image_io, "PNG")
-        dataurl = "data:image/png;base64," + b64encode(image_io.getvalue()).decode(
-            "ascii"
-        )
-        st.html(
-            f"""<div style="display: flex; flex-direction: column; align-items: center;">
-                    <img src="{dataurl}" />
-                </div>"""
-        )
-    tokenized_text = [tok.replace("▁", "") for tok in tokenized_text if tok != "▁"]
-    tokenized_text = [
-        tok for tok in tokenized_text if tok not in ["s", "ed", "a", "the", "an", "ing"]
-    ]
-    if (
-        len(tokenized_text) > 1
-        and len(tokenized_text) < 25
-        and st.button(
-            "Calculate text importance (may take some time)",
-        )
-    ):
-        search_tokens = []
-        token_scores = []
-        progress_text = f"Processing {len(tokenized_text)} text tokens"
-        progress_bar = st.progress(0.0, text=progress_text)
-        for t, tok in enumerate(tokenized_text):
-            token = tok
-            if st.session_state.active_model == "Legacy (multilingual ResNet)":
-                word_rel = rn_perword_relevance(
-                    p_image,
-                    st.session_state.search_field_value,
-                    image_model,
-                    tokenize,
-                    GradCAM,
-                    st.session_state.device,
-                    token,
-                    data_only=True,
-                    img_dim=img_dim,
-                )
-            else:
-                word_rel = vit_perword_relevance(
-                    p_image,
-                    st.session_state.search_field_value,
-                    image_model,
-                    tokenize,
-                    st.session_state.device,
-                    token,
-                    data_only=True,
-                    img_dim=img_dim,
-                )
-            avg_score = np.mean(word_rel)
-            if avg_score == 0 or np.isnan(avg_score):
-                continue
-            search_tokens.append(token)
-            token_scores.append(1 / avg_score)
-            progress_bar.progress(
-                (t + 1) / len(tokenized_text),
-                text=f"Processing token {t+1} of {len(tokenized_text)}",
-            )
-        progress_bar.empty()
-        normed_scores = torch.softmax(torch.tensor(token_scores), dim=0)
-        token_scores = [f"{round(score.item() * 100, 3)}%" for score in normed_scores]
-        st.session_state.text_table_df = pd.DataFrame(
-            {"token": search_tokens, "importance": token_scores}
-        )
-        st.markdown("**Importance of each text token to relevance score**")
-        st.table(st.session_state.text_table_df)
-def format_vision_mode(mode_stub):
-    return mode_stub.capitalize()
-@st.dialog(" ", width="large")
-def image_modal(vis_image_id):
-    visualize_gradcam(vis_image_id)
-st.title("Explore Japanese visual aesthetics with CLIP models")
-st.markdown(
-    """
-    <style>
-    [data-testid=stImageCaption] {
-        padding: 0 0 0 0;
-    }
-    [data-testid=stVerticalBlockBorderWrapper] {
-        line-height: 1.2;
-    }
-    [data-testid=stVerticalBlock] {
-        gap: .75rem;
-    }
-    [data-testid=baseButton-secondary] {
-        min-height: 1rem;
-        padding: 0 0.75rem;
-        margin: 0 0 1rem 0;
-    }
-    div[aria-label="dialog"]>button[aria-label="Close"] {
-        display: none;
-    }
-    [data-testid=stFullScreenFrame] {
-        display: flex;
-        flex-direction: column;
-        align-items: center;
-    }
-    </style>
-    """,
-    unsafe_allow_html=True,
-)
-search_row = st.columns([45, 8, 8, 10, 1, 8, 20], vertical_alignment="center")
-with search_row[0]:
-    search_field = st.text_input(
-        label="search",
-        label_visibility="collapsed",
-        placeholder="Type something, or click a suggested search below.",
-        on_change=string_search,
-        key="search_field_value",
-    )
-with search_row[1]:
-    st.button(
-        "Search", on_click=string_search, use_container_width=True, type="primary"
-    )
-with search_row[2]:
-    st.markdown("**Vision mode:**")
-with search_row[3]:
-    st.selectbox(
-        "Vision mode",
-        options=["tiled", "stretched", "cropped"],
-        key="vision_mode",
-        help="How to consider images that aren't square",
-        on_change=load_image_features,
-        format_func=format_vision_mode,
-        label_visibility="collapsed",
-    )
-with search_row[4]:
-    st.empty()
-with search_row[5]:
-    st.markdown("**CLIP model:**")
-with search_row[6]:
-    st.selectbox(
-        "CLIP Model:",
-        options=[
-            "M-CLIP (multilingual ViT)",
-            "J-CLIP (日本語 ViT)",
-            "Legacy (multilingual ResNet)",
-        ],
-        key="active_model",
-        on_change=string_search,
-        label_visibility="collapsed",
-    )
-canned_searches = st.columns([12, 22, 22, 22, 22], vertical_alignment="top")
-with canned_searches[0]:
-    st.markdown("**Suggested searches:**")
-if st.session_state.active_model == "J-CLIP (日本語 ViT)":
-    with canned_searches[1]:
-        st.button(
-            "間",
-            on_click=clip_search,
-            args=["間"],
-            use_container_width=True,
-        )
-    with canned_searches[2]:
-        st.button("奥", on_click=clip_search, args=["奥"], use_container_width=True)
-    with canned_searches[3]:
-        st.button("山", on_click=clip_search, args=["山"], use_container_width=True)
-    with canned_searches[4]:
-        st.button(
-            "花に酔えり 羽織着て刀 さす女",
-            on_click=clip_search,
-            args=["花に酔えり 羽織着て刀 さす女"],
-            use_container_width=True,
-        )
-else:
-    with canned_searches[1]:
-        st.button(
-            "negative space",
-            on_click=clip_search,
-            args=["negative space"],
-            use_container_width=True,
-        )
-    with canned_searches[2]:
-        st.button("間", on_click=clip_search, args=["間"], use_container_width=True)
-    with canned_searches[3]:
-        st.button("음각", on_click=clip_search, args=["음각"], use_container_width=True)
-    with canned_searches[4]:
-        st.button(
-            "αρνητικός χώρος",
-            on_click=clip_search,
-            args=["αρνητικός χώρος"],
-            use_container_width=True,
-        )
-controls = st.columns([35, 5, 35, 5, 20], gap="large", vertical_alignment="center")
-with controls[0]:
-    im_per_pg = st.columns([30, 70], vertical_alignment="center")
-    with im_per_pg[0]:
-        st.markdown("**Images/page:**")
-    with im_per_pg[1]:
-        batch_size = st.select_slider(
-            "Images/page:", range(10, 50, 10), label_visibility="collapsed"
-        )
-with controls[1]:
-    st.empty()
-with controls[2]:
-    im_per_row = st.columns([30, 70], vertical_alignment="center")
-    with im_per_row[0]:
-        st.markdown("**Images/row:**")
-    with im_per_row[1]:
-        row_size = st.select_slider(
-            "Images/row:", range(1, 6), value=5, label_visibility="collapsed"
-        )
-num_batches = ceil(len(st.session_state.image_ids) / batch_size)
-with controls[3]:
-    st.empty()
-with controls[4]:
-    pager = st.columns([40, 60], vertical_alignment="center")
-    with pager[0]:
-        st.markdown(f"Page **{st.session_state.current_page}** of **{num_batches}** ")
-    with pager[1]:
-        st.number_input(
-            "Page",
-            min_value=1,
-            max_value=num_batches,
-            step=1,
-            label_visibility="collapsed",
-            key="current_page",
-        )
-if len(st.session_state.search_image_ids) == 0:
-    batch = []
-else:
-    batch = st.session_state.search_image_ids[
-        (st.session_state.current_page - 1) * batch_size : st.session_state.current_page
-        * batch_size
-    ]
-grid = st.columns(row_size)
-col = 0
-for image_id in batch:
-    with grid[col]:
-        link_text = st.session_state.images_info.loc[image_id]["permalink"].split("/")[
-            2
-        ]
-        # st.image(
-        #     st.session_state.images_info.loc[image_id]["image_url"],
-        #     caption=st.session_state.images_info.loc[image_id]["caption"],
-        # )
-        st.html(
-            f"""<div style="display: flex; flex-direction: column; align-items: center">
-                    <img src="{st.session_state.images_info.loc[image_id]['image_url']}" style="max-width: 100%; max-height: {MAX_IMG_HEIGHT}px" />
-                    <div>{st.session_state.images_info.loc[image_id]['caption']} <b>[{round(st.session_state.search_image_scores[image_id], 3)}]</b></div>
-                </div>"""
-        )
-        st.caption(
-            f"""<div style="display: flex; flex-direction: column; align-items: center; position: relative; top: -12px">
-                    <a href="{st.session_state.images_info.loc[image_id]['permalink']}">{link_text}</a>
-                <div>""",
-            unsafe_allow_html=True,
-        )
-        st.button(
-            "Explain this",
-            on_click=image_modal,
-            args=[image_id],
-            use_container_width=True,
-            key=image_id,
-        )
-    col = (col + 1) % row_size