swarms/playground/memory/chroma_db.py

import logging
import os
import uuid
from typing import Callable, List, Optional

import chromadb
import numpy as np
from dotenv import load_dotenv

from swarms.utils.data_to_text import data_to_text
from swarms.utils.markdown_message import display_markdown_message
from swarms.memory.base_vectordb import BaseVectorDatabase

# Load environment variables
load_dotenv()


# Results storage using local ChromaDB
class ChromaDB(BaseVectorDatabase):
    """

    ChromaDB database

    Args:
        metric (str): The similarity metric to use.
        output (str): The name of the collection to store the results in.
        limit_tokens (int, optional): The maximum number of tokens to use for the query. Defaults to 1000.
        n_results (int, optional): The number of results to retrieve. Defaults to 2.

    Methods:
        add: _description_
        query: _description_

    Examples:
        >>> chromadb = ChromaDB(
        >>>     metric="cosine",
        >>>     output="results",
        >>>     llm="gpt3",
        >>>     openai_api_key=OPENAI_API_KEY,
        >>> )
        >>> chromadb.add(task, result, result_id)
    """

    def __init__(
        self,
        metric: str = "cosine",
        output_dir: str = "swarms",
        limit_tokens: Optional[int] = 1000,
        n_results: int = 2,
        embedding_function: Callable = None,
        docs_folder: str = None,
        verbose: bool = False,
        *args,
        **kwargs,
    ):
        self.metric = metric
        self.output_dir = output_dir
        self.limit_tokens = limit_tokens
        self.n_results = n_results
        self.docs_folder = docs_folder
        self.verbose = verbose

        # Disable ChromaDB logging
        if verbose:
            logging.getLogger("chromadb").setLevel(logging.INFO)

        # Create Chroma collection
        chroma_persist_dir = "chroma"
        chroma_client = chromadb.PersistentClient(
            settings=chromadb.config.Settings(
                persist_directory=chroma_persist_dir,
            ),
            *args,
            **kwargs,
        )

        # Embedding model
        if embedding_function:
            self.embedding_function = embedding_function
        else:
            self.embedding_function = None

        # Create ChromaDB client
        self.client = chromadb.Client()

        # Create Chroma collection
        self.collection = chroma_client.get_or_create_collection(
            name=output_dir,
            metadata={"hnsw:space": metric},
            embedding_function=self.embedding_function,
            # data_loader=self.data_loader,
            *args,
            **kwargs,
        )
        display_markdown_message(
            "ChromaDB collection created:"
            f" {self.collection.name} with metric: {self.metric} and"
            f" output directory: {self.output_dir}"
        )

        # If docs
        if docs_folder:
            display_markdown_message(
                f"Traversing directory: {docs_folder}"
            )
            self.traverse_directory()

    def add(
        self,
        document: str,
        images: List[np.ndarray] = None,
        img_urls: List[str] = None,
        *args,
        **kwargs,
    ):
        """
        Add a document to the ChromaDB collection.

        Args:
            document (str): The document to be added.
            condition (bool, optional): The condition to check before adding the document. Defaults to True.

        Returns:
            str: The ID of the added document.
        """
        try:
            doc_id = str(uuid.uuid4())
            self.collection.add(
                ids=[doc_id],
                documents=[document],
                images=images,
                uris=img_urls,
                *args,
                **kwargs,
            )
            return doc_id
        except Exception as e:
            raise Exception(f"Failed to add document: {str(e)}")

    def query(
        self,
        query_text: str,
        query_images: List[np.ndarray],
        *args,
        **kwargs,
    ):
        """
        Query documents from the ChromaDB collection.

        Args:
            query (str): The query string.
            n_docs (int, optional): The number of documents to retrieve. Defaults to 1.

        Returns:
            dict: The retrieved documents.
        """
        try:
            docs = self.collection.query(
                query_texts=[query_text],
                query_images=query_images,
                n_results=self.n_docs,
                *args,
                **kwargs,
            )["documents"]
            return docs[0]
        except Exception as e:
            raise Exception(f"Failed to query documents: {str(e)}")

    def traverse_directory(self):
        """
        Traverse through every file in the given directory and its subdirectories,
        and return the paths of all files.
        Parameters:
        - directory_name (str): The name of the directory to traverse.
        Returns:
        - list: A list of paths to each file in the directory and its subdirectories.
        """
        added_to_db = False

        image_extensions = [
            ".jpg",
            ".jpeg",
            ".png",
        ]
        images = []
        for root, dirs, files in os.walk(self.docs_folder):
            for file in files:
                _, ext = os.path.splitext(file)
                if ext.lower() in image_extensions:
                    images.append(os.path.join(root, file))
                else:
                    data = data_to_text(file)
                    added_to_db = self.add([data])
                    print(f"{file} added to Database")
        if images:
            added_to_db = self.add(img_urls=[images])
            print(f"{len(images)} images added to Database ")

        return added_to_db
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`import logging`
[CLEANUP OPERATION] 11 months ago			`import os`
[FEAT][Chroma] 11 months ago			`import uuid`
[CLEANUP OPERATION] 11 months ago			`from typing import Callable, List, Optional`
[CHORES][VLLM] 1 year ago
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`import chromadb`
[CLEANUP OPERATION] 11 months ago			`import numpy as np`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`from dotenv import load_dotenv`
[LOGGING][++Misc] 11 months ago
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`from swarms.utils.data_to_text import data_to_text`
			`from swarms.utils.markdown_message import display_markdown_message`
[CLEANUP] 9 months ago			`from swarms.memory.base_vectordb import BaseVectorDatabase`
[CHORES][VLLM] 1 year ago
[FEAT][Chroma] 11 months ago			`# Load environment variables`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`load_dotenv()`


			`# Results storage using local ChromaDB`
[CLEANUP] 9 months ago			`class ChromaDB(BaseVectorDatabase):`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`"""`

			`ChromaDB database`

			`Args:`
[FEAT][Chroma] 11 months ago			`metric (str): The similarity metric to use.`
			`output (str): The name of the collection to store the results in.`
			`limit_tokens (int, optional): The maximum number of tokens to use for the query. Defaults to 1000.`
			`n_results (int, optional): The number of results to retrieve. Defaults to 2.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`Methods:`
			`add: _description_`
			`query: _description_`

			`Examples:`
			`>>> chromadb = ChromaDB(`
			`>>> metric="cosine",`
[FEAT][Chroma] 11 months ago			`>>> output="results",`
			`>>> llm="gpt3",`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`>>> openai_api_key=OPENAI_API_KEY,`
			`>>> )`
			`>>> chromadb.add(task, result, result_id)`
			`"""`

			`def __init__(`
			`self,`
[FEATS][Majority Voting] [BUGF][Conversatopn] [ARCHITECTURE][Rust backend] 11 months ago			`metric: str = "cosine",`
			`output_dir: str = "swarms",`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`limit_tokens: Optional[int] = 1000,`
[FEAT][Chroma] 11 months ago			`n_results: int = 2,`
			`embedding_function: Callable = None,`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`docs_folder: str = None,`
			`verbose: bool = False,`
[CLEANUP OP] 1 year ago			`*args,`
[SEQUENTIALWORKFLOW][FIX] 1 year ago			`**kwargs,`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`):`
			`self.metric = metric`
[FEAT][Chroma] 11 months ago			`self.output_dir = output_dir`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`self.limit_tokens = limit_tokens`
[FEAT][Chroma] 11 months ago			`self.n_results = n_results`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`self.docs_folder = docs_folder`
			`self.verbose = verbose`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`# Disable ChromaDB logging`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`if verbose:`
			`logging.getLogger("chromadb").setLevel(logging.INFO)`
[FEAT][Chroma] 11 months ago
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`# Create Chroma collection`
			`chroma_persist_dir = "chroma"`
			`chroma_client = chromadb.PersistentClient(`
			`settings=chromadb.config.Settings(`
			`persist_directory=chroma_persist_dir,`
[FEAT][Chroma] 11 months ago			`),`
			`*args,`
			`**kwargs,`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`)`

[FEAT][Chroma] 11 months ago			`# Embedding model`
			`if embedding_function:`
			`self.embedding_function = embedding_function`
			`else:`
			`self.embedding_function = None`

			`# Create ChromaDB client`
			`self.client = chromadb.Client()`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`# Create Chroma collection`
			`self.collection = chroma_client.get_or_create_collection(`
[FEAT][Chroma] 11 months ago			`name=output_dir,`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`metadata={"hnsw:space": metric},`
[FEAT][Chroma] 11 months ago			`embedding_function=self.embedding_function,`
[CLEANUP] 10 months ago			`# data_loader=self.data_loader,`
[FEAT][Chroma] 11 months ago			`*args,`
			`**kwargs,`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`)`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`display_markdown_message(`
			`"ChromaDB collection created:"`
			`f" {self.collection.name} with metric: {self.metric} and"`
			`f" output directory: {self.output_dir}"`
			`)`

			`# If docs`
			`if docs_folder:`
			`display_markdown_message(`
			`f"Traversing directory: {docs_folder}"`
			`)`
			`self.traverse_directory()`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
[SEQUENTIALWORKFLOW][FIX] 1 year ago			`def add(`
[FEAT][Chroma] 11 months ago			`self,`
			`document: str,`
			`images: List[np.ndarray] = None,`
			`img_urls: List[str] = None,`
			`*args,`
			`**kwargs,`
[SEQUENTIALWORKFLOW][FIX] 1 year ago			`):`
[FEAT][Chroma] 11 months ago			`"""`
			`Add a document to the ChromaDB collection.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`Args:`
[FEAT][Chroma] 11 months ago			`document (str): The document to be added.`
			`condition (bool, optional): The condition to check before adding the document. Defaults to True.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
[FEAT][Chroma] 11 months ago			`Returns:`
			`str: The ID of the added document.`
			`"""`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`try:`
[FEAT][Chroma] 11 months ago			`doc_id = str(uuid.uuid4())`
			`self.collection.add(`
			`ids=[doc_id],`
			`documents=[document],`
			`images=images,`
			`uris=img_urls,`
			`*args,`
			`**kwargs,`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`)`
[FEAT][Chroma] 11 months ago			`return doc_id`
			`except Exception as e:`
			`raise Exception(f"Failed to add document: {str(e)}")`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
[FEAT][Chroma] 11 months ago			`def query(`
			`self,`
			`query_text: str,`
			`query_images: List[np.ndarray],`
			`*args,`
			`**kwargs,`
			`):`
			`"""`
			`Query documents from the ChromaDB collection.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`Args:`
[FEAT][Chroma] 11 months ago			`query (str): The query string.`
			`n_docs (int, optional): The number of documents to retrieve. Defaults to 1.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`Returns:`
[FEAT][Chroma] 11 months ago			`dict: The retrieved documents.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`"""`
			`try:`
[FEAT][Chroma] 11 months ago			`docs = self.collection.query(`
			`query_texts=[query_text],`
			`query_images=query_images,`
			`n_results=self.n_docs,`
[CLEANUP OP] 1 year ago			`*args,`
[SEQUENTIALWORKFLOW][FIX] 1 year ago			`**kwargs,`
[FEAT][Chroma] 11 months ago			`)["documents"]`
			`return docs[0]`
			`except Exception as e:`
			`raise Exception(f"Failed to query documents: {str(e)}")`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago
			`def traverse_directory(self):`
			`"""`
			`Traverse through every file in the given directory and its subdirectories,`
			`and return the paths of all files.`
			`Parameters:`
			`- directory_name (str): The name of the directory to traverse.`
			`Returns:`
			`- list: A list of paths to each file in the directory and its subdirectories.`
			`"""`
[FEATS][File processing] [hackathon for agents] 10 months ago			`added_to_db = False`

[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`image_extensions = [`
			`".jpg",`
			`".jpeg",`
			`".png",`
			`]`
			`images = []`
[FEATS][Agent][Output Parser] [Excution sandbox] 11 months ago			`for root, dirs, files in os.walk(self.docs_folder):`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`for file in files:`
			`_, ext = os.path.splitext(file)`
			`if ext.lower() in image_extensions:`
			`images.append(os.path.join(root, file))`
			`else:`
			`data = data_to_text(file)`
			`added_to_db = self.add([data])`
			`print(f"{file} added to Database")`
			`if images:`
			`added_to_db = self.add(img_urls=[images])`
			`print(f"{len(images)} images added to Database ")`
[FEATS][File processing] [hackathon for agents] 10 months ago
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`return added_to_db`