swarms/playground/memory/chromadb_example.py

import logging
import os
import uuid
from typing import Optional

import chromadb
from dotenv import load_dotenv

from swarms.utils.data_to_text import data_to_text
from swarms.utils.markdown_message import display_markdown_message
from swarms.memory.base_vectordb import BaseVectorDatabase

# Load environment variables
load_dotenv()


# Results storage using local ChromaDB
class ChromaDB(BaseVectorDatabase):
    """

    ChromaDB database

    Args:
        metric (str): The similarity metric to use.
        output (str): The name of the collection to store the results in.
        limit_tokens (int, optional): The maximum number of tokens to use for the query. Defaults to 1000.
        n_results (int, optional): The number of results to retrieve. Defaults to 2.

    Methods:
        add: _description_
        query: _description_

    Examples:
        >>> chromadb = ChromaDB(
        >>>     metric="cosine",
        >>>     output="results",
        >>>     llm="gpt3",
        >>>     openai_api_key=OPENAI_API_KEY,
        >>> )
        >>> chromadb.add(task, result, result_id)
    """

    def __init__(
        self,
        metric: str = "cosine",
        output_dir: str = "swarms",
        limit_tokens: Optional[int] = 1000,
        n_results: int = 1,
        docs_folder: str = None,
        verbose: bool = False,
        *args,
        **kwargs,
    ):
        self.metric = metric
        self.output_dir = output_dir
        self.limit_tokens = limit_tokens
        self.n_results = n_results
        self.docs_folder = docs_folder
        self.verbose = verbose

        # Disable ChromaDB logging
        if verbose:
            logging.getLogger("chromadb").setLevel(logging.INFO)

        # Create Chroma collection
        chroma_persist_dir = "chroma"
        chroma_client = chromadb.PersistentClient(
            settings=chromadb.config.Settings(
                persist_directory=chroma_persist_dir,
            ),
            *args,
            **kwargs,
        )

        # Create ChromaDB client
        self.client = chromadb.Client()

        # Create Chroma collection
        self.collection = chroma_client.get_or_create_collection(
            name=output_dir,
            metadata={"hnsw:space": metric},
            *args,
            **kwargs,
        )
        display_markdown_message(
            "ChromaDB collection created:"
            f" {self.collection.name} with metric: {self.metric} and"
            f" output directory: {self.output_dir}"
        )

        # If docs
        if docs_folder:
            display_markdown_message(
                f"Traversing directory: {docs_folder}"
            )
            self.traverse_directory()

    def add(
        self,
        document: str,
        *args,
        **kwargs,
    ):
        """
        Add a document to the ChromaDB collection.

        Args:
            document (str): The document to be added.
            condition (bool, optional): The condition to check before adding the document. Defaults to True.

        Returns:
            str: The ID of the added document.
        """
        try:
            doc_id = str(uuid.uuid4())
            self.collection.add(
                ids=[doc_id],
                documents=[document],
                *args,
                **kwargs,
            )
            print("-----------------")
            print("Document added successfully")
            print("-----------------")
            return doc_id
        except Exception as e:
            raise Exception(f"Failed to add document: {str(e)}")

    def query(
        self,
        query_text: str,
        *args,
        **kwargs,
    ) -> str:
        """
        Query documents from the ChromaDB collection.

        Args:
            query (str): The query string.
            n_docs (int, optional): The number of documents to retrieve. Defaults to 1.

        Returns:
            dict: The retrieved documents.
        """
        try:
            logging.info(f"Querying documents for: {query_text}")
            docs = self.collection.query(
                query_texts=[query_text],
                n_results=self.n_results,
                *args,
                **kwargs,
            )["documents"]

            # Convert into a string
            out = ""
            for doc in docs:
                out += f"{doc}\n"

            # Display the retrieved document
            display_markdown_message(f"Query: {query_text}")
            display_markdown_message(f"Retrieved Document: {out}")
            return out

        except Exception as e:
            raise Exception(f"Failed to query documents: {str(e)}")

    def traverse_directory(self):
        """
        Traverse through every file in the given directory and its subdirectories,
        and return the paths of all files.
        Parameters:
        - directory_name (str): The name of the directory to traverse.
        Returns:
        - list: A list of paths to each file in the directory and its subdirectories.
        """
        added_to_db = False

        for root, dirs, files in os.walk(self.docs_folder):
            for file in files:
                file_path = os.path.join(root, file)  # Change this line
                _, ext = os.path.splitext(file_path)
                data = data_to_text(file_path)
                added_to_db = self.add(str(data))
                print(f"{file_path} added to Database")

        return added_to_db
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`import logging`
[CLEANUP OPERATION] 11 months ago			`import os`
[FEAT][Chroma] 11 months ago			`import uuid`
[FEAT][GPT4o] 7 months ago			`from typing import Optional`
[CHORES][VLLM] 1 year ago
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`import chromadb`
			`from dotenv import load_dotenv`
[LOGGING][++Misc] 11 months ago
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`from swarms.utils.data_to_text import data_to_text`
			`from swarms.utils.markdown_message import display_markdown_message`
[FEAT][GPT4o] 7 months ago			`from swarms.memory.base_vectordb import BaseVectorDatabase`
[CHORES][VLLM] 1 year ago
[FEAT][Chroma] 11 months ago			`# Load environment variables`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`load_dotenv()`


			`# Results storage using local ChromaDB`
[CLEANUP] 9 months ago			`class ChromaDB(BaseVectorDatabase):`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`"""`

			`ChromaDB database`

			`Args:`
[FEAT][Chroma] 11 months ago			`metric (str): The similarity metric to use.`
			`output (str): The name of the collection to store the results in.`
			`limit_tokens (int, optional): The maximum number of tokens to use for the query. Defaults to 1000.`
			`n_results (int, optional): The number of results to retrieve. Defaults to 2.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`Methods:`
			`add: _description_`
			`query: _description_`

			`Examples:`
			`>>> chromadb = ChromaDB(`
			`>>> metric="cosine",`
[FEAT][Chroma] 11 months ago			`>>> output="results",`
			`>>> llm="gpt3",`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`>>> openai_api_key=OPENAI_API_KEY,`
			`>>> )`
			`>>> chromadb.add(task, result, result_id)`
			`"""`

			`def __init__(`
			`self,`
[FEATS][Majority Voting] [BUGF][Conversatopn] [ARCHITECTURE][Rust backend] 11 months ago			`metric: str = "cosine",`
			`output_dir: str = "swarms",`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`limit_tokens: Optional[int] = 1000,`
[FEAT][GraphWorkflow] [Memory Optimization] [Tokenizer Implementation] 7 months ago			`n_results: int = 1,`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`docs_folder: str = None,`
			`verbose: bool = False,`
[CLEANUP OP] 1 year ago			`*args,`
[SEQUENTIALWORKFLOW][FIX] 1 year ago			`**kwargs,`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`):`
			`self.metric = metric`
[FEAT][Chroma] 11 months ago			`self.output_dir = output_dir`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`self.limit_tokens = limit_tokens`
[FEAT][Chroma] 11 months ago			`self.n_results = n_results`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`self.docs_folder = docs_folder`
			`self.verbose = verbose`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`# Disable ChromaDB logging`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`if verbose:`
			`logging.getLogger("chromadb").setLevel(logging.INFO)`
[FEAT][Chroma] 11 months ago
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`# Create Chroma collection`
			`chroma_persist_dir = "chroma"`
			`chroma_client = chromadb.PersistentClient(`
			`settings=chromadb.config.Settings(`
			`persist_directory=chroma_persist_dir,`
[FEAT][Chroma] 11 months ago			`),`
			`*args,`
			`**kwargs,`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`)`

[FEAT][Chroma] 11 months ago			`# Create ChromaDB client`
			`self.client = chromadb.Client()`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`# Create Chroma collection`
			`self.collection = chroma_client.get_or_create_collection(`
[FEAT][Chroma] 11 months ago			`name=output_dir,`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`metadata={"hnsw:space": metric},`
[FEAT][Chroma] 11 months ago			`*args,`
			`**kwargs,`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`)`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`display_markdown_message(`
			`"ChromaDB collection created:"`
			`f" {self.collection.name} with metric: {self.metric} and"`
			`f" output directory: {self.output_dir}"`
			`)`

			`# If docs`
			`if docs_folder:`
			`display_markdown_message(`
			`f"Traversing directory: {docs_folder}"`
			`)`
			`self.traverse_directory()`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
[SEQUENTIALWORKFLOW][FIX] 1 year ago			`def add(`
[FEAT][Chroma] 11 months ago			`self,`
			`document: str,`
			`*args,`
			`**kwargs,`
[SEQUENTIALWORKFLOW][FIX] 1 year ago			`):`
[FEAT][Chroma] 11 months ago			`"""`
			`Add a document to the ChromaDB collection.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`Args:`
[FEAT][Chroma] 11 months ago			`document (str): The document to be added.`
			`condition (bool, optional): The condition to check before adding the document. Defaults to True.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
[FEAT][Chroma] 11 months ago			`Returns:`
			`str: The ID of the added document.`
			`"""`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`try:`
[FEAT][Chroma] 11 months ago			`doc_id = str(uuid.uuid4())`
			`self.collection.add(`
			`ids=[doc_id],`
			`documents=[document],`
			`*args,`
			`**kwargs,`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`)`
[DEMO][Swarm Mechanic] 8 months ago			`print("-----------------")`
			`print("Document added successfully")`
			`print("-----------------")`
[FEAT][Chroma] 11 months ago			`return doc_id`
			`except Exception as e:`
			`raise Exception(f"Failed to add document: {str(e)}")`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
[FEAT][Chroma] 11 months ago			`def query(`
			`self,`
			`query_text: str,`
			`*args,`
			`**kwargs,`
[FEAT][GraphWorkflow] [Memory Optimization] [Tokenizer Implementation] 7 months ago			`) -> str:`
[FEAT][Chroma] 11 months ago			`"""`
			`Query documents from the ChromaDB collection.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`Args:`
[FEAT][Chroma] 11 months ago			`query (str): The query string.`
			`n_docs (int, optional): The number of documents to retrieve. Defaults to 1.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago
			`Returns:`
[FEAT][Chroma] 11 months ago			`dict: The retrieved documents.`
[FEAT][ChromaDB] [FEAT][tool_func_doc_scraper] [FEAT][BaseVectorStore] [FEAT][memory -> short_memory] [FEAT][memory: BaseVectorDB] 1 year ago			`"""`
			`try:`
[FEAT][GraphWorkflow] [Memory Optimization] [Tokenizer Implementation] 7 months ago			`logging.info(f"Querying documents for: {query_text}")`
[FEAT][Chroma] 11 months ago			`docs = self.collection.query(`
			`query_texts=[query_text],`
[DEMO][Swarm Mechanic] 8 months ago			`n_results=self.n_results,`
[CLEANUP OP] 1 year ago			`*args,`
[SEQUENTIALWORKFLOW][FIX] 1 year ago			`**kwargs,`
[FEAT][Chroma] 11 months ago			`)["documents"]`
[FEAT][GraphWorkflow] [Memory Optimization] [Tokenizer Implementation] 7 months ago
			`# Convert into a string`
			`out = ""`
			`for doc in docs:`
			`out += f"{doc}\n"`

			`# Display the retrieved document`
			`display_markdown_message(f"Query: {query_text}")`
			`display_markdown_message(f"Retrieved Document: {out}")`
			`return out`

[FEAT][Chroma] 11 months ago			`except Exception as e:`
			`raise Exception(f"Failed to query documents: {str(e)}")`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago
			`def traverse_directory(self):`
			`"""`
			`Traverse through every file in the given directory and its subdirectories,`
			`and return the paths of all files.`
			`Parameters:`
			`- directory_name (str): The name of the directory to traverse.`
			`Returns:`
			`- list: A list of paths to each file in the directory and its subdirectories.`
			`"""`
[FEATS][File processing] [hackathon for agents] 10 months ago			`added_to_db = False`

[FEATS][Agent][Output Parser] [Excution sandbox] 11 months ago			`for root, dirs, files in os.walk(self.docs_folder):`
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`for file in files:`
[CLEANUP] [DOCS][CLEANUP] 7 months ago			`file_path = os.path.join(root, file) # Change this line`
			`_, ext = os.path.splitext(file_path)`
			`data = data_to_text(file_path)`
[FEAT][GPT4o] 7 months ago			`added_to_db = self.add(str(data))`
[CLEANUP] [DOCS][CLEANUP] 7 months ago			`print(f"{file_path} added to Database")`
[FEATS][File processing] [hackathon for agents] 10 months ago
[EXAMPLE][Fully Multi Modal Rag agent] 11 months ago			`return added_to_db`