test: enhance reward correctness tests with validation logic

- Updated test cases to include role and tag validation for assistant messages. - Ensured that only properly formatted messages with answer tags are accepted. - Added new test for validating various incorrect formats and their expected outcomes.
8 months ago · 1bd609dfae
parent 338655e563
commit 1bd609dfae
1 changed files with 45 additions and 2 deletions
--- a/tests/test_rewards.py
+++ b/tests/test_rewards.py
@ -50,7 +50,7 @@ def reward_correctness_fn():
 def test_reward_correctness_basic(reward_correctness_fn):
    """Test basic reward correctness functionality"""
    prompts = ["What is 2+2?"]
-    completions = [{"messages": [{"content": "4"}]}]
+    completions = [{"messages": [{"role": "assistant", "content": "<answer>4</answer>"}]}]
    reward_kwargs = {"answer": ["4"]}

    rewards = reward_correctness_fn(prompts, completions, **reward_kwargs)
@ -61,7 +61,7 @@ def test_reward_correctness_basic(reward_correctness_fn):
 def test_reward_correctness_wrong_answer(reward_correctness_fn):
    """Test reward correctness with wrong answer"""
    prompts = ["What is 2+2?"]
-    completions = [{"messages": [{"content": "5"}]}]
+    completions = [{"messages": [{"role": "assistant", "content": "<answer>5</answer>"}]}]
    reward_kwargs = {"answer": ["4"]}

    rewards = reward_correctness_fn(prompts, completions, **reward_kwargs)
@ -432,3 +432,46 @@ def test_reward_format_search_or_answer_not_both():
    completions = [{"messages": [{"role": "assistant", "content": content_answer_only}]}]
    rewards = reward_format([], completions)
    assert rewards[0] == 1.0, "Should accept messages with just answer tags"
+
+
+def test_reward_correctness_validation(reward_correctness_fn):
+    """Test reward correctness validation logic for message roles and tags"""
+    prompts = ["What is 2+2?"]
+    test_cases = [
+        # Test assistant role validation
+        {
+            "completion": {"messages": [{"role": "user", "content": "<answer>4</answer>"}]},
+            "expected": False,
+            "desc": "Non-assistant role should fail",
+        },
+        # Test answer tag validation
+        {
+            "completion": {"messages": [{"role": "assistant", "content": "4"}]},
+            "expected": False,
+            "desc": "Missing answer tags should fail",
+        },
+        # Test search tag validation
+        {
+            "completion": {"messages": [{"role": "assistant", "content": "<answer>4</answer><search>query</search>"}]},
+            "expected": False,
+            "desc": "Having search tags should fail",
+        },
+        # Test information tag validation
+        {
+            "completion": {
+                "messages": [{"role": "assistant", "content": "<answer>4</answer><information>info</information>"}]
+            },
+            "expected": False,
+            "desc": "Having information tags should fail",
+        },
+        # Test valid case
+        {
+            "completion": {"messages": [{"role": "assistant", "content": "<answer>4</answer>"}]},
+            "expected": True,
+            "desc": "Valid format should pass",
+        },
+    ]
+
+    for case in test_cases:
+        rewards = reward_correctness_fn(prompts, [case["completion"]], answer=["4"])
+        assert rewards[0] == case["expected"], f"Failed: {case['desc']}"