馃И {{ title }}

Data generowania: {{ timestamp }}

馃搳 Podsumowanie

Testowane modele:
{{ models_count }}
Liczba test贸w:
{{ tests_count }}
Testy zako艅czone sukcesem:
{{ successful_tests }} ({{ success_rate }}%)
艢redni czas odpowiedzi:
{{ avg_response_time }}s
Ranking
Szczeg贸艂y
Por贸wnanie kodu
Prompty
Wykresy

馃弳 Ranking Modeli

{{ ranking_table|safe }}

馃搵 Szczeg贸艂owe Wyniki

{{ model_sections|safe }}

馃攳 Por贸wnanie kodu

Wybierz dwa modele, aby por贸wna膰 wygenerowany kod:

馃摑 Informacje o Promptach

Poni偶ej znajduj膮 si臋 szczeg贸艂owe informacje o promptach u偶ytych w tym benchmarku:

{% for prompt_name, info in prompts_info.items() %}

{{ prompt_name }}

Tre艣膰 promptu:
{{ info.prompt_text }}
{% if info.description %}
Opis:

{{ info.description }}

{% endif %} {% if info.expected_keywords %}
Oczekiwane s艂owa kluczowe:
    {% for keyword in info.expected_keywords %}
  • {{ keyword }}
  • {% endfor %}
{% endif %}
{% endfor %}

馃搱 Wykresy Por贸wnawcze

Por贸wnanie wydajno艣ci modeli na podstawie kluczowych metryk:

Modele: {{ models_count }}
Testy: {{ tests_count }}
Udane: {{ successful_tests }}
Sukces: {{ success_rate }}%