Benchmarking LLM modelů
Show full item record
No preview available
|
Title:
|
Benchmarking LLM modelů |
| Author: |
Rubáš, Jan
|
| Advisor: |
Šenkeřík, Roman
|
|
Abstract:
|
Diplomová práce se zabývá návrhem, implementací a evaluací vlastního nástroje pro benchmarking výstupů velkých jazykových modelů a systémů typu Retrieval-Augmented Generation (RAG). Hlavním cílem bylo porovnat kvalitu odpovědí, latenci a rozsah výstupu různých modelů na základě souboru odborně formulovaných promptů. Nástroj je navržen jako modulární, s možností manuálního i automatizovaného hodnocení, a je provozován plně lokálně bez odesílání dat na vzdálené servery. Součástí práce je také porovnání modelů LLaMA, Mistral a DeepSeek v několikanásobné iteraci, vizualizace výsledků, statistická analýza a vyhodnocení pomocí Mini Areny. Model DeepSeek byl navíc testován v režimu RAG s využitím vektorového indexu dokumentů. Výsledky ukazují rozdíly v kvalitě výstupů a efektivitě mezi jednotlivými modely. Práce přináší praktický nástroj využitelný v akademickém i firemním prostředí. |
|
URI:
|
http://hdl.handle.net/10563/58764
|
|
Date:
|
2024-10-27 |
|
Availability:
|
Bez omezení |
|
Department:
|
Ústav informatiky a umělé inteligence |
|
Discipline:
|
Softwarové inženýrství |
Citace závěřečné práce
Files in this item
|
There are no files associated with this item.
|
This item appears in the following Collection(s)
Show full item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account