Benchmarking LLM modelů

DSpace Repository

Language: English čeština

No preview available

Title:	Benchmarking LLM modelů
Author:	Rubáš, Jan
Advisor:	Šenkeřík, Roman
Abstract:	Diplomová práce se zabývá návrhem, implementací a evaluací vlastního nástroje pro benchmarking výstupů velkých jazykových modelů a systémů typu Retrieval-Augmented Generation (RAG). Hlavním cílem bylo porovnat kvalitu odpovědí, latenci a rozsah výstupu různých modelů na základě souboru odborně formulovaných promptů. Nástroj je navržen jako modulární, s možností manuálního i automatizovaného hodnocení, a je provozován plně lokálně bez odesílání dat na vzdálené servery. Součástí práce je také porovnání modelů LLaMA, Mistral a DeepSeek v několikanásobné iteraci, vizualizace výsledků, statistická analýza a vyhodnocení pomocí Mini Areny. Model DeepSeek byl navíc testován v režimu RAG s využitím vektorového indexu dokumentů. Výsledky ukazují rozdíly v kvalitě výstupů a efektivitě mezi jednotlivými modely. Práce přináší praktický nástroj využitelný v akademickém i firemním prostředí.
URI:	http://hdl.handle.net/10563/58764
Date:	2024-10-27
Availability:	Bez omezení
Department:	Ústav informatiky a umělé inteligence
Discipline:	Softwarové inženýrství