Benchmarking LLM modelů

DSpace Repository

Language: English čeština 

Benchmarking LLM modelů

Show full item record

No preview available
Title: Benchmarking LLM modelů
Author: Rubáš, Jan
Advisor: Šenkeřík, Roman
Abstract: Diplomová práce se zabývá návrhem, implementací a evaluací vlastního nástroje pro benchmarking výstupů velkých jazykových modelů a systémů typu Retrieval-Augmented Generation (RAG). Hlavním cílem bylo porovnat kvalitu odpovědí, latenci a rozsah výstupu různých modelů na základě souboru odborně formulovaných promptů. Nástroj je navržen jako modulární, s možností manuálního i automatizovaného hodnocení, a je provozován plně lokálně bez odesílání dat na vzdálené servery. Součástí práce je také porovnání modelů LLaMA, Mistral a DeepSeek v několikanásobné iteraci, vizualizace výsledků, statistická analýza a vyhodnocení pomocí Mini Areny. Model DeepSeek byl navíc testován v režimu RAG s využitím vektorového indexu dokumentů. Výsledky ukazují rozdíly v kvalitě výstupů a efektivitě mezi jednotlivými modely. Práce přináší praktický nástroj využitelný v akademickém i firemním prostředí.
URI: http://hdl.handle.net/10563/58764
Date: 2024-10-27
Availability: Bez omezení
Department: Ústav informatiky a umělé inteligence
Discipline: Softwarové inženýrství


Citace závěřečné práce

Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show full item record

Find fulltext

Search DSpace


Browse

My Account