Embedding dat pro velké jazykové modely

DSpace Repository

Language: English čeština

No preview available

Title:	Embedding dat pro velké jazykové modely
Author:	Nehéz, Šimon
Advisor:	Kováč, Jozef
Abstract:	Bakalárska práca sa zaoberá prevodom rôznych súborových formátov do vektorovej podoby pričom hodnotí kvalitu týchto vektorov. Teoretická časť práce opisuje rôzne metódy prevodu textu do vektorovej podoby, zatiaľ čo praktická časť obsahuje zostavenie testovacieho datasetu, vytvorenie prototypu webovej aplikácie na generovanie embeddingov v jazyku Python a vyhodnotenie experimentu. Experiment ukázal minimálne rozdiely v kvalite embeddingov medzi skúmanými súborovými formátmi (maximálny rozdiel 2.7 percenta) pričom formát CSV bol najefektívnejší z hľadiska časovej náročnosti načítania súborov. Formát TXT dosiahol najnižšiu pamäťovú náročnosť zatiaľ čo formát HTML bol najpomalší a najviac pamäťovo náročný. Práca poskytuje hodnotné poznatky o výkonnosti rôznych súborových formátov pre embeddovanie dát.
URI:	http://hdl.handle.net/10563/56654
Date:	2023-11-05
Availability:	Bez omezení
Department:	Ústav informatiky a umělé inteligence
Discipline:	Softwarové inženýrství