Embedding dat pro velké jazykové modely

DSpace Repository

Language: English čeština 

Embedding dat pro velké jazykové modely

Show full item record

No preview available
Title: Embedding dat pro velké jazykové modely
Author: Nehéz, Šimon
Advisor: Kováč, Jozef
Abstract: Bakalárska práca sa zaoberá prevodom rôznych súborových formátov do vektorovej podoby pričom hodnotí kvalitu týchto vektorov. Teoretická časť práce opisuje rôzne metódy prevodu textu do vektorovej podoby, zatiaľ čo praktická časť obsahuje zostavenie testovacieho datasetu, vytvorenie prototypu webovej aplikácie na generovanie embeddingov v jazyku Python a vyhodnotenie experimentu. Experiment ukázal minimálne rozdiely v kvalite embeddingov medzi skúmanými súborovými formátmi (maximálny rozdiel 2.7 percenta) pričom formát CSV bol najefektívnejší z hľadiska časovej náročnosti načítania súborov. Formát TXT dosiahol najnižšiu pamäťovú náročnosť zatiaľ čo formát HTML bol najpomalší a najviac pamäťovo náročný. Práca poskytuje hodnotné poznatky o výkonnosti rôznych súborových formátov pre embeddovanie dát.
URI: http://hdl.handle.net/10563/56654
Date: 2023-11-05
Availability: Bez omezení
Department: Ústav informatiky a umělé inteligence
Discipline: Softwarové inženýrství


Citace závěřečné práce

Files in this item

Files Size Format View Description
nehéz_2024_dp.pdf 2.625Mb PDF View/Open None
nehéz_2024_op.pdf 149.8Kb PDF View/Open None
nehéz_2024_vp.pdf 320.5Kb PDF View/Open None

This item appears in the following Collection(s)

Show full item record

Find fulltext

Search DSpace


Browse

My Account