Embedding dat pro velké jazykové modely
Show full item record
No preview available
Title:
|
Embedding dat pro velké jazykové modely |
Author: |
Nehéz, Šimon
|
Advisor: |
Kováč, Jozef
|
Abstract:
|
Bakalárska práca sa zaoberá prevodom rôznych súborových formátov do vektorovej podoby pričom hodnotí kvalitu týchto vektorov. Teoretická časť práce opisuje rôzne metódy prevodu textu do vektorovej podoby, zatiaľ čo praktická časť obsahuje zostavenie testovacieho datasetu, vytvorenie prototypu webovej aplikácie na generovanie embeddingov v jazyku Python a vyhodnotenie experimentu. Experiment ukázal minimálne rozdiely v kvalite embeddingov medzi skúmanými súborovými formátmi (maximálny rozdiel 2.7 percenta) pričom formát CSV bol najefektívnejší z hľadiska časovej náročnosti načítania súborov. Formát TXT dosiahol najnižšiu pamäťovú náročnosť zatiaľ čo formát HTML bol najpomalší a najviac pamäťovo náročný. Práca poskytuje hodnotné poznatky o výkonnosti rôznych súborových formátov pre embeddovanie dát. |
URI:
|
http://hdl.handle.net/10563/56654
|
Date:
|
2023-11-05 |
Availability:
|
Bez omezení |
Department:
|
Ústav informatiky a umělé inteligence |
Discipline:
|
Softwarové inženýrství |
Citace závěřečné práce
Files in this item
This item appears in the following Collection(s)
Show full item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account