Txostenaren eguneraketa
This commit is contained in:
parent
6ddbede5a4
commit
8c54e9b123
Binary file not shown.
|
@ -65,7 +65,7 @@ garrantzia izaten, honek berak proposatutako Turing probaren ondorioz,
|
|||
elkarrizketa bateko ondoko partaidea gizakia den edo ez egiaztatzeko erabili
|
||||
daitekeena. Hain zuzen, 1950tik dago elkarrizketen partaideak gizakiak diren edo
|
||||
ez egiaztatzeko interesa, ez proba huts bat bezala, baizik eta gizaki bat eta
|
||||
makina bat desberdintzeko zailagoa izan dadin.
|
||||
makina bat desberdintzeko zailagoa izan daitezen sistemak sortzeko.
|
||||
|
||||
Helburu horretarako, sistema asko eraiki dira, horien artean ospetsuenak, IBM
|
||||
Watson\texttrademark, Alexa\texttrademark\ edo Siri\texttrademark. Hasieran,
|
||||
|
@ -76,12 +76,12 @@ haren moldakortasunagatik.
|
|||
Hori horrela izanik, azken urteotan helburu antzekoak dituzten aplikazioak sortu
|
||||
dira: Meena (Googleko zientzialari batzuek sortutako elkarrizketa bot bat
|
||||
\cite{meena2020}), Facebook Messenger-eko bot txertatuak \cite{facebook2016} edo
|
||||
bezeroaren arretarako zerbitzuak eskaintzeko \cite{customerservice2019} milioka
|
||||
Euro aurreztuz.
|
||||
bezeroaren arretarako zerbitzuak eskaintzeko botak \cite{customerservice2019} (milioka
|
||||
Euro aurrezten dituztenak).
|
||||
|
||||
Kasu honetan, baita ere, ikasketa automatiko bidezko elkarrizketen eredu bat
|
||||
erabili eta inplementatu da. Eredu horren, bere hobekuntzen eta emaitzei buruzko
|
||||
jarduna da artikulu hau. Honen egiazkotasuna eta lekukukoa hurrengoa
|
||||
jarduna da artikulu hau. Honen egiazkotasuna eta lekukoa hurrengoa
|
||||
inplementazioa da: \href{https://git.disroot.org/i.ortega/hp-dial}{Git biltegia}.
|
||||
|
||||
|
||||
|
@ -90,7 +90,7 @@ inplementazioa da: \href{https://git.disroot.org/i.ortega/hp-dial}{Git biltegia}
|
|||
Lan honetan Seq2Seq sare neuronalen arkitektura erabiltzen da. Hau, lehen aldiz,
|
||||
Googlen hasi zen erabiltzen. Hain zuzen, Sutskever et al. 2014ean ikertzaileek
|
||||
hasi ziren erabiltzen \cite{sutskever2014}. Lehen eredu honek kodetzaile eta dekodetzaile bat lotzea
|
||||
proposatu zuen (Figure \ref{fig:seq2seq}).
|
||||
proposatu zuen azken honetan egoerako irteera sarrera bezala erabiliz (Figure \ref{fig:seq2seq}).
|
||||
|
||||
\begin{figure}[h]
|
||||
\centering
|
||||
|
@ -144,7 +144,7 @@ hobekuntza ere egin zaizkio.
|
|||
Sistemak, jatorriz, ingeleseko tokenizatzaile bat erabiltzen zuen ikasketan,
|
||||
ingeleseko elkarrizketak izateko prestatuta baitzegoen. Ordea, kasu honetan,
|
||||
euskarazko elkarrizketak eduki nahi dira. Horretarako, \textit{SpaCy}
|
||||
liburutegiak eskainitako euskarazko oinarrizko tokenizatzaile bat erabali da.
|
||||
liburutegiak eskainitako euskarazko oinarrizko tokenizatzaile bat erabili da.
|
||||
|
||||
|
||||
\subsection{Erantzun motzen aurkako neurriak}
|
||||
|
@ -160,7 +160,7 @@ penalizazioa eta honen gainean aplikatutako Rayleigh distribuzio
|
|||
probabilitiskoa. Bi hauek ikasketan aplikatu dira, hain zuzen, galera funtzioan.
|
||||
|
||||
BP itzulpen automatikoan erabiltzen den penalizazio mota bat da (normalean
|
||||
\textit{BLEU} izeneko metodo batenpean \cite{Papineni02bleu:a}). Honen helburua,
|
||||
\textit{BLEU} izeneko metodo baten pean \cite{Papineni02bleu:a}). Honen helburua,
|
||||
kasu horretan, ereduak egindako itzulpen baten luzera errealarenarekin
|
||||
konparatzea da, ereduak itzultzen duena motzagoa balitz penalizazio bat
|
||||
aplikatuz.
|
||||
|
@ -171,8 +171,8 @@ Honelakoa litzateke bere ekuazioa:
|
|||
\label{eq:1}
|
||||
BP(c, r)=
|
||||
\begin{cases}
|
||||
1, & \text{if } c > r\\
|
||||
{\rm e}^{1-\frac{r}{c}},& \text{otherwise}
|
||||
1, & \text{baldin } c > r\\
|
||||
{\rm e}^{1-\frac{r}{c}},& \text{bestela}
|
||||
\end{cases}
|
||||
\end{equation}
|
||||
|
||||
|
@ -210,7 +210,8 @@ Parametroak horrela definitu dira:
|
|||
x = y \cdot 5.8 + 0.2
|
||||
\end{equation}
|
||||
|
||||
Honelako kurba bat lortuz:
|
||||
Lortutako kurba, honen balio maximo posiblearekin zatitzen da 0 eta 1-en artean
|
||||
mantentzeko (Figure \ref{fig:rayleigh-kurba}).
|
||||
|
||||
\begin{figure}[h]
|
||||
\centering
|
||||
|
@ -221,14 +222,14 @@ Honelako kurba bat lortuz:
|
|||
\end{figure}
|
||||
|
||||
Distribuzio hau BP-ren irteerari aplikatu zaio, honela, ereduak ez du erantzunen
|
||||
luzerarekiko optimizatzen, orain BP-k $0.75$ aldera dagoen balio bat itzultzen
|
||||
denean ematen baita balio maximoa ($1$), beti erantzun luzeagoak lortzea
|
||||
luzerarekiko optimizatzen. Orain BP-k $0.75$ aldera dagoen balio bat itzultzen
|
||||
duenean ematen baita balio maximoa ($1$), beti erantzun luzeagoak lortzea
|
||||
eragotziz eta motzagoak (probabilitate txikiagoarekin izan arren) onartuz.
|
||||
|
||||
\section{Telegram zerbitzuara esleipena}
|
||||
\label{sec:telegr-zerb-esle}
|
||||
|
||||
Lan honen helburua elkarrizketarako sistema bat sortzea da, baina horrentzako
|
||||
Lan honen helburua elkarrizketarako sistema bat sortzea da, baina horretarako
|
||||
interfaze bat behar da. Hori Telegram-ek eskaintzen duen \textit{Bot}en API a
|
||||
erabiliz egin da. Hain zuzen, Telegram-eko \textit{Bot} bat inplementatu da
|
||||
sistemak emandako irteera eredu bat erabiliz bidalitako mezueei erantzunak
|
||||
|
@ -241,7 +242,7 @@ API-aren inplementazioaren bidez egin da (\href{https://github.com/python-telegr
|
|||
\label{sec:datuak}
|
||||
Sare neuronalak ikasteko datuak behar ditu. Horretarako, filmen azpitituluak
|
||||
erabili nahi izan dira, baina, euskaraz, ez dago hauen datubase formalik,
|
||||
ondorioz, normalizazio prozesu bat egin behar izan da erabilitako azpitituluei
|
||||
ondorioz, normalizazio prozesu bat egin behar izan zaie azpitituluei
|
||||
erabili ahal izateko.
|
||||
|
||||
\subsection{Azpitituluen iturria}
|
||||
|
@ -249,7 +250,7 @@ erabili ahal izateko.
|
|||
Azpitituluak \textit{\href{http://www.opensubtitles.org/}{OpenSubtitles}} webgunetik hartu dira. Bertan hizkuntza
|
||||
eta film askotako azpitituluak daude eskuragai.
|
||||
|
||||
Kasu honetan, euskarazko azpitituluen datubasea erabili da, galdera erantzun
|
||||
Kasu honetan, euskarazko azpitituluen datubasea erabili da, galdera-erantzun
|
||||
sistema euskarazkoa egin nahi delako.
|
||||
|
||||
Datu base honetan azpitituluak lerroetan daude banatuta filmetan agertzen diren
|
||||
|
@ -282,8 +283,8 @@ Karaktere horiek zeintzuk diren jakinda, horien ezabaketa egin da.
|
|||
\subsubsection{Zenbait lerroko esaldien identifikazioa}
|
||||
\label{sec:zenb-lerr-esald}
|
||||
Azpitituluak ez daude galdera eta erantzun modura ordenatuta, izan ere, filmean
|
||||
esaldiak datozten moduan agertzen datubasean. Hau da, lerro bakoitiak ez dute
|
||||
zertan galderak izan eta bikoitiak erantzunak. Erabateko kaosa dago alde
|
||||
esaldiak datozten moduan agertzen dira datubasean. Hau da, lerro bakoitiak ez
|
||||
dute zertan galderak izan eta bikoitiak erantzunak. Erabateko kaosa dago alde
|
||||
horretan, film batean pertsonaia batek zerbait esaten badu, beste pertsonaia bat
|
||||
ez dago erantzutera behartuta. Ez hori bakarrik, esaldi askok ez dute erantzunik
|
||||
behar edo esaldiak luzeegiak direnean, azpitituluen egileak zenbait lerrotan
|
||||
|
@ -427,19 +428,19 @@ egokiak ikasteko.
|
|||
\label{sec:ondorioak}
|
||||
Garbi dago emaitza hauek ez direla onak eta sistema hau, dagoen moduan, ezin
|
||||
dela produkzioan erabili. Itzultzen diren erantzunak sinpleegiak dira askotan
|
||||
eta multzo txiki bateko galdera bat egin ezean emaitza arraroak hasten da
|
||||
ematen. Hori gertatzearen arrazoia, zati batean sistemarekin dago erlazionatuta
|
||||
eta beste batean erabilitako datubasearekin, izan ere, erantzun motzak
|
||||
saihesteko erabilitako metodoa ez da erabili zitekeen hoberena. Gainera,
|
||||
datubasearen izaera kaotikoak arazo gehiegi ematen ditu ikasketa garaian.
|
||||
eta multzo txiki bateko galdera bat egin ezean erantzun arraroak ematen dira.
|
||||
Hori gertatzearen arrazoia, zati batean sistemarekin dago erlazionatuta eta
|
||||
beste batean erabilitako datubasearekin, izan ere, erantzun motzak saihesteko
|
||||
erabilitako metodoa ez da erabili zitekeen hoberena. Gainera, datubasearen
|
||||
izaera kaotikoak arazo gehiegi ematen ditu ikasketa garaian.
|
||||
|
||||
Seguruenik, galera funtzioa aldatu beharko litzateke eta \textit{Perplexity}-an
|
||||
oinarritutako beste bat erabili, dagoeneko badaudelako hori erabiltzen duten
|
||||
ereduak.
|
||||
ereduak \cite{meena2020}.
|
||||
Horrez gain, gaur egun, mota honetako galdera erantzun sistema bat
|
||||
inplementatzeko ideia hoberena \textit{Transformer} motako eredu bat erabiltzea
|
||||
litzateke, emaitza oso onak ematen ari baitira horrelakoak erabiltzen dituzten
|
||||
sistemek \cite{meena2020}.
|
||||
sistemek.
|
||||
|
||||
\newpage
|
||||
\bibliography{acl2020}
|
||||
|
|
Loading…
Reference in New Issue