Txostenaren eguneraketa

This commit is contained in:
i.ortega 2020-05-21 23:10:58 +02:00
parent 6ddbede5a4
commit 8c54e9b123
2 changed files with 25 additions and 24 deletions

Binary file not shown.

View File

@ -65,7 +65,7 @@ garrantzia izaten, honek berak proposatutako Turing probaren ondorioz,
elkarrizketa bateko ondoko partaidea gizakia den edo ez egiaztatzeko erabili
daitekeena. Hain zuzen, 1950tik dago elkarrizketen partaideak gizakiak diren edo
ez egiaztatzeko interesa, ez proba huts bat bezala, baizik eta gizaki bat eta
makina bat desberdintzeko zailagoa izan dadin.
makina bat desberdintzeko zailagoa izan daitezen sistemak sortzeko.
Helburu horretarako, sistema asko eraiki dira, horien artean ospetsuenak, IBM
Watson\texttrademark, Alexa\texttrademark\ edo Siri\texttrademark. Hasieran,
@ -76,12 +76,12 @@ haren moldakortasunagatik.
Hori horrela izanik, azken urteotan helburu antzekoak dituzten aplikazioak sortu
dira: Meena (Googleko zientzialari batzuek sortutako elkarrizketa bot bat
\cite{meena2020}), Facebook Messenger-eko bot txertatuak \cite{facebook2016} edo
bezeroaren arretarako zerbitzuak eskaintzeko \cite{customerservice2019} milioka
Euro aurreztuz.
bezeroaren arretarako zerbitzuak eskaintzeko botak \cite{customerservice2019} (milioka
Euro aurrezten dituztenak).
Kasu honetan, baita ere, ikasketa automatiko bidezko elkarrizketen eredu bat
erabili eta inplementatu da. Eredu horren, bere hobekuntzen eta emaitzei buruzko
jarduna da artikulu hau. Honen egiazkotasuna eta lekukukoa hurrengoa
jarduna da artikulu hau. Honen egiazkotasuna eta lekukoa hurrengoa
inplementazioa da: \href{https://git.disroot.org/i.ortega/hp-dial}{Git biltegia}.
@ -90,7 +90,7 @@ inplementazioa da: \href{https://git.disroot.org/i.ortega/hp-dial}{Git biltegia}
Lan honetan Seq2Seq sare neuronalen arkitektura erabiltzen da. Hau, lehen aldiz,
Googlen hasi zen erabiltzen. Hain zuzen, Sutskever et al. 2014ean ikertzaileek
hasi ziren erabiltzen \cite{sutskever2014}. Lehen eredu honek kodetzaile eta dekodetzaile bat lotzea
proposatu zuen (Figure \ref{fig:seq2seq}).
proposatu zuen azken honetan egoerako irteera sarrera bezala erabiliz (Figure \ref{fig:seq2seq}).
\begin{figure}[h]
\centering
@ -144,7 +144,7 @@ hobekuntza ere egin zaizkio.
Sistemak, jatorriz, ingeleseko tokenizatzaile bat erabiltzen zuen ikasketan,
ingeleseko elkarrizketak izateko prestatuta baitzegoen. Ordea, kasu honetan,
euskarazko elkarrizketak eduki nahi dira. Horretarako, \textit{SpaCy}
liburutegiak eskainitako euskarazko oinarrizko tokenizatzaile bat erabali da.
liburutegiak eskainitako euskarazko oinarrizko tokenizatzaile bat erabili da.
\subsection{Erantzun motzen aurkako neurriak}
@ -160,7 +160,7 @@ penalizazioa eta honen gainean aplikatutako Rayleigh distribuzio
probabilitiskoa. Bi hauek ikasketan aplikatu dira, hain zuzen, galera funtzioan.
BP itzulpen automatikoan erabiltzen den penalizazio mota bat da (normalean
\textit{BLEU} izeneko metodo batenpean \cite{Papineni02bleu:a}). Honen helburua,
\textit{BLEU} izeneko metodo baten pean \cite{Papineni02bleu:a}). Honen helburua,
kasu horretan, ereduak egindako itzulpen baten luzera errealarenarekin
konparatzea da, ereduak itzultzen duena motzagoa balitz penalizazio bat
aplikatuz.
@ -171,8 +171,8 @@ Honelakoa litzateke bere ekuazioa:
\label{eq:1}
BP(c, r)=
\begin{cases}
1, & \text{if } c > r\\
{\rm e}^{1-\frac{r}{c}},& \text{otherwise}
1, & \text{baldin } c > r\\
{\rm e}^{1-\frac{r}{c}},& \text{bestela}
\end{cases}
\end{equation}
@ -210,7 +210,8 @@ Parametroak horrela definitu dira:
x = y \cdot 5.8 + 0.2
\end{equation}
Honelako kurba bat lortuz:
Lortutako kurba, honen balio maximo posiblearekin zatitzen da 0 eta 1-en artean
mantentzeko (Figure \ref{fig:rayleigh-kurba}).
\begin{figure}[h]
\centering
@ -221,14 +222,14 @@ Honelako kurba bat lortuz:
\end{figure}
Distribuzio hau BP-ren irteerari aplikatu zaio, honela, ereduak ez du erantzunen
luzerarekiko optimizatzen, orain BP-k $0.75$ aldera dagoen balio bat itzultzen
denean ematen baita balio maximoa ($1$), beti erantzun luzeagoak lortzea
luzerarekiko optimizatzen. Orain BP-k $0.75$ aldera dagoen balio bat itzultzen
duenean ematen baita balio maximoa ($1$), beti erantzun luzeagoak lortzea
eragotziz eta motzagoak (probabilitate txikiagoarekin izan arren) onartuz.
\section{Telegram zerbitzuara esleipena}
\label{sec:telegr-zerb-esle}
Lan honen helburua elkarrizketarako sistema bat sortzea da, baina horrentzako
Lan honen helburua elkarrizketarako sistema bat sortzea da, baina horretarako
interfaze bat behar da. Hori Telegram-ek eskaintzen duen \textit{Bot}en API a
erabiliz egin da. Hain zuzen, Telegram-eko \textit{Bot} bat inplementatu da
sistemak emandako irteera eredu bat erabiliz bidalitako mezueei erantzunak
@ -241,7 +242,7 @@ API-aren inplementazioaren bidez egin da (\href{https://github.com/python-telegr
\label{sec:datuak}
Sare neuronalak ikasteko datuak behar ditu. Horretarako, filmen azpitituluak
erabili nahi izan dira, baina, euskaraz, ez dago hauen datubase formalik,
ondorioz, normalizazio prozesu bat egin behar izan da erabilitako azpitituluei
ondorioz, normalizazio prozesu bat egin behar izan zaie azpitituluei
erabili ahal izateko.
\subsection{Azpitituluen iturria}
@ -249,7 +250,7 @@ erabili ahal izateko.
Azpitituluak \textit{\href{http://www.opensubtitles.org/}{OpenSubtitles}} webgunetik hartu dira. Bertan hizkuntza
eta film askotako azpitituluak daude eskuragai.
Kasu honetan, euskarazko azpitituluen datubasea erabili da, galdera erantzun
Kasu honetan, euskarazko azpitituluen datubasea erabili da, galdera-erantzun
sistema euskarazkoa egin nahi delako.
Datu base honetan azpitituluak lerroetan daude banatuta filmetan agertzen diren
@ -282,8 +283,8 @@ Karaktere horiek zeintzuk diren jakinda, horien ezabaketa egin da.
\subsubsection{Zenbait lerroko esaldien identifikazioa}
\label{sec:zenb-lerr-esald}
Azpitituluak ez daude galdera eta erantzun modura ordenatuta, izan ere, filmean
esaldiak datozten moduan agertzen datubasean. Hau da, lerro bakoitiak ez dute
zertan galderak izan eta bikoitiak erantzunak. Erabateko kaosa dago alde
esaldiak datozten moduan agertzen dira datubasean. Hau da, lerro bakoitiak ez
dute zertan galderak izan eta bikoitiak erantzunak. Erabateko kaosa dago alde
horretan, film batean pertsonaia batek zerbait esaten badu, beste pertsonaia bat
ez dago erantzutera behartuta. Ez hori bakarrik, esaldi askok ez dute erantzunik
behar edo esaldiak luzeegiak direnean, azpitituluen egileak zenbait lerrotan
@ -427,19 +428,19 @@ egokiak ikasteko.
\label{sec:ondorioak}
Garbi dago emaitza hauek ez direla onak eta sistema hau, dagoen moduan, ezin
dela produkzioan erabili. Itzultzen diren erantzunak sinpleegiak dira askotan
eta multzo txiki bateko galdera bat egin ezean emaitza arraroak hasten da
ematen. Hori gertatzearen arrazoia, zati batean sistemarekin dago erlazionatuta
eta beste batean erabilitako datubasearekin, izan ere, erantzun motzak
saihesteko erabilitako metodoa ez da erabili zitekeen hoberena. Gainera,
datubasearen izaera kaotikoak arazo gehiegi ematen ditu ikasketa garaian.
eta multzo txiki bateko galdera bat egin ezean erantzun arraroak ematen dira.
Hori gertatzearen arrazoia, zati batean sistemarekin dago erlazionatuta eta
beste batean erabilitako datubasearekin, izan ere, erantzun motzak saihesteko
erabilitako metodoa ez da erabili zitekeen hoberena. Gainera, datubasearen
izaera kaotikoak arazo gehiegi ematen ditu ikasketa garaian.
Seguruenik, galera funtzioa aldatu beharko litzateke eta \textit{Perplexity}-an
oinarritutako beste bat erabili, dagoeneko badaudelako hori erabiltzen duten
ereduak.
ereduak \cite{meena2020}.
Horrez gain, gaur egun, mota honetako galdera erantzun sistema bat
inplementatzeko ideia hoberena \textit{Transformer} motako eredu bat erabiltzea
litzateke, emaitza oso onak ematen ari baitira horrelakoak erabiltzen dituzten
sistemek \cite{meena2020}.
sistemek.
\newpage
\bibliography{acl2020}