Txostenaren eguneraketa

2020-05-21 23:10:58 +02:00 · 2020-05-21 23:10:58 +02:00 · 8c54e9b123
parent 6ddbede5a4
commit 8c54e9b123
2 changed files with 25 additions and 24 deletions
--- a/txostena/txostena.pdf
+++ b/txostena/txostena.pdf
--- a/txostena/txostena.tex
+++ b/txostena/txostena.tex
@ -65,7 +65,7 @@ garrantzia izaten, honek berak proposatutako Turing probaren ondorioz,
 elkarrizketa bateko ondoko partaidea gizakia den edo ez egiaztatzeko erabili
 daitekeena. Hain zuzen, 1950tik dago elkarrizketen partaideak gizakiak diren edo
 ez egiaztatzeko interesa, ez proba huts bat bezala, baizik eta gizaki bat eta
-makina bat desberdintzeko zailagoa izan dadin.
+makina bat desberdintzeko zailagoa izan daitezen sistemak sortzeko.

 Helburu horretarako, sistema asko eraiki dira, horien artean ospetsuenak, IBM
 Watson\texttrademark, Alexa\texttrademark\ edo Siri\texttrademark. Hasieran,
@ -76,12 +76,12 @@ haren moldakortasunagatik.
 Hori horrela izanik, azken urteotan helburu antzekoak dituzten aplikazioak sortu
 dira: Meena (Googleko zientzialari batzuek sortutako elkarrizketa bot bat
 \cite{meena2020}), Facebook Messenger-eko bot txertatuak \cite{facebook2016} edo
-bezeroaren arretarako zerbitzuak eskaintzeko \cite{customerservice2019} milioka
-Euro aurreztuz.
+bezeroaren arretarako zerbitzuak eskaintzeko botak \cite{customerservice2019} (milioka
+Euro aurrezten dituztenak).

 Kasu honetan, baita ere, ikasketa automatiko bidezko elkarrizketen eredu bat
 erabili eta inplementatu da. Eredu horren, bere hobekuntzen eta emaitzei buruzko
-jarduna da artikulu hau. Honen egiazkotasuna eta lekukukoa hurrengoa
+jarduna da artikulu hau. Honen egiazkotasuna eta lekukoa hurrengoa
 inplementazioa da: \href{https://git.disroot.org/i.ortega/hp-dial}{Git biltegia}.


@ -90,7 +90,7 @@ inplementazioa da: \href{https://git.disroot.org/i.ortega/hp-dial}{Git biltegia}
 Lan honetan Seq2Seq sare neuronalen arkitektura erabiltzen da. Hau, lehen aldiz,
 Googlen hasi zen erabiltzen. Hain zuzen, Sutskever et al. 2014ean ikertzaileek
 hasi ziren erabiltzen \cite{sutskever2014}. Lehen eredu honek kodetzaile eta dekodetzaile bat lotzea
-proposatu zuen (Figure \ref{fig:seq2seq}).
+proposatu zuen azken honetan egoerako irteera sarrera bezala erabiliz (Figure \ref{fig:seq2seq}).

 \begin{figure}[h]
  \centering
@ -144,7 +144,7 @@ hobekuntza ere egin zaizkio.
 Sistemak, jatorriz, ingeleseko tokenizatzaile bat erabiltzen zuen ikasketan,
 ingeleseko elkarrizketak izateko prestatuta baitzegoen. Ordea, kasu honetan,
 euskarazko elkarrizketak eduki nahi dira. Horretarako, \textit{SpaCy}
-liburutegiak eskainitako euskarazko oinarrizko tokenizatzaile bat erabali da.
+liburutegiak eskainitako euskarazko oinarrizko tokenizatzaile bat erabili da.


 \subsection{Erantzun motzen aurkako neurriak}
@ -160,7 +160,7 @@ penalizazioa eta honen gainean aplikatutako Rayleigh distribuzio
 probabilitiskoa. Bi hauek ikasketan aplikatu dira, hain zuzen, galera funtzioan.

 BP itzulpen automatikoan erabiltzen den penalizazio mota bat da (normalean
-\textit{BLEU} izeneko metodo batenpean \cite{Papineni02bleu:a}). Honen helburua,
+\textit{BLEU} izeneko metodo baten pean \cite{Papineni02bleu:a}). Honen helburua,
 kasu horretan, ereduak egindako itzulpen baten luzera errealarenarekin
 konparatzea da, ereduak itzultzen duena motzagoa balitz penalizazio bat
 aplikatuz.
@ -171,8 +171,8 @@ Honelakoa litzateke bere ekuazioa:
  \label{eq:1}
  BP(c, r)=
 \begin{cases}
-    1,              & \text{if } c > r\\
-    {\rm e}^{1-\frac{r}{c}},& \text{otherwise}
+    1,              & \text{baldin } c > r\\
+    {\rm e}^{1-\frac{r}{c}},& \text{bestela}
 \end{cases}
 \end{equation}

@ -210,7 +210,8 @@ Parametroak horrela definitu dira:
  x = y \cdot 5.8 + 0.2
 \end{equation}

-Honelako kurba bat lortuz:
+Lortutako kurba, honen balio maximo posiblearekin zatitzen da 0 eta 1-en artean
+mantentzeko (Figure \ref{fig:rayleigh-kurba}).

 \begin{figure}[h]
  \centering
@ -221,14 +222,14 @@ Honelako kurba bat lortuz:
 \end{figure}

 Distribuzio hau BP-ren irteerari aplikatu zaio, honela, ereduak ez du erantzunen
-luzerarekiko optimizatzen, orain BP-k $0.75$ aldera dagoen balio bat itzultzen
-denean ematen baita balio maximoa ($1$), beti erantzun luzeagoak lortzea
+luzerarekiko optimizatzen. Orain BP-k $0.75$ aldera dagoen balio bat itzultzen
+duenean ematen baita balio maximoa ($1$), beti erantzun luzeagoak lortzea
 eragotziz eta motzagoak (probabilitate txikiagoarekin izan arren) onartuz.

 \section{Telegram zerbitzuara esleipena}
 \label{sec:telegr-zerb-esle}

-Lan honen helburua elkarrizketarako sistema bat sortzea da, baina horrentzako
+Lan honen helburua elkarrizketarako sistema bat sortzea da, baina horretarako
 interfaze bat behar da. Hori Telegram-ek eskaintzen duen \textit{Bot}en API a
 erabiliz egin da. Hain zuzen, Telegram-eko \textit{Bot} bat inplementatu da
 sistemak emandako irteera eredu bat erabiliz bidalitako mezueei erantzunak
@ -241,7 +242,7 @@ API-aren inplementazioaren bidez egin da (\href{https://github.com/python-telegr
 \label{sec:datuak}
 Sare neuronalak ikasteko datuak behar ditu. Horretarako, filmen azpitituluak
 erabili nahi izan dira, baina, euskaraz, ez dago hauen datubase formalik,
-ondorioz, normalizazio prozesu bat egin behar izan da erabilitako azpitituluei
+ondorioz, normalizazio prozesu bat egin behar izan zaie azpitituluei
 erabili ahal izateko.

 \subsection{Azpitituluen iturria}
@ -249,7 +250,7 @@ erabili ahal izateko.
 Azpitituluak \textit{\href{http://www.opensubtitles.org/}{OpenSubtitles}} webgunetik hartu dira. Bertan hizkuntza
 eta film askotako azpitituluak daude eskuragai.

-Kasu honetan, euskarazko azpitituluen datubasea erabili da, galdera erantzun
+Kasu honetan, euskarazko azpitituluen datubasea erabili da, galdera-erantzun
 sistema euskarazkoa egin nahi delako.

 Datu base honetan azpitituluak lerroetan daude banatuta filmetan agertzen diren
@ -282,8 +283,8 @@ Karaktere horiek zeintzuk diren jakinda, horien ezabaketa egin da.
 \subsubsection{Zenbait lerroko esaldien identifikazioa}
 \label{sec:zenb-lerr-esald}
 Azpitituluak ez daude galdera eta erantzun modura ordenatuta, izan ere, filmean
-esaldiak datozten moduan agertzen datubasean. Hau da, lerro bakoitiak ez dute
-zertan galderak izan eta bikoitiak erantzunak. Erabateko kaosa dago alde
+esaldiak datozten moduan agertzen dira datubasean. Hau da, lerro bakoitiak ez
+dute zertan galderak izan eta bikoitiak erantzunak. Erabateko kaosa dago alde
 horretan, film batean pertsonaia batek zerbait esaten badu, beste pertsonaia bat
 ez dago erantzutera behartuta. Ez hori bakarrik, esaldi askok ez dute erantzunik
 behar edo esaldiak luzeegiak direnean, azpitituluen egileak zenbait lerrotan
@ -427,19 +428,19 @@ egokiak ikasteko.
 \label{sec:ondorioak}
 Garbi dago emaitza hauek ez direla onak eta sistema hau, dagoen moduan, ezin
 dela produkzioan erabili. Itzultzen diren erantzunak sinpleegiak dira askotan
-eta multzo txiki bateko galdera bat egin ezean emaitza arraroak hasten da
-ematen. Hori gertatzearen arrazoia, zati batean sistemarekin dago erlazionatuta
-eta beste batean erabilitako datubasearekin, izan ere, erantzun motzak
-saihesteko erabilitako metodoa ez da erabili zitekeen hoberena. Gainera,
-datubasearen izaera kaotikoak arazo gehiegi ematen ditu ikasketa garaian.
+eta multzo txiki bateko galdera bat egin ezean erantzun arraroak ematen dira.
+Hori gertatzearen arrazoia, zati batean sistemarekin dago erlazionatuta eta
+beste batean erabilitako datubasearekin, izan ere, erantzun motzak saihesteko
+erabilitako metodoa ez da erabili zitekeen hoberena. Gainera, datubasearen
+izaera kaotikoak arazo gehiegi ematen ditu ikasketa garaian.

 Seguruenik, galera funtzioa aldatu beharko litzateke eta \textit{Perplexity}-an
 oinarritutako beste bat erabili, dagoeneko badaudelako hori erabiltzen duten
-ereduak.
+ereduak \cite{meena2020}.
 Horrez gain, gaur egun, mota honetako galdera erantzun sistema bat
 inplementatzeko ideia hoberena \textit{Transformer} motako eredu bat erabiltzea
 litzateke, emaitza oso onak ematen ari baitira horrelakoak erabiltzen dituzten
-sistemek \cite{meena2020}.
+sistemek.

 \newpage
 \bibliography{acl2020}