2020-05-03 02:02:42 +02:00
|
|
|
|
#+TITLE: IRAKURRI
|
|
|
|
|
|
2020-05-21 23:28:40 +02:00
|
|
|
|
Biltegi hau unibertsitateko lan baten bertsio kontrolerako dago pentsatuta. Zure
|
|
|
|
|
erantzukizuna da honekin egiten duzuna.
|
|
|
|
|
This repository was created to have some version control for a university
|
|
|
|
|
project. Use it at your risk.
|
|
|
|
|
|
|
|
|
|
* Telegram bidezko galdera eta erantzun sistema
|
|
|
|
|
Biltegi honekin Telegram bidezko galdera-erantzun sistema bat inplementatzen da.
|
|
|
|
|
Horretarako, pyTorch liburutegia eta Seq2Seq eredua erabiltzen da. Erabilitako
|
|
|
|
|
ereduaren informazio gehiagorako: https://arxiv.org/abs/1409.0473
|
|
|
|
|
|
|
|
|
|
Baita ere, aurkezpen eta txostenaren fitxategiak daude hemen.
|
|
|
|
|
|
2020-05-03 02:02:42 +02:00
|
|
|
|
** Antolakuntza
|
2020-05-03 02:09:07 +02:00
|
|
|
|
- *./preprocessing*: Sare neuronalak behar dituen datuak lortzeko erabilitako
|
2020-05-03 02:02:42 +02:00
|
|
|
|
gidoiak:
|
2020-05-03 02:09:07 +02:00
|
|
|
|
+ *./preprocessing/preprocess.sh*: azpitituluen fitxategi bat emanda, garbiketa
|
2020-05-03 02:02:42 +02:00
|
|
|
|
bat egiten du /clean.sh/ gidoiaren bidez, irteera sare neuronalak onartzen
|
|
|
|
|
duen *tsv* formatuan itzuliz.
|
2020-05-03 02:09:07 +02:00
|
|
|
|
+ *./preprocessing/clean.sh*: Ondorengo ezaugarriak dituzten lerroak garbitu
|
2020-05-03 02:02:42 +02:00
|
|
|
|
egiten dira:
|
|
|
|
|
- Marra (-, –, —, ― eta _) karaktereak ezabatu egiten dira lerro baten hasieran
|
|
|
|
|
badaude.
|
|
|
|
|
- Batera dauden eta " karaktereaz hasten diren lerroak batu egiten dira
|
|
|
|
|
pertsona berdinak esaten baititu.
|
|
|
|
|
- Komaz (,), puntukomaz (;) edo bi puntuz (:) bukatzen diren lerroak hurrengoarekin
|
|
|
|
|
lotu.
|
|
|
|
|
- Jarraian dauden baina errepikatuak diren lerroak ezabatu.
|
2020-05-03 02:09:07 +02:00
|
|
|
|
+ *./preprocessing/until-no-change.sh*: Emandako lehen agindua exekutatzen du
|
2020-05-03 02:02:42 +02:00
|
|
|
|
eta bigarrengoa aurrekoaren irteerarekin exekutatuko du emaitza berdina duen
|
|
|
|
|
arte.
|
2020-05-03 02:09:07 +02:00
|
|
|
|
+ *./preprocessing/preprocess-simple.sh*: Marra karaktereak ezabatzen ditu
|
2020-05-03 02:02:42 +02:00
|
|
|
|
lerroen hasieratik, errepikatuak ezabatzen ditu eta *tsv* formatu egokian
|
|
|
|
|
itzultzen da emaitza.
|
2020-05-03 02:09:07 +02:00
|
|
|
|
- *./data: Sare neuronalak behar dituen datuak ditu:
|
|
|
|
|
+ *./data/eu.txt*: Euskarazko azpitituluak aldaketarik gabe.
|
|
|
|
|
+ *./data/eu_train.tsv*: Euskarazko azpitituluak *tsv* formatu egokian
|
2020-05-03 02:02:42 +02:00
|
|
|
|
egokitzapena eginda.
|
2020-05-03 02:09:07 +02:00
|
|
|
|
+ *./data/eu_train_simple.tsv*: Euskarazko azpitituluak *tsv* formatu egokian
|
2020-05-03 02:02:42 +02:00
|
|
|
|
egokitzapen oso sinplea erabilita.
|
2020-05-03 02:09:07 +02:00
|
|
|
|
- *./model*: Sare neuronala entrenatu ondoren sortuko den modeloa gordetzeko
|
2020-05-21 23:28:40 +02:00
|
|
|
|
direktorioa. Ez dago azkeneko modeloaren bertsioa. Bertakoa zaharra da.
|
2020-05-03 02:09:07 +02:00
|
|
|
|
- *./src*: Sare neuronalaren kode iturburua gordetzeko direktorioa.
|
2020-05-21 23:28:40 +02:00
|
|
|
|
+ *test-system.py*: Sistema probatzeko gidoia.
|
|
|
|
|
+ *train.py*: Sistema entrenatzeko gidoia.
|
|
|
|
|
+ *bot.py*: Telegrameko bot-a pizteko gidoia. Ordezkatu zure "INSERT YOUR
|
|
|
|
|
TOKEN HERE" testua, zure bot-aren tokenarekin.
|
|
|
|
|
- *./presentation*: Aurkezpena eta honetarako fitxategiak.
|
|
|
|
|
- *./txostena*: Txostena eta honetarako fitxategiak.
|
2020-05-03 02:02:42 +02:00
|
|
|
|
|
|
|
|
|
** Egilea
|
|
|
|
|
- Izena: Iñigo Ortega
|
|
|
|
|
- Helbide elektronikoa: i.ortega@disroot.org
|