hp-dial/README.org

55 lines
2.6 KiB
Org Mode
Raw Permalink Normal View History

2020-05-03 02:02:42 +02:00
#+TITLE: IRAKURRI
Biltegi hau unibertsitateko lan baten bertsio kontrolerako dago pentsatuta. Zure
erantzukizuna da honekin egiten duzuna.
This repository was created to have some version control for a university
project. Use it at your risk.
* Telegram bidezko galdera eta erantzun sistema
Biltegi honekin Telegram bidezko galdera-erantzun sistema bat inplementatzen da.
Horretarako, pyTorch liburutegia eta Seq2Seq eredua erabiltzen da. Erabilitako
ereduaren informazio gehiagorako: https://arxiv.org/abs/1409.0473
Baita ere, aurkezpen eta txostenaren fitxategiak daude hemen.
2020-05-03 02:02:42 +02:00
** Antolakuntza
2020-05-03 02:09:07 +02:00
- *./preprocessing*: Sare neuronalak behar dituen datuak lortzeko erabilitako
2020-05-03 02:02:42 +02:00
gidoiak:
2020-05-03 02:09:07 +02:00
+ *./preprocessing/preprocess.sh*: azpitituluen fitxategi bat emanda, garbiketa
2020-05-03 02:02:42 +02:00
bat egiten du /clean.sh/ gidoiaren bidez, irteera sare neuronalak onartzen
duen *tsv* formatuan itzuliz.
2020-05-03 02:09:07 +02:00
+ *./preprocessing/clean.sh*: Ondorengo ezaugarriak dituzten lerroak garbitu
2020-05-03 02:02:42 +02:00
egiten dira:
- Marra (-, , —, ― eta _) karaktereak ezabatu egiten dira lerro baten hasieran
badaude.
- Batera dauden eta " karaktereaz hasten diren lerroak batu egiten dira
pertsona berdinak esaten baititu.
- Komaz (,), puntukomaz (;) edo bi puntuz (:) bukatzen diren lerroak hurrengoarekin
lotu.
- Jarraian dauden baina errepikatuak diren lerroak ezabatu.
2020-05-03 02:09:07 +02:00
+ *./preprocessing/until-no-change.sh*: Emandako lehen agindua exekutatzen du
2020-05-03 02:02:42 +02:00
eta bigarrengoa aurrekoaren irteerarekin exekutatuko du emaitza berdina duen
arte.
2020-05-03 02:09:07 +02:00
+ *./preprocessing/preprocess-simple.sh*: Marra karaktereak ezabatzen ditu
2020-05-03 02:02:42 +02:00
lerroen hasieratik, errepikatuak ezabatzen ditu eta *tsv* formatu egokian
itzultzen da emaitza.
2020-05-03 02:09:07 +02:00
- *./data: Sare neuronalak behar dituen datuak ditu:
+ *./data/eu.txt*: Euskarazko azpitituluak aldaketarik gabe.
+ *./data/eu_train.tsv*: Euskarazko azpitituluak *tsv* formatu egokian
2020-05-03 02:02:42 +02:00
egokitzapena eginda.
2020-05-03 02:09:07 +02:00
+ *./data/eu_train_simple.tsv*: Euskarazko azpitituluak *tsv* formatu egokian
2020-05-03 02:02:42 +02:00
egokitzapen oso sinplea erabilita.
2020-05-03 02:09:07 +02:00
- *./model*: Sare neuronala entrenatu ondoren sortuko den modeloa gordetzeko
direktorioa. Ez dago azkeneko modeloaren bertsioa. Bertakoa zaharra da.
2020-05-03 02:09:07 +02:00
- *./src*: Sare neuronalaren kode iturburua gordetzeko direktorioa.
+ *test-system.py*: Sistema probatzeko gidoia.
+ *train.py*: Sistema entrenatzeko gidoia.
+ *bot.py*: Telegrameko bot-a pizteko gidoia. Ordezkatu zure "INSERT YOUR
TOKEN HERE" testua, zure bot-aren tokenarekin.
- *./presentation*: Aurkezpena eta honetarako fitxategiak.
- *./txostena*: Txostena eta honetarako fitxategiak.
2020-05-03 02:02:42 +02:00
** Egilea
- Izena: Iñigo Ortega
- Helbide elektronikoa: i.ortega@disroot.org