2.6 KiB
IRAKURRI
Biltegi hau unibertsitateko lan baten bertsio kontrolerako dago pentsatuta. Zure erantzukizuna da honekin egiten duzuna. This repository was created to have some version control for a university project. Use it at your risk.
Telegram bidezko galdera eta erantzun sistema
Biltegi honekin Telegram bidezko galdera-erantzun sistema bat inplementatzen da. Horretarako, pyTorch liburutegia eta Seq2Seq eredua erabiltzen da. Erabilitako ereduaren informazio gehiagorako: https://arxiv.org/abs/1409.0473
Baita ere, aurkezpen eta txostenaren fitxategiak daude hemen.
Antolakuntza
-
./preprocessing: Sare neuronalak behar dituen datuak lortzeko erabilitako gidoiak:
- ./preprocessing/preprocess.sh: azpitituluen fitxategi bat emanda, garbiketa bat egiten du clean.sh gidoiaren bidez, irteera sare neuronalak onartzen duen tsv formatuan itzuliz.
-
./preprocessing/clean.sh: Ondorengo ezaugarriak dituzten lerroak garbitu egiten dira:
- Marra (-, –, —, ― eta _) karaktereak ezabatu egiten dira lerro baten hasieran badaude.
- Batera dauden eta " karaktereaz hasten diren lerroak batu egiten dira pertsona berdinak esaten baititu.
- Komaz (,), puntukomaz (;) edo bi puntuz (:) bukatzen diren lerroak hurrengoarekin lotu.
- Jarraian dauden baina errepikatuak diren lerroak ezabatu.
- ./preprocessing/until-no-change.sh: Emandako lehen agindua exekutatzen du eta bigarrengoa aurrekoaren irteerarekin exekutatuko du emaitza berdina duen arte.
- ./preprocessing/preprocess-simple.sh: Marra karaktereak ezabatzen ditu lerroen hasieratik, errepikatuak ezabatzen ditu eta tsv formatu egokian itzultzen da emaitza.
-
*./data: Sare neuronalak behar dituen datuak ditu:
- ./data/eu.txt: Euskarazko azpitituluak aldaketarik gabe.
- ./data/eu_train.tsv: Euskarazko azpitituluak tsv formatu egokian egokitzapena eginda.
- ./data/eu_train_simple.tsv: Euskarazko azpitituluak tsv formatu egokian egokitzapen oso sinplea erabilita.
- ./model: Sare neuronala entrenatu ondoren sortuko den modeloa gordetzeko direktorioa. Ez dago azkeneko modeloaren bertsioa. Bertakoa zaharra da.
-
./src: Sare neuronalaren kode iturburua gordetzeko direktorioa.
- test-system.py: Sistema probatzeko gidoia.
- train.py: Sistema entrenatzeko gidoia.
- bot.py: Telegrameko bot-a pizteko gidoia. Ordezkatu zure "INSERT YOUR TOKEN HERE" testua, zure bot-aren tokenarekin.
- ./presentation: Aurkezpena eta honetarako fitxategiak.
- ./txostena: Txostena eta honetarako fitxategiak.
Egilea
- Izena: Iñigo Ortega
- Helbide elektronikoa: i.ortega@disroot.org