hp-dial/README.org

38 lines
1.7 KiB
Org Mode
Raw Normal View History

2020-05-03 02:02:42 +02:00
#+TITLE: IRAKURRI
* Telegram bidez galdera eta erantzun sistema
** Antolakuntza
- ./preprocessing: Sare neuronalak behar dituen datuak lortzeko erabilitako
gidoiak:
+ ./preprocessing/preprocess.sh: azpitituluen fitxategi bat emanda, garbiketa
bat egiten du /clean.sh/ gidoiaren bidez, irteera sare neuronalak onartzen
duen *tsv* formatuan itzuliz.
+ ./preprocessing/clean.sh: Ondorengo ezaugarriak dituzten lerroak garbitu
egiten dira:
- Marra (-, , —, ― eta _) karaktereak ezabatu egiten dira lerro baten hasieran
badaude.
- Batera dauden eta " karaktereaz hasten diren lerroak batu egiten dira
pertsona berdinak esaten baititu.
- Komaz (,), puntukomaz (;) edo bi puntuz (:) bukatzen diren lerroak hurrengoarekin
lotu.
- Jarraian dauden baina errepikatuak diren lerroak ezabatu.
+ ./preprocessing/until-no-change.sh: Emandako lehen agindua exekutatzen du
eta bigarrengoa aurrekoaren irteerarekin exekutatuko du emaitza berdina duen
arte.
+ ./preprocessing/preprocess-simple.sh: Marra karaktereak ezabatzen ditu
lerroen hasieratik, errepikatuak ezabatzen ditu eta *tsv* formatu egokian
itzultzen da emaitza.
- ./data: Sare neuronalak behar dituen datuak ditu:
+ ./data/eu.txt: Euskarazko azpitituluak aldaketarik gabe.
+ ./data/eu_train.tsv: Euskarazko azpitituluak *tsv* formatu egokian
egokitzapena eginda.
+ ./data/eu_train_simple.tsv: Euskarazko azpitituluak *tsv* formatu egokian
egokitzapen oso sinplea erabilita.
- ./model: Sare neuronala entrenatu ondoren sortuko den modeloa gordetzeko
direktorioa.
- ./src: Sare neuronalaren kode iturburua gordetzeko direktorioa.
** Egilea
- Izena: Iñigo Ortega
- Helbide elektronikoa: i.ortega@disroot.org