hp-dial/README.org

38 lines
1.7 KiB
Org Mode
Raw Normal View History

2020-05-03 02:02:42 +02:00
#+TITLE: IRAKURRI
* Telegram bidez galdera eta erantzun sistema
** Antolakuntza
2020-05-03 02:09:07 +02:00
- *./preprocessing*: Sare neuronalak behar dituen datuak lortzeko erabilitako
2020-05-03 02:02:42 +02:00
gidoiak:
2020-05-03 02:09:07 +02:00
+ *./preprocessing/preprocess.sh*: azpitituluen fitxategi bat emanda, garbiketa
2020-05-03 02:02:42 +02:00
bat egiten du /clean.sh/ gidoiaren bidez, irteera sare neuronalak onartzen
duen *tsv* formatuan itzuliz.
2020-05-03 02:09:07 +02:00
+ *./preprocessing/clean.sh*: Ondorengo ezaugarriak dituzten lerroak garbitu
2020-05-03 02:02:42 +02:00
egiten dira:
- Marra (-, , —, ― eta _) karaktereak ezabatu egiten dira lerro baten hasieran
badaude.
- Batera dauden eta " karaktereaz hasten diren lerroak batu egiten dira
pertsona berdinak esaten baititu.
- Komaz (,), puntukomaz (;) edo bi puntuz (:) bukatzen diren lerroak hurrengoarekin
lotu.
- Jarraian dauden baina errepikatuak diren lerroak ezabatu.
2020-05-03 02:09:07 +02:00
+ *./preprocessing/until-no-change.sh*: Emandako lehen agindua exekutatzen du
2020-05-03 02:02:42 +02:00
eta bigarrengoa aurrekoaren irteerarekin exekutatuko du emaitza berdina duen
arte.
2020-05-03 02:09:07 +02:00
+ *./preprocessing/preprocess-simple.sh*: Marra karaktereak ezabatzen ditu
2020-05-03 02:02:42 +02:00
lerroen hasieratik, errepikatuak ezabatzen ditu eta *tsv* formatu egokian
itzultzen da emaitza.
2020-05-03 02:09:07 +02:00
- *./data: Sare neuronalak behar dituen datuak ditu:
+ *./data/eu.txt*: Euskarazko azpitituluak aldaketarik gabe.
+ *./data/eu_train.tsv*: Euskarazko azpitituluak *tsv* formatu egokian
2020-05-03 02:02:42 +02:00
egokitzapena eginda.
2020-05-03 02:09:07 +02:00
+ *./data/eu_train_simple.tsv*: Euskarazko azpitituluak *tsv* formatu egokian
2020-05-03 02:02:42 +02:00
egokitzapen oso sinplea erabilita.
2020-05-03 02:09:07 +02:00
- *./model*: Sare neuronala entrenatu ondoren sortuko den modeloa gordetzeko
2020-05-03 02:02:42 +02:00
direktorioa.
2020-05-03 02:09:07 +02:00
- *./src*: Sare neuronalaren kode iturburua gordetzeko direktorioa.
2020-05-03 02:02:42 +02:00
** Egilea
- Izena: Iñigo Ortega
- Helbide elektronikoa: i.ortega@disroot.org