README + data refresh

This commit is contained in:
i.ortega 2020-05-03 02:02:42 +02:00
parent b5f573f927
commit 07ef13907d
2 changed files with 256118 additions and 253094 deletions

37
README.org Normal file
View File

@ -0,0 +1,37 @@
#+TITLE: IRAKURRI
* Telegram bidez galdera eta erantzun sistema
** Antolakuntza
- ./preprocessing: Sare neuronalak behar dituen datuak lortzeko erabilitako
gidoiak:
+ ./preprocessing/preprocess.sh: azpitituluen fitxategi bat emanda, garbiketa
bat egiten du /clean.sh/ gidoiaren bidez, irteera sare neuronalak onartzen
duen *tsv* formatuan itzuliz.
+ ./preprocessing/clean.sh: Ondorengo ezaugarriak dituzten lerroak garbitu
egiten dira:
- Marra (-, , —, ― eta _) karaktereak ezabatu egiten dira lerro baten hasieran
badaude.
- Batera dauden eta " karaktereaz hasten diren lerroak batu egiten dira
pertsona berdinak esaten baititu.
- Komaz (,), puntukomaz (;) edo bi puntuz (:) bukatzen diren lerroak hurrengoarekin
lotu.
- Jarraian dauden baina errepikatuak diren lerroak ezabatu.
+ ./preprocessing/until-no-change.sh: Emandako lehen agindua exekutatzen du
eta bigarrengoa aurrekoaren irteerarekin exekutatuko du emaitza berdina duen
arte.
+ ./preprocessing/preprocess-simple.sh: Marra karaktereak ezabatzen ditu
lerroen hasieratik, errepikatuak ezabatzen ditu eta *tsv* formatu egokian
itzultzen da emaitza.
- ./data: Sare neuronalak behar dituen datuak ditu:
+ ./data/eu.txt: Euskarazko azpitituluak aldaketarik gabe.
+ ./data/eu_train.tsv: Euskarazko azpitituluak *tsv* formatu egokian
egokitzapena eginda.
+ ./data/eu_train_simple.tsv: Euskarazko azpitituluak *tsv* formatu egokian
egokitzapen oso sinplea erabilita.
- ./model: Sare neuronala entrenatu ondoren sortuko den modeloa gordetzeko
direktorioa.
- ./src: Sare neuronalaren kode iturburua gordetzeko direktorioa.
** Egilea
- Izena: Iñigo Ortega
- Helbide elektronikoa: i.ortega@disroot.org

File diff suppressed because it is too large Load Diff