README + data refresh
This commit is contained in:
parent
b5f573f927
commit
07ef13907d
|
@ -0,0 +1,37 @@
|
|||
#+TITLE: IRAKURRI
|
||||
|
||||
* Telegram bidez galdera eta erantzun sistema
|
||||
** Antolakuntza
|
||||
- ./preprocessing: Sare neuronalak behar dituen datuak lortzeko erabilitako
|
||||
gidoiak:
|
||||
+ ./preprocessing/preprocess.sh: azpitituluen fitxategi bat emanda, garbiketa
|
||||
bat egiten du /clean.sh/ gidoiaren bidez, irteera sare neuronalak onartzen
|
||||
duen *tsv* formatuan itzuliz.
|
||||
+ ./preprocessing/clean.sh: Ondorengo ezaugarriak dituzten lerroak garbitu
|
||||
egiten dira:
|
||||
- Marra (-, –, —, ― eta _) karaktereak ezabatu egiten dira lerro baten hasieran
|
||||
badaude.
|
||||
- Batera dauden eta " karaktereaz hasten diren lerroak batu egiten dira
|
||||
pertsona berdinak esaten baititu.
|
||||
- Komaz (,), puntukomaz (;) edo bi puntuz (:) bukatzen diren lerroak hurrengoarekin
|
||||
lotu.
|
||||
- Jarraian dauden baina errepikatuak diren lerroak ezabatu.
|
||||
+ ./preprocessing/until-no-change.sh: Emandako lehen agindua exekutatzen du
|
||||
eta bigarrengoa aurrekoaren irteerarekin exekutatuko du emaitza berdina duen
|
||||
arte.
|
||||
+ ./preprocessing/preprocess-simple.sh: Marra karaktereak ezabatzen ditu
|
||||
lerroen hasieratik, errepikatuak ezabatzen ditu eta *tsv* formatu egokian
|
||||
itzultzen da emaitza.
|
||||
- ./data: Sare neuronalak behar dituen datuak ditu:
|
||||
+ ./data/eu.txt: Euskarazko azpitituluak aldaketarik gabe.
|
||||
+ ./data/eu_train.tsv: Euskarazko azpitituluak *tsv* formatu egokian
|
||||
egokitzapena eginda.
|
||||
+ ./data/eu_train_simple.tsv: Euskarazko azpitituluak *tsv* formatu egokian
|
||||
egokitzapen oso sinplea erabilita.
|
||||
- ./model: Sare neuronala entrenatu ondoren sortuko den modeloa gordetzeko
|
||||
direktorioa.
|
||||
- ./src: Sare neuronalaren kode iturburua gordetzeko direktorioa.
|
||||
|
||||
** Egilea
|
||||
- Izena: Iñigo Ortega
|
||||
- Helbide elektronikoa: i.ortega@disroot.org
|
509175
data/eu_train.tsv
509175
data/eu_train.tsv
File diff suppressed because it is too large
Load Diff
Loading…
Reference in New Issue