Muturretik muturrerako solasaldi sistema. Egilea: Iñigo Ortega
Go to file
i.ortega db476dbaf3 First models upload. Only short answers. 2020-05-04 23:11:45 +02:00
data README + data refresh 2020-05-03 02:02:42 +02:00
model First models upload. Only short answers. 2020-05-04 23:11:45 +02:00
preprocessing Data using simple preprocessing 2020-05-03 01:28:33 +02:00
src gitignore + first sources 2020-05-04 18:27:12 +02:00
.gitignore gitignore + first sources 2020-05-04 18:27:12 +02:00
README.org More bold on README 2020-05-03 02:09:07 +02:00
requirements.txt eu data and the shell scripts used to create it 2020-05-03 01:23:27 +02:00

README.org

IRAKURRI

Telegram bidez galdera eta erantzun sistema

Antolakuntza

  • ./preprocessing: Sare neuronalak behar dituen datuak lortzeko erabilitako gidoiak:

    • ./preprocessing/preprocess.sh: azpitituluen fitxategi bat emanda, garbiketa bat egiten du clean.sh gidoiaren bidez, irteera sare neuronalak onartzen duen tsv formatuan itzuliz.
    • ./preprocessing/clean.sh: Ondorengo ezaugarriak dituzten lerroak garbitu egiten dira:

      • Marra (-, , —, ― eta _) karaktereak ezabatu egiten dira lerro baten hasieran badaude.
      • Batera dauden eta " karaktereaz hasten diren lerroak batu egiten dira pertsona berdinak esaten baititu.
      • Komaz (,), puntukomaz (;) edo bi puntuz (:) bukatzen diren lerroak hurrengoarekin lotu.
      • Jarraian dauden baina errepikatuak diren lerroak ezabatu.
    • ./preprocessing/until-no-change.sh: Emandako lehen agindua exekutatzen du eta bigarrengoa aurrekoaren irteerarekin exekutatuko du emaitza berdina duen arte.
    • ./preprocessing/preprocess-simple.sh: Marra karaktereak ezabatzen ditu lerroen hasieratik, errepikatuak ezabatzen ditu eta tsv formatu egokian itzultzen da emaitza.
  • *./data: Sare neuronalak behar dituen datuak ditu:

    • ./data/eu.txt: Euskarazko azpitituluak aldaketarik gabe.
    • ./data/eu_train.tsv: Euskarazko azpitituluak tsv formatu egokian egokitzapena eginda.
    • ./data/eu_train_simple.tsv: Euskarazko azpitituluak tsv formatu egokian egokitzapen oso sinplea erabilita.
  • ./model: Sare neuronala entrenatu ondoren sortuko den modeloa gordetzeko direktorioa.
  • ./src: Sare neuronalaren kode iturburua gordetzeko direktorioa.

Egilea