hp-dial/README.org

2.6 KiB
Raw Permalink Blame History

IRAKURRI

Biltegi hau unibertsitateko lan baten bertsio kontrolerako dago pentsatuta. Zure erantzukizuna da honekin egiten duzuna. This repository was created to have some version control for a university project. Use it at your risk.

Telegram bidezko galdera eta erantzun sistema

Biltegi honekin Telegram bidezko galdera-erantzun sistema bat inplementatzen da. Horretarako, pyTorch liburutegia eta Seq2Seq eredua erabiltzen da. Erabilitako ereduaren informazio gehiagorako: https://arxiv.org/abs/1409.0473

Baita ere, aurkezpen eta txostenaren fitxategiak daude hemen.

Antolakuntza

  • ./preprocessing: Sare neuronalak behar dituen datuak lortzeko erabilitako gidoiak:

    • ./preprocessing/preprocess.sh: azpitituluen fitxategi bat emanda, garbiketa bat egiten du clean.sh gidoiaren bidez, irteera sare neuronalak onartzen duen tsv formatuan itzuliz.
    • ./preprocessing/clean.sh: Ondorengo ezaugarriak dituzten lerroak garbitu egiten dira:

      • Marra (-, , —, ― eta _) karaktereak ezabatu egiten dira lerro baten hasieran badaude.
      • Batera dauden eta " karaktereaz hasten diren lerroak batu egiten dira pertsona berdinak esaten baititu.
      • Komaz (,), puntukomaz (;) edo bi puntuz (:) bukatzen diren lerroak hurrengoarekin lotu.
      • Jarraian dauden baina errepikatuak diren lerroak ezabatu.
    • ./preprocessing/until-no-change.sh: Emandako lehen agindua exekutatzen du eta bigarrengoa aurrekoaren irteerarekin exekutatuko du emaitza berdina duen arte.
    • ./preprocessing/preprocess-simple.sh: Marra karaktereak ezabatzen ditu lerroen hasieratik, errepikatuak ezabatzen ditu eta tsv formatu egokian itzultzen da emaitza.
  • *./data: Sare neuronalak behar dituen datuak ditu:

    • ./data/eu.txt: Euskarazko azpitituluak aldaketarik gabe.
    • ./data/eu_train.tsv: Euskarazko azpitituluak tsv formatu egokian egokitzapena eginda.
    • ./data/eu_train_simple.tsv: Euskarazko azpitituluak tsv formatu egokian egokitzapen oso sinplea erabilita.
  • ./model: Sare neuronala entrenatu ondoren sortuko den modeloa gordetzeko direktorioa. Ez dago azkeneko modeloaren bertsioa. Bertakoa zaharra da.
  • ./src: Sare neuronalaren kode iturburua gordetzeko direktorioa.

    • test-system.py: Sistema probatzeko gidoia.
    • train.py: Sistema entrenatzeko gidoia.
    • bot.py: Telegrameko bot-a pizteko gidoia. Ordezkatu zure "INSERT YOUR TOKEN HERE" testua, zure bot-aren tokenarekin.
  • ./presentation: Aurkezpena eta honetarako fitxategiak.
  • ./txostena: Txostena eta honetarako fitxategiak.

Egilea