Muturretik muturrerako solasaldi sistema. Egilea: Iñigo Ortega
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
i.ortega a22251cd43 Txostena update 2 weeks ago
data README + data refresh 1 month ago
model First models upload. Only short answers. 1 month ago
preprocessing ERROR: ^\treply$ lines appearing 2 weeks ago
presentation Presentation. Probably final. 3 weeks ago
src README update and preparation for public activity 2 weeks ago
txostena Txostena update 2 weeks ago
.gitignore gitignore + first sources 1 month ago
README.org README update and preparation for public activity 2 weeks ago
requirements.txt eu data and the shell scripts used to create it 1 month ago

README.org

Biltegi hau unibertsitateko lan baten bertsio kontrolerako dago pentsatuta. Zure erantzukizuna da honekin egiten duzuna. This repository was created to have some version control for a university project. Use it at your risk.

Telegram bidezko galdera eta erantzun sistema

Biltegi honekin Telegram bidezko galdera-erantzun sistema bat inplementatzen da. Horretarako, pyTorch liburutegia eta Seq2Seq eredua erabiltzen da. Erabilitako ereduaren informazio gehiagorako: https://arxiv.org/abs/1409.0473

Baita ere, aurkezpen eta txostenaren fitxategiak daude hemen.

Antolakuntza

  • ./preprocessing: Sare neuronalak behar dituen datuak lortzeko erabilitako gidoiak:

    • ./preprocessing/preprocess.sh: azpitituluen fitxategi bat emanda, garbiketa bat egiten du clean.sh gidoiaren bidez, irteera sare neuronalak onartzen duen tsv formatuan itzuliz.

    • ./preprocessing/clean.sh: Ondorengo ezaugarriak dituzten lerroak garbitu egiten dira:

      • Marra (-, –, —, ― eta _) karaktereak ezabatu egiten dira lerro baten hasieran badaude.

      • Batera dauden eta " karaktereaz hasten diren lerroak batu egiten dira pertsona berdinak esaten baititu.

      • Komaz (,), puntukomaz (;) edo bi puntuz (:) bukatzen diren lerroak hurrengoarekin lotu.

      • Jarraian dauden baina errepikatuak diren lerroak ezabatu.

    • ./preprocessing/until-no-change.sh: Emandako lehen agindua exekutatzen du eta bigarrengoa aurrekoaren irteerarekin exekutatuko du emaitza berdina duen arte.

    • ./preprocessing/preprocess-simple.sh: Marra karaktereak ezabatzen ditu lerroen hasieratik, errepikatuak ezabatzen ditu eta tsv formatu egokian itzultzen da emaitza.

  • *./data: Sare neuronalak behar dituen datuak ditu:

    • ./data/eu.txt: Euskarazko azpitituluak aldaketarik gabe.

    • ./data/eu_train.tsv: Euskarazko azpitituluak tsv formatu egokian egokitzapena eginda.

    • ./data/eu_train_simple.tsv: Euskarazko azpitituluak tsv formatu egokian egokitzapen oso sinplea erabilita.

  • ./model: Sare neuronala entrenatu ondoren sortuko den modeloa gordetzeko direktorioa. Ez dago azkeneko modeloaren bertsioa. Bertakoa zaharra da.

  • ./src: Sare neuronalaren kode iturburua gordetzeko direktorioa.

    • test-system.py: Sistema probatzeko gidoia.

    • train.py: Sistema entrenatzeko gidoia.

    • bot.py: Telegrameko bot-a pizteko gidoia. Ordezkatu zure "INSERT YOUR TOKEN HERE" testua, zure bot-aren tokenarekin.

  • ./presentation: Aurkezpena eta honetarako fitxategiak.

  • ./txostena: Txostena eta honetarako fitxategiak.

Egilea