TüSan

Word Segmentation and Morphological Parsing for Sanskrit

Prerequisites

Python Version >= 3.8, <3.11 (for numpy)

This project supports using poetry for dependency management. Follow these instructions to install poetry.

cd TueSan
poetry install

To activate virtual environment, run

poetry shell

Data Folder Structure

    ./sanskrit/
      ├── graphml_dev                     # auxiliary graphml data
      |   ├── ddd.graphml
      │   └── ...
      ├── final_graphml_train
      |   ├── ddd.graphml
      |   └── ...  
      ├── conllu                          # DCS, from https://github.com/OliverHellwig/sanskrit/tree/master/dcs/data/conllu
      |   ├── lookup
      |   |   ├── dictionary.csv
      |   |   ├── pos.csv
      |   |   └── word-senses.csv  
      |   └── files
      |       ├── <subfolders>
      |       |   ├── xxx.conllu
      |       |   └── ...
      |       ├── xxx.conllu
      |       └── ...  
      ├── dcs_filtered.json               # DCS for task 1, sentences with incomplete annotations are filtered out
      ├── dcs_processed.pickle            # DCS for task 1, with 'sandhied_merged', 'labels', etc.
      ├── wsmp_train.json                 # primary data
      └── wsmp_dev.json

Data can be accessed from the server, /data/jingwen/sanskrit/.

To-Do

hyperparameter tuning T3 > T1, ray.tune?

Name		Name	Last commit message	Last commit date
Latest commit History 300 Commits
Task1		Task1
Task2		Task2
Task3		Task3
sanskrit		sanskrit
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
README.md		README.md
bad_data.txt		bad_data.txt
literature.md		literature.md
meetings.md		meetings.md
pyproject.toml		pyproject.toml
train_dataset.pickle		train_dataset.pickle

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TüSan

Prerequisites

Data Folder Structure

To-Do

About

Releases 1

Packages

Contributors 2

Languages

cicl-iscl/TueSan

Folders and files

Latest commit

History

Repository files navigation

TüSan

Prerequisites

Data Folder Structure

To-Do

About

Resources

Stars

Watchers

Forks

Releases 1

Packages 0

Contributors 2

Languages

Packages