NER-анотація українського корпусу

April 3, 2024 · View on GitHub

English version

Опис даних

Це друга версія українського NER корпусу. Дані першої версії та документацію ви можете знайти тут

Корпус розмічених даних знаходиться в папці v2.0/data. Всього в корпусі:

  • 560 текстів (train: 391, test: 169)
  • 21_993 сутностей NER
  • 13 типів сутностей
NashiGroshiBrukTotal
ART319316635
DATE14965512047
DOC10834142
JOB13446381982
LOC138016203000
MISC102413515
MON89746943
ORG44317825213
PCT18677263
PERIOD341255596
PERS182044156235
QUANT276106382
TIME43640
Total12704928921993

Первинним джерелом даних є відкритий корпус українських текстів (папка bruk) та тексти видання «Наші гроші» (папка ng). Для кожного обробленого тексту з корпусу наявні два файли:

  • файл з розширенням txt містить токенізовану версію тексту
  • файл з розширенням ann містить NER-анотації до цього тексту у форматі Brat Standoff Format (кожний рядок файлу містить 3 записи, розділені табуляцією: номер анотації, початковий і кінцевий індекс в тексті — у даному випадку, токенізованому — через пробіл, текст сутності)

Анотація виконана принаймні двома анотаторами на кожний текст за наступними правилами, розбіжності в результатах виправлені третім редактором.

Для тренування і валідації моделей рекомендовано використовувати Стандартне розбиття на DEV і TEST набори.

Ми надаємо сконвертовані у формат IOB дані з використанням стандартного розбиття. Під час цієї конвертації ми прибрали вкладені теги.

Репозиторій також містить скрипти для конвертації даних у інші формати.

Ліцензія

Ці дані доступні для використання згідно умов ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"

Creative Commons License
"Корпус NER-анотацій українських текстів" by lang-uk is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at https://github.com/lang-uk/ner-uk.