LinguaHack 2019

Кейсы и датасеты для LinguaHack Tomsk 2019

О чем ты, текст?

Автор

Информационное агенство ТАСС

Проблема

Одной из составных задач информационного поиска является отнесение документа к одной из нескольких категорий на основании содержания документа. Самым сложным в этом процессе считается предтекстовая обработка и выявление информативных признаков. Они являются исходными данными для алгоритмов машинного обучения. Однако многие результаты работы классификаторов «привязаны» к обучающей выборке и показывают нестабильные результаты на неизвестных текстах.

Задача

Дан набор новостных текстов разной тематики, размеченных по категориям. Требуется построить классификатор, оценивающий вероятность принадлежности текста к той или иной теме.

Данные

Исходный корпус содержит набор кортежей [url, title, text, topic, tag]. Выходные данные: наиболее вероятное значение topic.

Формальный критерий оценки

Результаты классификации текстов будут оцениваться по F-мере, представляющей собой гармоническое среднее между точностью и полнотой.

Требования к презентации

В презентации следует описать методы и подходы, использованные для создания алгоритма классификации текстов, а также полученные результаты и их интерпретацию.

Грань вселенной

В файле perfect-art-example.ipynb находится jupyter notebook с примерами подключения к серверу.

Извлечение именованных сущностей

Автор

Информационное агенство ТАСС и Лаборатория когнитивных исследований языка

Проблема

Сегодня в большом объеме потока информации необходимо оперативно отслеживать изменения в обществе за счет структуризации материала и автоматизации извлечения информации из текста.

Задача

Дан набор новостных текстов разной тематики. Требуется разработать алгоритмы, извлекающие следующие факты:

Имена стран и населённых пунктов Российской Федерации.
Имена президентов и администрации федеральных округов.

Данные

Массив текстов, содержащий набор новостей в формате .txt.

Формальный критерий оценки

Результаты будут оцениваться лингвистическим анализом написанных формальных грамматик и качества извлеченных фактов.

Требования к презентации

В презентации следует описать методы и подходы, использованные для извлечения фактов и текстов, а также полученные результаты и их интерпретацию.

Побочные реакции

Автор

МТС

Цель

Использовать методы NLP для извлечения информации о негативных реакциях на употребление медицинских препаратов.

Данные

Предлагается датасет из описаний более тысячи препаратов на английском языке в формате XML. Из них для 101 препарата есть соответствующая разметка содержащихся в описании сущностей.

Сущности

Описание препарата может содержать следующие сущности

Негативные реакции (AdverseReaction) – описание негативных реакций связанных с данным препаратом, либо его компонентами. Могут включать симптомы, медицинские показания и т.д.
Показатель воздействия (Severity) – мера воздействия негативной реакции может быть как качественной ("major", "critical", "serious", "life-threatening") так и количественной ("grade 1", "Grade 3-4", "3 times upper limit of normal (ULN)", "240 mg/dL")
Класс препарата (DrugClass) – Препараты могут принадлежать к одному или нескольким классам например бета блокаторы.
Животные (Animals) – виды животных у которых наблюдались негативные реакции.
Отрицание (Negation) – слово благодаря которому негативная реакция отрицается (что-то что предотвращает негативную реакцию).
Фактор (Factor) – Дополнительные параметры негативных реакций которые не покрыты предыдущими пунктами.

Отношения

Негативные реакции могут вступать в следующие типы отношений

Отрицается (Negated) – Negation или Factor который нейтрализует AdverseReaction.
Гипотетически (Hypothetical) – Animal, DrugClass или Factor который гипотетически вызывает AdverseReaction.
Эффект (Effect) – Severity AdverseReaction для данного препарата. Описывает силу реакции негативного эффекта.

Задачи

Named Entity Recognition: Из текстовых описаний препарата извлечь негативные реакции (AdverseReactions) и связанные с ними сущности (Severity, DrugClass, Animals, Negation, Factor)
Relation identification evaluations: Идентифицировать отношения между негативными реакциями (AdverseReactions) и связанными сущностями (Severity, DrugClass, Animals, Negation, Factor). Отношения описываются как (Negated, Hypothetical, Effect)

Формат данных

Датасет содержит xml файлы по одному для каждого препарата. Тэг label в атрибуте drug содержит название препарата. В тэге Text находится текстовое описание, тэг Text содержит один или несколько тэгов Section, каждый из которых содержит текст по одной из 3-х тем “Adverse Reactions”, “Warnings and Precautions”, “Boxed Warnings”. В тэге Mentions содержатся размеченные именованные сущности, а в тэге Relations отношения между ними.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
data		data
img		img
README.md		README.md
news_text_only.csv		news_text_only.csv
perfect-art-example.ipynb		perfect-art-example.ipynb
text_test_data.csv		text_test_data.csv
Тексты для хакатона.zip		Тексты для хакатона.zip

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LinguaHack 2019

О чем ты, текст?

Автор

Проблема

Задача

Данные

Формальный критерий оценки

Требования к презентации

Грань вселенной

Извлечение именованных сущностей

Автор

Проблема

Задача

Данные

Формальный критерий оценки

Требования к презентации

Побочные реакции

Автор

Цель

Данные

Сущности

Отношения

Задачи

Формат данных

About

Releases

Packages

Languages

comp-lingua-tsu/linguahack2019

Folders and files

Latest commit

History

Repository files navigation

LinguaHack 2019

О чем ты, текст?

Автор

Проблема

Задача

Данные

Формальный критерий оценки

Требования к презентации

Грань вселенной

Извлечение именованных сущностей

Автор

Проблема

Задача

Данные

Формальный критерий оценки

Требования к презентации

Побочные реакции

Автор

Цель

Данные

Сущности

Отношения

Задачи

Формат данных

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages