Кейсы и датасеты для LinguaHack Tomsk 2019
Информационное агенство ТАСС
Одной из составных задач информационного поиска является отнесение документа к одной из нескольких категорий на основании содержания документа. Самым сложным в этом процессе считается предтекстовая обработка и выявление информативных признаков. Они являются исходными данными для алгоритмов машинного обучения. Однако многие результаты работы классификаторов «привязаны» к обучающей выборке и показывают нестабильные результаты на неизвестных текстах.
Дан набор новостных текстов разной тематики, размеченных по категориям. Требуется построить классификатор, оценивающий вероятность принадлежности текста к той или иной теме.
Исходный корпус содержит набор кортежей [url, title, text, topic, tag]
.
Выходные данные: наиболее вероятное значение topic.
Результаты классификации текстов будут оцениваться по F-мере, представляющей собой гармоническое среднее между точностью и полнотой.
В презентации следует описать методы и подходы, использованные для создания алгоритма классификации текстов, а также полученные результаты и их интерпретацию.
В файле perfect-art-example.ipynb находится jupyter notebook с примерами подключения к серверу.
Информационное агенство ТАСС и Лаборатория когнитивных исследований языка
Сегодня в большом объеме потока информации необходимо оперативно отслеживать изменения в обществе за счет структуризации материала и автоматизации извлечения информации из текста.
Дан набор новостных текстов разной тематики. Требуется разработать алгоритмы, извлекающие следующие факты:
- Имена стран и населённых пунктов Российской Федерации.
- Имена президентов и администрации федеральных округов.
Массив текстов, содержащий набор новостей в формате .txt.
Результаты будут оцениваться лингвистическим анализом написанных формальных грамматик и качества извлеченных фактов.
В презентации следует описать методы и подходы, использованные для извлечения фактов и текстов, а также полученные результаты и их интерпретацию.
МТС
Использовать методы NLP для извлечения информации о негативных реакциях на употребление медицинских препаратов.
Предлагается датасет из описаний более тысячи препаратов на английском языке в формате XML. Из них для 101 препарата есть соответствующая разметка содержащихся в описании сущностей.
Описание препарата может содержать следующие сущности
- Негативные реакции (AdverseReaction) – описание негативных реакций связанных с данным препаратом, либо его компонентами. Могут включать симптомы, медицинские показания и т.д.
- Показатель воздействия (Severity) – мера воздействия негативной реакции может быть как качественной ("major", "critical", "serious", "life-threatening") так и количественной ("grade 1", "Grade 3-4", "3 times upper limit of normal (ULN)", "240 mg/dL")
- Класс препарата (DrugClass) – Препараты могут принадлежать к одному или нескольким классам например бета блокаторы.
- Животные (Animals) – виды животных у которых наблюдались негативные реакции.
- Отрицание (Negation) – слово благодаря которому негативная реакция отрицается (что-то что предотвращает негативную реакцию).
- Фактор (Factor) – Дополнительные параметры негативных реакций которые не покрыты предыдущими пунктами.
Негативные реакции могут вступать в следующие типы отношений
- Отрицается (Negated) – Negation или Factor который нейтрализует AdverseReaction.
- Гипотетически (Hypothetical) – Animal, DrugClass или Factor который гипотетически вызывает AdverseReaction.
- Эффект (Effect) – Severity AdverseReaction для данного препарата. Описывает силу реакции негативного эффекта.
- Named Entity Recognition: Из текстовых описаний препарата извлечь негативные реакции (AdverseReactions) и связанные с ними сущности (Severity, DrugClass, Animals, Negation, Factor)
- Relation identification evaluations: Идентифицировать отношения между негативными реакциями (AdverseReactions) и связанными сущностями (Severity, DrugClass, Animals, Negation, Factor). Отношения описываются как (Negated, Hypothetical, Effect)
Датасет содержит xml файлы по одному для каждого препарата. Тэг label в атрибуте drug содержит название препарата. В тэге Text находится текстовое описание, тэг Text содержит один или несколько тэгов Section, каждый из которых содержит текст по одной из 3-х тем “Adverse Reactions”, “Warnings and Precautions”, “Boxed Warnings”. В тэге Mentions содержатся размеченные именованные сущности, а в тэге Relations отношения между ними.