中文空间语义理解评测

Overview

中文空间语义理解评测


最新消息


一、任务简介

语言交际中存在大量的空间语义信息,理解这些信息是非常重要的。著名认知语言学家Jackendoff在其概念语义学理论中也指出空间结构是语言系统的四种基本结构之一(其余三个层面:语音、句法、概念语义)1

通常认为,对文本中空间信息的理解,不仅需要掌握句段中字词的语义,还需要具备一定的常识或世界知识,甚至是超出语言范畴的空间想象等认知能力。考察机器的空间认知能力是一项系统性的工作。作为初步尝试,北京大学与复旦大学的研究团队针对中文文本中空间语义的正误判断与归因,提出了本次评测任务。

如果机器具备了空间认知能力,那么它不仅要能够识别常规、正确的空间信息,还应该能够识别异常、错误的空间信息。如对于“在四面签一个名字”,人类能够意识到其中存在异常,因为“一个名字”通常不会签在“四面”;又如对于“走过火车下”,人类能够清楚地知道通常不会有人在火车的“下”方走路。可以看出,这些异常是多种多样的,具体包括:跟空间语义理解有关的词语搭配问题、上下文信息冲突问题、与常识冲突的问题等。为了方便进行不同的后续处理,机器在识别异常的同时,也需要能够对异常的原因加以解释。

基于上述观点,本次评测试图考察计算机的以下能力:(1)计算机能否正确区分正常与错误的空间语义表达;(2)计算机能否解释空间语义表达错误的原因;(3)计算机处理上述两个任务的综合能力。对应为如下三个任务:

子任务1,中文空间语义正误判断:要求参赛系统对给定的中文文本中是否存在空间关系异常加以判断。

子任务2,中文空间语义异常归因合理性判断:要求参赛系统判断给定的归因是否可以用来解释给定的中文文本中所存在的空间关系异常。这些异常被分为词语搭配问题、语义问题、语境问题、常识问题以及其他问题(详情请看后文介绍)。

子任务3,中文空间语义判断与归因联合任务:参赛系统首先需要判断给定的中文文本中是否存在空间关系异常,如果存在异常,则再判断所给定的归因是否可以用来解释这一异常。


二、数据介绍

数据以json格式发布(参见后附数据样例),各个字段说明如表1所示。

表1 数据字段说明

字段 类型 说明
qID int 试题编号。
context string 文本材料。
reason string 子任务2及子任务3中,对文本材料中空间关系异常的归因。
judge1 bool 子任务1中,对文本是否存在空间异常的判断。true表示句子成立,无异常;false表示句子不成立,有异常。
judge2 bool 子任务2及子任务3中,对归因是否能够解释材料的空间关系异常的判断。true表示归因成立;false表示归因不成立。

评测任务中的语料主要来源于CCL语料库,涵盖小说、散文、词典等文体。需注意实际使用的文本材料是在原始语料的基础上,替换了具有空间方位意义的词语之后,再进行人工标注和检验后得到的。最终得到7782段有效文本材料,合计86万字。各段材料字数的平均值为110.52,标准差为53.00。这些材料根据性质和任务需要被划分至评测的三个任务的不同数据集中,具体分布情况如表2所示2

表2 各子任务的数据集分布情况

子任务 训练集 验证集 测试集 总计 备注
1、中文空间语义正误判断 4,237 806 800~ 5.8k~ 三个数据集之间,所使用的原始语料没有交集,下同。
2、中文空间语义异常归因合理性判断 5,989 2,088 2k~ 10k+ (1)任一数据集所使用的context与子任务1的验证集和测试集无交集。(2)训练集使用的context与子任务1的训练集有交集。
3、中文空间语义判断与归因联合任务 0 1,203 1k+ 2k+ (1)不提供训练集。(2)验证集和测试集中使用的context与子任务1的相应数据集相同。

在子任务2及子任务3中,使用了多种归因类型。类型之间并不完全独立,每段材料可能对应多种归因类型。参赛系统不需要在归因类型之中做选择,而只需要判断所提供的类型是否适合用来解释材料中的错误。各类型的简介如表3所示。每种类型的具体数据样例请看 样例

表3 归因类型说明

类型 内部编号 描述 形式
搭配问题 A text1text2不能搭配,主要是因为语法、韵律、习惯等因素,通常不会这样说,而不是因为它们语义不兼容。 text1”和“text2”不宜搭配
语义问题 B text1text2通常不一起使用,主要是因为它们语义通常不兼容,而不是因为语法、韵律、习惯等因素。 text1”和“text2”语义冲突
语境问题 C text1text2之间存在冲突,主要是因为在当前语境中,具体信息存在冲突,而不是因为二者语义不兼容。 text1”与上下文“text2”存在信息冲突
常识问题 D text1所描述的内容不符合常识,这个常识由commonsense描述。 text1”与常识不符[:commonsense]

三、评价标准

对于子任务一子任务二,使用准确率(Acc,Accuracy)作为评价指标。

Acc = 命中正确答案的题数 / 题目总数

对于子任务3,使用F1值作为评价指标。公式如下,其中 PR 分别代表准确率(Precision)和召回率(Recall):

F1 = 2*P*R / (P+R)

PR 的计算公式如下,其中 TPTNFPFN 分别代表命中数量、正确拒绝数量、误报数量、漏报数量,下标表示judge所属的步骤。

P = (TP_2 + TN_2) / (TN_1 + FN_1)
R = (TP_2 + TN_2) / (TN_1 + FP_1)

注意上面公式中 TP_2TN_2 只计算judge1判断为false 的情况。

评分的计算脚本可参考: evaluate.py (注:此脚本仅供参考,发现任何问题请联系我们)。

最终排名:在所有参赛队伍的评测结果产生之后,计算每个任务下各个队伍的标准分数(Z-score),对三个任务的标准分数取平均,作为最终排名的依据。标准分数计算公式如下,其中 为平均数, s 为标准差:

Z = (X - X̄) / s
基线系统

我们提供一个基线系统供参赛队伍参考: SpaCE2021-Baseline


四、比赛日程

日期 事项
2021年4月1日 开放报名,发布训练集以及无答案的验证集
2021年4月5日 开放结果提交
2021年6月1日 发布验证集答案
2021年7月1日 发布无答案的测试集,开始提交最终模型及技术报告
2021年7月5日 最终模型提交截止
2021年7月15日 技术报告提交截止
2021年7月23日 公布结果,比赛结束
2021年8月13日-15日 CCL 2021评测研讨会

五、报名方式

请填写在线报名表: 点击此链接填写报名表

请注意:

  1. 报名时间:2021年4月1日至2021年6月1日;
  2. 一个团队只需由负责人或联系人填写一次报名表单即可;
  3. 报名即表示已经阅读并承诺遵守参赛协议( Agreement.md );
  4. 如有其他问题,请直接联系评测委员会:[email protected] (孙春晖);
  5. 主办方会在每个工作日检查新的报名队伍并通过邮件发送回执。

六、奖项设置

评测奖金由华为公司赞助,奖池共计40000元:

一等奖(1名),奖金15000元;

二等奖(2名),各奖8000元;

三等奖(3名),各奖3000元。

七、委员会

单位:北京大学,复旦大学

主席:詹卫东,穗志方(北京大学);邱锡鹏(复旦大学)

委员:孙春晖,唐乾桐,秦梓巍,董青秀,李卓,张洁(北京大学);李孝男(复旦大学)等

联系人:孙春晖  联系方式:[email protected]


脚注

1 参看 Jackendoff(2002)著作《Foundations of language: Brain, meaning, grammar, evolution》第1.2、1.5节。

2 每段材料配合不同归因将会形成不同题目,因此题目数量大于材料数量。

✔👉A Centralized WebApp to Ensure Road Safety by checking on with the activities of the driver and activating label generator using NLP.

AI-For-Road-Safety Challenge hosted by Omdena Hyderabad Chapter Original Repo Link : https://github.com/OmdenaAI/omdena-india-roadsafety Final Present

Prathima Kadari 7 Nov 29, 2022
CMeEE 数据集医学实体抽取

医学实体抽取_GlobalPointer_torch 介绍 思想来自于苏神 GlobalPointer,原始版本是基于keras实现的,模型结构实现参考现有 pytorch 复现代码【感谢!】,基于torch百分百复现苏神原始效果。 数据集 中文医学命名实体数据集 点这里申请,很简单,共包含九类医学

85 Dec 28, 2022
Perform sentiment analysis and keyword extraction on Craigslist listings

craiglist-helper synopsis Perform sentiment analysis and keyword extraction on Craigslist listings Background I love Craigslist. I've found most of my

Mark Musil 1 Nov 08, 2021
Facebook AI Research Sequence-to-Sequence Toolkit written in Python.

Fairseq(-py) is a sequence modeling toolkit that allows researchers and developers to train custom models for translation, summarization, language mod

13.2k Jul 07, 2021
🚀 RocketQA, dense retrieval for information retrieval and question answering, including both Chinese and English state-of-the-art models.

In recent years, the dense retrievers based on pre-trained language models have achieved remarkable progress. To facilitate more developers using cutt

475 Jan 04, 2023
L3Cube-MahaCorpus a Marathi monolingual data set scraped from different internet sources.

L3Cube-MahaCorpus L3Cube-MahaCorpus a Marathi monolingual data set scraped from different internet sources. We expand the existing Marathi monolingual

21 Dec 17, 2022
Dope Wars game engine on StarkNet L2 roll-up

RYO Dope Wars game engine on StarkNet L2 roll-up. What TI-83 drug wars built as smart contract system. Background mechanism design notion here. Initia

104 Dec 04, 2022
Leon is an open-source personal assistant who can live on your server.

Leon Your open-source personal assistant. Website :: Documentation :: Roadmap :: Contributing :: Story 👋 Introduction Leon is an open-source personal

Leon AI 11.7k Dec 30, 2022
Code for text augmentation method leveraging large-scale language models

HyperMix Code for our paper GPT3Mix and conducting classification experiments using GPT-3 prompt-based data augmentation. Getting Started Installing P

NAVER AI 47 Dec 20, 2022
Simple Python library, distributed via binary wheels with few direct dependencies, for easily using wav2vec 2.0 models for speech recognition

Wav2Vec2 STT Python Beta Software Simple Python library, distributed via binary wheels with few direct dependencies, for easily using wav2vec 2.0 mode

David Zurow 22 Dec 29, 2022
Help you discover excellent English projects and get rid of disturbing by other spoken language

GitHub English Top Charts 「Help you discover excellent English projects and get

GrowingGit 544 Jan 09, 2023
Textlesslib - Library for Textless Spoken Language Processing

textlesslib Textless NLP is an active area of research that aims to extend NLP t

Meta Research 379 Dec 27, 2022
Implementation of ProteinBERT in Pytorch

ProteinBERT - Pytorch (wip) Implementation of ProteinBERT in Pytorch. Original Repository Install $ pip install protein-bert-pytorch Usage import torc

Phil Wang 92 Dec 25, 2022
Mycroft Core, the Mycroft Artificial Intelligence platform.

Mycroft Mycroft is a hackable open source voice assistant. Table of Contents Getting Started Running Mycroft Using Mycroft Home Device and Account Man

Mycroft 6.1k Jan 09, 2023
NLP, Machine learning

Netflix-recommendation-system NLP, Machine learning About Recommendation algorithms are at the core of the Netflix product. It provides their members

Harshith VH 6 Jan 12, 2022
ChatBotProyect - This is an unfinished project about a simple chatbot.

chatBotProyect This is an unfinished project about a simple chatbot. (union_todo.ipynb) Reminders for the project: Find why one of the vectorizers fai

Tomás 0 Jul 24, 2022
spaCy-wrap: For Wrapping fine-tuned transformers in spaCy pipelines

spaCy-wrap: For Wrapping fine-tuned transformers in spaCy pipelines spaCy-wrap is minimal library intended for wrapping fine-tuned transformers from t

Kenneth Enevoldsen 32 Dec 29, 2022
自然言語で書かれた時間情報表現を抽出/規格化するルールベースの解析器

ja-timex 自然言語で書かれた時間情報表現を抽出/規格化するルールベースの解析器 概要 ja-timex は、現代日本語で書かれた自然文に含まれる時間情報表現を抽出しTIMEX3と呼ばれるアノテーション仕様に変換することで、プログラムが利用できるような形に規格化するルールベースの解析器です。

Yuki Okuda 116 Nov 09, 2022
SpeechBrain is an open-source and all-in-one speech toolkit based on PyTorch.

The goal is to create a single, flexible, and user-friendly toolkit that can be used to easily develop state-of-the-art speech technologies, including systems for speech recognition, speaker recognit

SpeechBrain 5.1k Jan 09, 2023
Various Algorithms for Short Text Mining

Short Text Mining in Python Introduction This package shorttext is a Python package that facilitates supervised and unsupervised learning for short te

Kwan-Yuet 466 Dec 06, 2022