A.5.[数据标注]:基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取

  • Post author:
  • Post category:其他


在这里插入图片描述


NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

在这里插入图片描述

专栏详细介绍:

NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等


前人栽树后人乘凉,本专栏提供资料:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等项目代码整合,省去你大把时间,效率提升。 帮助你快速完成任务落地,以及科研baseline。



情感分析任务Label Studio使用指南

在这里插入图片描述


1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等



2.基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等



3.基于Label studio的训练数据标注指南:文本分类任务



4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取



目录




1. label-studio 安装

本内容在以下环境进行测试安装:

  • python == 3.9.12
  • label-studio == 1.7.1

在终端(terminal)使用pip安装label-studio:

pip install label-studio==1.7.1

安装完成后,运行以下命令行:

label-studio start

在浏览器打开

http://localhost:8080/

,输入用户名和密码登录,开始使用label-studio进行标注。




2. label-studio 项目创建

创建项目之前,需要先确定标注的任务类型以及需要标注哪些内容,然后点击创建(Create)开始创建一个新的项目,填写项目名称、描述。

如果数据已经准备好,可以在此进行导入数据。

接下来,根据需要标注的任务类型,选择适合的任务。在本项目中,默认会包含两种类型的任务:语句级情感分类任务和属性级情感分析任务。由于这两者都属于自然语言处理(NLP)任务,因此可以点击

Natural Language Processing

选项,在该选项下面进行选择相应的子项任务。

  • 如果标注语句级情感分类任务,请选择

    Text Classification

  • 如果标注属性级情感分析任务,比如属性-观点词-情感极性三元组的信息抽取,请选择

    Relation Extraction

最后点击保存即可。




3. 情感分析任务标注




3.1 语句级情感分类任务

这里对应的任务类型为

Text Classification

,在标注之前,需要设定

正向



负向

的标签,然后保存即可。

设定好标签后,即可开始进行标注,选择正向或负向,最后点击提交,便标注好一条数据。




3.2 属性级情感分析任务

在本项目中,属性级的情感分析需要配置的标注任务类型为

Relation Extraction

,包括属性抽取、观点抽取、属性-观点抽取、属性-情感极性抽取、属性-情感极性-观点词三元组抽取等任务。其中属性-情感极-观点词(A-S-O)三元组抽取是最常见的任务之一,下面优先讲解该任务的标注规则。




3.2.1 属性-情感极性-观点词抽取

属性-情感极性-观点词(A-S-O)三元组抽取标注内容涉及两类标签:Span 类型标签和 Relation 类型标签。其中Span标签用于定位文本批评中属性、观点词和情感极性三类信息,Relation类型标签用于设置评价维度和观点词、情感倾向之间的关系。




(1)Span类型标签

这里需要定位属性、情感极性、观点词三类信息,在标注时,需要将属性和情感极性进行组合,形成复合标签。具体来讲,设定

评价维度##正向

用于定位情感倾向为正向的属性,

评价维度##负向

用于定位情感倾向为负向的属性。另外,利用标注标签

观点词

定位语句中的观点词。




(2)Relation类型标签

这里只涉及到1中Relation类型标签,即

评价维度



观点词

的映射关系。这里可以设置一下两者关系的名称,即点击Code,然后配置关系名称(这里将两者关系设置为

观点词

),最后点击保存即可。

在设置好Span类型和Relation标签之后,便可以开始进行标注数据了。




3.2.2 属性-情感极性抽取

如3.2.1所述,本项目中针对属性-情感极性(A-S)抽取任务,采用

Span

的形式进行标注。设定

评价维度##正向

用于定位情感倾向为正向的属性,

评价维度##负向

用于定位情感倾向为负向的属性。下图展示了关于属性-情感极性抽取任务的标注示例。




3.2.3 属性-观点词抽取

针对属性-观点词(A-O)抽取任务,采用

Relation

的形式进行标注。这需要将属性对应标注标签设定为

评价维度

,观点词设定为

观点词

。下图展示了关于属性-观点词抽取任务的标注示例。




3.2.4 属性抽取

针对属性(A)抽取任务,采用

Span

的形式进行标注。 这需要将属性对应的标注标签设定为

评价维度

。下图展示了关于属性抽取任务的标注示例。




3.2.4 观点词抽取

针对观点词(O)抽取任务,采用

Span

的形式进行标注。 这需要将观点词对应的标注标签设定为

观点词

。下图展示了关于观点词抽取任务的标注示例。




4. 导出标注数据

勾选已标注文本ID,点击Export按钮,选择导出的文件类型为

JSON

,导出数据:




5. References



版权声明:本文为sinat_39620217原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。