文本标注工具

IEPY

github代码地址: https://github.com/machinalis/iepy
一个关注关系提取(Relation Extraction)的开源信息提取工具,前端对用户不太友好。

特点:

  1. 使用active learning技术。根据用户提供的信息(让用户标注更为重要的样本)来预测剩下的案例,默认分类器为C-Support Vector Classification,可选分类器Stochastic Gradient Descent、Nearest Neighbors、Random Forest、AdaBoost。
  2. 对半结构化数据和高准确率要求的案例采用基于规则的关系提取工具。需要用户自定义“regular expression like” rules,一个规则可以认为是一个python函数。
  3. 使用Stanford CoreNLP技术来实现共指消解(Coreference resolution is the task of finding all expressions that refer to the same entity in a text,即将文章中所有表述划分为现实世界中不同实体的等价描述)

DeepDive

github代码地址: https://github.com/HazyResearch/mindbender
迭代开发知识库的工具mindbender,通过弱监督学习从非结构化的文本中抽取结构化的关系数据,可以判断两个实体间是否存在指定关系。其核心的标注工具是Mindtagger,交互式用户界面十分友好。

  1. 当前版本只支持对precision/recall的估计。对于precision估计任务,首先使用SQL查询语句从数据集中找出正相关子集,对系统识别到的实体只让用户判断相关与否,以及增加ad-hoc 标签。
  2. 允许用户判断哪些特征能增强预测的表现,这一任务中ad-hoc标签很重要。
  3. 其标注结果可以导出成(SQL, CSV/TSV, and JSON) 等格式以作它用,比如作为DeepDive应用的ground truth.

brat

github代码地址: https://github.com/nlplab/brat

brat rapid annotation tool(brat)旨在提供一个直觉性质的、快速的方式创造受文本约束的实体和关系标签。

  1. 通过选择文本的方式标注(annotate by select text)。
  2. 通过拖拉的方式标注关系(connect by drag and drop)。
  3. 支持标注命名实体(Named Entity annotation),标注依赖关系(Dependency annotation),分块(chunking,比如名词词组分块),共指标注(coreference annotation,找出同一实体的不同表述),事件标注(event annotation)等。
  4. 支持任意语言的标注。

YEDDA

github代码地址:https://github.com/jiesutd/SUTDAnnotator
一个标注文本、符号和表情中的分块/实体/事件的标注工具,基本支持所有语言。

  1. 支持将标注过的文本导出成序列文本。
  2. 支持两种标注方式。a,选择文本并在shortcup map中按下相应的标签(标签可自己配置)。b,在文本框中输入(其格式为第几个子串及对应的标签缩写)
  3. 推荐系统。两个按钮控制推荐系统的开启与关闭。推荐内容为子串及对应的推荐标签,以不同的颜色在原始文本中标出。并考虑了不能忽视推荐标签错误时的修正时间,设计了针对推荐系统的撤销,调整和删除操作。