中文新闻语义结构化标注 |
 |
| 标准编号:GB/T 45949-2025 |
标准状态:现行 |
|
| 标准价格:75.0 元 |
客户评分:     |
|
|
立即购买工即可享受本标准状态变更提醒服务! |
|
|
|
|
|
本文件规定了中文新闻语义结构化标注的预处理、关键词标注、语义模板标注和语义单元标注的方法。
本文件适用于新闻内容提供商、媒体应用与研究机构对新闻稿件的人工标注,也能用于机器自动化标注。
本文件不适用于跨稿件的语义结构化标注。 |
|
|
|
| 英文名称: |
Specification for semantic structuring annotation of Chinese news |
中标分类: |
电子元器件与信息技术>>计算机>>L60计算机综合 |
ICS分类: |
信息技术、办公机械设备>>信息技术应用>>35.240.30信息技术在信息、文献和出 |
| 发布部门: |
国家市场监督管理总局 国家标准化管理委员会 |
| 发布日期: |
2025-06-30 |
| 实施日期: |
2025-06-30
|
| 提出单位: |
全国中文新闻信息标准化技术委员会(SAC/TC 352) |
归口单位: |
全国中文新闻信息标准化技术委员会(SAC/TC 352) |
| 起草单位: |
文灵科技(北京)有限公司、北京语言大学、东南大学、新华通讯社、中国互联网新闻中心、中国信息通信研究院、浙江日报报业集团、保定市数据局(国家数据标注基地) |
| 起草人: |
王楠、饶高崎、杨鹏、丁德胜、王熠、付蓉、王贵荣、王建平、黄菁、李荪、贾成喜、张闯、李冰、杨冬梅、周天外、宋永生 |
| 页数: |
40页 |
| 出版社: |
中国标准出版社 |
|
|
|
本文件按照 GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由全国中文新闻信息标准化技术委员会(SAC/TC352)提出并归口。
本文件起草单位:文灵科技(北京)有限公司、北京语言大学、东南大学、新华通讯社、中国互联网新闻中心、中国信息通信研究院、浙江日报报业集团、保定市数据局(国家数据标注基地)。
本文件主要起草人:王楠、饶高崎、杨鹏、丁德胜、王熠、付蓉、王贵荣、王建平、黄菁、李荪、贾成喜、张闯、李冰、杨冬梅、周天外、宋永生。 |
|
|
前言 Ⅲ
引言 Ⅳ
2 规范性引用文件 1
3 术语和定义 1
4 新闻语义结构化标注概述 2
4.1 标注流程 2
4.2 标注范式 3
5 预处理 4
5.1 标注对象标识符设置 4
5.2 新闻稿件元数据采集 4
6 关键词标注 5
6.1 标注内容 5
6.2 标注模板 5
6.3 标注方法 5
7 语义模板标注 6
7.1 标注内容 6
7.2 标注模板 14
7.3 标注方法 15
8 语义单元标注 16
8.1 标注内容 16
8.2 标注模板 17
8.3 标注方法 18
附录 A (资料性) 应用场景举例 23
A.1 新闻内容结构化管理 23
A.2 生成稿件内容知识库 23
A.3 建立高质量知识图谱 23
A.4 低耗高效训练人工神经网络模型 23
附录 B (资料性) 新闻语义结构化标注完整示例 24
B.1 原文 24
B.2 预处理 24
B.3 关键词标注 26
B.4 语义模板标注 27
B.5 语义单元标注 29
参考文献 32 |
|
|
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T20092.2—2022 中文新闻信息内容 第2部分:新闻元数据
GB/T20093—2022 中文新闻信息分类与代码 |
|
|
|
| |