标准规范下载简介：

内容预览由机器从pdf转换为word，准确率92%以上，供参考

DA_T 77-2019纸质档案数字复制件光学字符识别(OCR)工作规范.pdf

一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等。 7.1.2纸质档案数字复制件的图像分辨率应不低于200dpi。特殊情况下，如文字偏小、密集、清晰度较差等，可以适当提高分辨率。文件命名应符合DA/T13、DA/T22、DA/T31的规定。 7.1.3对质量不能达到档案OCR工作基本要求的纸质档案数字复制件，应按照DA/T31的要求重新数字化后导人。

特征对待识别图像进行降课处理，提升识别处理的精确度， .2.2.2降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质，去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方

7.2.3.1对图像进行识别前GB/T 14896.9-2018 特种加工机床术语第9部分：激光加工机床，应进行图像方向检测并进行自动水平或垂直倾斜校正。

7.2.3.1对图像进行识别前，应进行图像方向检测并进行自动水平或垂直倾斜校正。 7.2.3.2应支持由用户指定图像倾斜的角度，采用相应的图像旋转算法进行手工倾斜校正。

7. 2. 4图像监测

图像质量控制程序应自动检测图像处理质量。对无法达到质量要求的图像进行标注。

7.3.1.1比对识别前应对图像中的字符块结构进行版式分析，把图像中相似的版块信息划分到一起如横排文本、竖排文本、表格、图形等。 7.3.1.2版式分析可采取多种分析方法，自动检测各版块类型，对图像内部区域进行逻辑归类，记录各版块的位置，存储版面信息。

7.3.2档案特征分析

7.3.2.1归档章分析。建立归档章式样库，自动识别图像中的归档章，并根据归档章样式，识别出字段立置，如全宗号、年度、机构、保管期限、件号、贞数等。 7.3.2.2公文要素分析。建立公文格式库，可准确识别公文的版头、主体、版记三部分，识别公章、签章等区域，比照公文样式，识别密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等公文要素。公文要素OCR识别要求见附录A。 7.3.2.3表格分析。建立单独表格处理模块，建立专用表格模板定义工具，自定义文件处理单、发文稿纸、备考表等表格模板，识别表格中的字段位置。 7.3.2.4印章分析。识别印章图像位置，存储印章图像，建立印章名称与印章图像的关系库，用于版式

7.3.3.1识别时应抽取字体、字号、粗体、斜体、首行缩进等字符特征，通过相似度计算方法，与特征数居库比对，识别为计算机文字内码。 7.3.3.2特征数据库应存储多种印刷体字符、常用签名和批注手写体字符，具备可更新和可扩充性。时使用频率高的汉字、英文、数字以及常用的符号、常用签名和批注手写体学字符应建立高频库。应将无法识别的手写体筛选出来，通过人工识别，并将识别成果存入字符库。 7.3.3.3应通过将比对后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的字词对识别文字进行除错或更正，以提高OCR识别准确率

7.4.1应对识别的文本进行自动语义识别和校正，通过词汇库和语义库对识别后文本中的字符、词汇语句自动进行逐层分析更正。词汇库和语义库应具备更新和自动学习功能。 7.4.2应对候选字、拒认字和可能有问题的字词、语句进行标记， 7.4.3应支持以人工方式对OCR成果进行图像与识别文字对照、修正等校正的功能，以满足更高识别准确率的特殊要求

.5.1.1支持按照纸质档案数字复制件的版式对OCR成果的段落和表格进行版面理解与重建。重建后OCR成果的段落编排、表格样式应与纸质档案数字复制件图像一致。 .5.1.2应自动分析、提取党政机关公文的各公文要素，包括密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等。档案OCR 成果中各公文要素位置应与纸质档案数字复制件图像一致。 7.5.1.3应支持调用、编辑、备份、导出OCR成果，支持对文字、符号的搜索等功能

7. 5. 2成果输出

7.5.2.1档案OCR成果应同时保存为纯文本形式和双层PDF/OFD文件形式。 7.5.2.2应以纸质档案的件或页为单位输出、保存纯文本形式档案OCR成果。纯文本形式OCR成果保存规则参见表1：

表1OCR成果保存规贝

应以档号为基础对纯文本形式档案OCR成果命名，命名方式的选择应确保档案OCR成果

7.5.3.1应采用计算机自动检验与人工检验相结合的方式对纸质档案OCR成果进行验收检验。 7.5.3.2验收检验内容包括OCR成果、提取的党政机关公文要素、数据挂接情况、OCR工作文件和存诸载体等。 7.5.3.3能够采用计算机自动检验的项目应采用计算机自动检验的方式进行100%检验，对于无法用计算机自动检验的项目，可根据情况以件或卷为单位采用抽检的方式进行人工检验。抽检比率不得低于5%。

8.1.1档案OCR对档案中文、数字、英文印刷体的识别准确率在95%以上。 8.1.2档案OCR对常用签名识别准确率达到90%以上，手写体识别准确率达到80%以上。

能力，识别过程中能够有效屏散较大程度的噪点十扰。 2档案OCR应能准确判别纸质档案数字复制件上的污点、污线、黑边、纸张褪变斑点、水渍装订孔等，提高识别准确率

8.3.1识别速度指标与识别准确率指标应同时适用。 8.3.2在主流计算机软硬件平台下，A4纸幅面中文识别速度不低于1000字/s，英文识别速 2000字/s。

1应实现复杂版面的精确还原，采用分栏技术，智能分析中文（简体、繁体）、英文字体，文、表、图本，识别后无需人工干预，自动还原排版。 2识别后的文档与原导人图像版面还原度应达到90%以上。

9档案OCR成果的管理与应用

9.1.1应保持档案OCR成果各组成要素对应的纸质档案数字复制件、档案目录、元数据之间的逻辑层次和关联关系。 9.1.2以纯文本形式保存的档案OCR成果应使用档号作为文件名GB/T 38640-2020 盲用数字出版格式，可在存储载体中以档号为基础逐及建立层次文件夹单独保存，也可与纸质档案数字复制件统一保存 9.1.3支持全文检索的双层PDF或OFD文件可与对应的纸质档案数字复制件统一存储。数字档案官（室）应用系统应记录并维护不同文件版本之间的联系。 9.1.4档案OCR成果文件管理权限应与纸质档案数字复制件相同

9.1.1应保持档案OCR成果各组成要素对应的纸质档案数字复制件、档案目录、元数据之间的逻辑层次和关联关系。 9.1.2以纯文本形式保存的档案OCR成果应使用档号作为文件名，可在存储载体中以档号为基础逐级建立层次文件夹单独保存，也可与纸质档案数字复制件统一保存， 9.1.3支持全文检索的双层PDF或OFD文件可与对应的纸质档案数字复制件统一存储。数字档案馆（室）应用系统应记录并维护不同文件版本之间的联系。 9.1.4档案OCR成果文件管理权限应与纸质档案数字复制件相同 9.1.5OCR成果应与

当案OCR成果应通过数字档案馆（室）应月提高档案信息检索效率发挥档案OCR成果提取的归档信息和党政机关公文要素的作用，辅助开展档案自动著录核查，以及纸质档案数字复制件挂接准确性核查等业务工作可利用档案OCR成果，结合数据挖掘技术开展数据分析、知识管理、词库建设等工作

.2.3可利用档案OCR成果DB21T 2034-2012 根径-胸径、地径-胸径对照表落叶松，结合数据

附录A （规范性附录）公文要素OCR识别要求公文要素OCR识别要求见表A.1.

公文要素OCR识别要

建筑工业标准林业标准测绘标准纺织标准物资标准煤炭标准卫生标准国家计量标准广播电影电视电力标准机械标准

资源来自互联网，如有侵权请联系删除

DA_T 77-2019纸质档案数字复制件光学字符识别(OCR)工作规范.pdf

标准规范下载简介：

内容预览由机器从pdf转换为word，准确率92%以上，供参考

· DBJ50／T 390-2021 公交停车港设计

1 TSG 21-2016 固定式压力容器安全技术监察规程

2 NB/T 47013.2-2015 承压设备无损检测第2部分：射线检测

3 RFJ 01-2015 人民防空工程质量验收与评价标准

4 NB/T 47013.3-2015 承压设备无损检测第3部分：超声检测

5 TSG Q7015-2016 起重机械定期检验规则

6 TD/T 1001-2012 地籍调查规程

7 NB/T 47013.5-2015 承压设备无损检测第5部分：渗透检测

8 NB/T 47013.4-2015 承压设备无损检测第4部分：磁粉检测

9 AQ/T 9007-2011 生产安全事故应急演练指南

10 NB/T 47041-2014 塔式容器

11 NB/T 47013.10-2015 承压设备无损检测第10部分：衍射时差法超声检测

12 CECA GC2-2015 建设项目设计概算编审规程

13 AQ/T 3049-2013 危险与可操作性分析（HAZOP分析)应用导则

14 NB/T 32004-2013 光伏发电并网逆变器技术规范

15 TSG R0006-2014 气瓶安全技术监察规程

1 GB/Z 18461-2001 激光产品的安全生产者关于激光辐射安全的检查清单

2 GB/T 16729-1997 建筑外门保温性能分级及其检测方法

3 GB/T 1222-2007 弹簧钢

4 GB 9667-1996 游泳场所卫生标准

5 CB 3324-1987 钢质舾装件精度要求

6 JB 4246-1986 旋转概率筛

7 GB 26512-2011 商用车驾驶室乘员保护

8 MT/T 1158-2011 镜质体反射率的煤化程度分级

9 GJB 6467.2-2008 贵金属及其合金物理性能试验方法电阻温度系数（0℃～100℃）的测定

10 CECS 491-2017-T 埋地排水用螺纹钢管管道工程技术规程

11 DL／T 5755-2017 沙漠地区输电线路杆塔基础工程技术规范

12 雨水调蓄设施--钢筋混凝土雨水调蓄池（2020版）

13 施庄供电所生产用房建设项目工程施工方案

14 大兴凤河(四标)河道治理工程施工方案

15 网架工程滑移施工方案

DA_T 77-2019纸质档案数字复制件光学字符识别(OCR)工作规范.pdf

标准规范下载简介：

内容预览由机器从pdf转换为word，准确率92%以上，供参考

· DBJ50／T 390-2021 公交停车港设计

1 TSG 21-2016 固定式压力容器安全技术监察规程

2 NB/T 47013.2-2015 承压设备无损检测 第2部分：射线检测

3 RFJ 01-2015 人民防空工程质量验收与评价标准

4 NB/T 47013.3-2015 承压设备无损检测 第3部分：超声检测

5 TSG Q7015-2016 起重机械定期检验规则

6 TD/T 1001-2012 地籍调查规程

7 NB/T 47013.5-2015 承压设备无损检测 第5部分：渗透检测

8 NB/T 47013.4-2015 承压设备无损检测 第4部分：磁粉检测

9 AQ/T 9007-2011 生产安全事故应急演练指南

10 NB/T 47041-2014 塔式容器

11 NB/T 47013.10-2015 承压设备无损检测 第10部分：衍射时差法超声检测

12 CECA GC2-2015 建设项目设计概算编审规程

13 AQ/T 3049-2013 危险与可操作性分析（HAZOP分析)应用导则

14 NB/T 32004-2013 光伏发电并网逆变器技术规范

15 TSG R0006-2014 气瓶安全技术监察规程

1 GB/Z 18461-2001 激光产品的安全 生产者关于激光辐射安全的检查清单

2 GB/T 16729-1997 建筑外门保温性能分级及其检测方法

3 GB/T 1222-2007 弹簧钢

4 GB 9667-1996 游泳场所卫生标准

5 CB 3324-1987 钢质舾装件精度要求

6 JB 4246-1986 旋转概率筛

7 GB 26512-2011 商用车驾驶室乘员保护

8 MT/T 1158-2011 镜质体反射率的煤化程度分级

9 GJB 6467.2-2008 贵金属及其合金物理性能试验方法 电阻温度系数（0℃～100℃）的测定

10 CECS 491-2017-T 埋地排水用螺纹钢管管道工程技术规程

11 DL／T 5755-2017 沙漠地区输电线路杆塔基础工程技术规范

12 雨水调蓄设施--钢筋混凝土雨水调蓄池（2020版）

13 施庄供电所生产用房建设项目工程施工方案

14 大兴凤河(四标)河道治理工程施工方案

15 网架工程滑移施工方案

2 NB/T 47013.2-2015 承压设备无损检测第2部分：射线检测

4 NB/T 47013.3-2015 承压设备无损检测第3部分：超声检测

7 NB/T 47013.5-2015 承压设备无损检测第5部分：渗透检测

8 NB/T 47013.4-2015 承压设备无损检测第4部分：磁粉检测

11 NB/T 47013.10-2015 承压设备无损检测第10部分：衍射时差法超声检测

1 GB/Z 18461-2001 激光产品的安全生产者关于激光辐射安全的检查清单

9 GJB 6467.2-2008 贵金属及其合金物理性能试验方法电阻温度系数（0℃～100℃）的测定