Hi:欢迎来到中国论文网     

所有论文科目分类

中国论文网 > 免费论文 > 计算机论文 > 计算机软件 >

关于深度学习在手写汉字识别中的应用综述

作者:2017-02-05 10:37阅读:文章来源:未知
   由于在拍照文档、支票、表单表格、证件、邮政信封、票据、手稿文书等光学字符识别(Optical character recognition, OCR) 图像识别系统以及手写文字输入设备中的广泛应用前景, 自从上个世纪80 年代以来, 手写汉字识别(Handwritten Chinesecharacter recognition, HCCR) 一直是模式识别的一个重要研究领域, 得到了学术界的广泛研究和关注. 手写体汉字识别由于数据采集方式不同可以划分为脱机(O²ine) 手写体汉字识别和联机(Online) 手写体汉字识别两大类. 联机手写汉字识别所处理的手写文字是书写者通过物理设备(如数字笔、数字手写板或者触摸屏) 在线书写获取的文字信号, 书写的轨迹通过定时采样即时输入到计算机中. 而脱机手写文字识别所处理的手写文字是通过扫描仪或摄像头等图像捕捉设备采集到的手写文字二维图片. 由于识别的对象不同, 使得这两类手写识别技术所采用的方法和策略也不尽相同. 前者的识别对象是一系列的按时间先后排列的采样点信息, 而后者则是丢失了书写笔顺信息的二维像素信息,由于没有笔顺信息, 加之由于拍照扫描设备在不同光照、分辨率、书写纸张等条件下, 数字化会带来一定的噪声干扰, 一般来说, 脱机手写文字识别比联机手写文字识别更加困难.手写汉字识别是一个极具挑战性的模式识别及机器学习问题, 主要表现在:
  1) 中文汉字字符级别的类别繁多, 仅1980 年制定的国标GB2312-80 编码就定义了多达6 763 类常用汉字, 远远高出英语、拉丁语等通常只有几十类数目的西方语言. 然而此编码标准仍然不能满足汉字信息处理的需求, 所以在2000 年发布的国标GB18010 第一版(GB18010-2000) 大幅度扩展了字符集, 定义了27 533 类汉字编码标准, 并成为汉字信息处理产品必须遵循的强制性执行标准; 此后2005年发布的国标第二版(GB18010-2005) 更是新增加了42 711 个汉字和多种少数民族文字等字符, 收录的字符类别高达70 244 类汉字.
  2) 相比较于印刷体汉字, 手写体字符的书写随意性大, 缺乏规范性, 人们经常使用的横、竖、撇、捺、点等笔划容易变形, 如直笔划变弯, 折笔划变成圆弧, 短横、短竖变成点, 点变成捺等, 笔划的倾斜角、笔划的相对长度不稳定; 连笔、笔划不清, 笔划之间的连接关系可能发生变化, 不该连的连上了, 该连的反而没有连; 笔划不清、缺笔等现象时有发生.这些都给识别造成了很大的困难; 另外, 不同书写人书写风格多样和存在明显差异, 出自不同书写者的同一类汉字在汉字字形, 汉字结构都会有明显的差异; 中国人口众多, 可以说几乎每个人都有自己的书写风格, 各种不同风格之间可能存在较大差异; 手写汉字的风格迥异, 从楷书、行书到草书, 识别难度逐渐提高.
  3) 中文汉字中存在很多相似字和易混淆的汉字对, 例如: \已-己"、\口-囗"、\泪-汨-汩"、\雎-睢"、\汆-氽"、\睛-晴"、\海-诲"、\绞-纹"、\莱-菜" 等,这些高度相似的字符给计算机自动识别带来极大挑战.
  4) 充分的训练数据及其多样性是设计和训练一个手写汉字识别系统的关键, 但目前针对大类别多风格的无约束手写数据库仍显不足. 数据库的采集和整理工作需要消耗大量人力物力来兼顾规模性和准确性. 北京邮电大学发布的HCL2000 脱机手写数据库及国家863 中文手写评测数据, 都是比较规范书写的数据; 相比而言, 目前能表现真实书写情况的手写单字数据库有中国科学院发布的CASIA-OLHWDB1.0-1.2 联机单字, 文本行数据集, 以及华南理工大学发布的涵盖单字、词组、文本行、数字、字母、符号等综合手写数据集SCUT-COUCH, 但上述两个较新的数据集类别局限于GB2312-80 标准的6 763 类, 并且数据总量仍然不够大.一般而言, 传统的手写中文单字识别系统主要
  包括数据预处理、特征提取和分类识别三部分:
  1)数据预处理主要包括样本归一化、平滑去噪、整形变换、伪样本生成、添加虚拟笔画(对联机数据) 等;
  2) 特征提取部分可以分为结构特征和统计特征两种, 结构特征主要对汉字结构、笔画或部件进行分析来提取. 但对手写字符而言, 目前最好的特征基本上都是统计特征, 例如方向特征. 对脱机HCCR 而言, Gabor 特征及Gradient 特征是目前比较好的两种方向特征提取方法; 对联机HCCR 而言, 8 方向特征[24]是目前最有效的特征之一;
  3) 分类器最常用的模型包括改进的二次判决函数(Modied quadratic discriminated function, MQDF)、支持向量机(Support vector machine, SVM)、隐马尔科夫模型(Hidden Markov model, HMM)、鉴别学习二次判决函数(Discriminative learning quadratic discriminate function, DLQDF) 和学习矢量量化(Learning vector quantity, LVQ) 等. 对于文本行识别, 主要有基于切分策略和无切分策略的两种识别方法, 分别利用投影法、连通域分析法等方法对文本行进行字符分割, 利用单字分类器对分割好的字符, 或利用滑动窗口按一定步长滑窗, 利用单字分类器对滑动窗口内的字符进行识别, 结合统计语言模型, 在Bayes 等学习框架下对整个文本行的上下文关系进行建模, 从而得出整体行识别结果.经过四十多年来研究学者的不懈努力, HCCR取得了极大进展, 例如文献中使用鉴别特征提取方法(Discriminative feature learning, DFE)和鉴别学习二次判决函数(Discriminative learn-ing quadratic discriminant function, DLQDF) 分类器, 在极具挑战的联机和脱机手写汉字数据集CASIA-OLHWDB 和CASIA-HWDB 的几个不同子集上, 联机手写单字符识别取得的最好识别率分别是: 95.28% (DB1.0, 4 037 类汉字)、94.85%(DB1.1, 3 926 类汉字) 和95.31% (ICDAR 2013Competition DB, 3 755 类汉字), 脱机手写单字符识别取得的最好识别率分别是: 94.20% (DB1.0),92.08% (DB1.1) 和92.72% (ICDAR 2013 Com-petition DB).
  但是, 无论是联机还是脱机手写识别, 仍然没有达到足够高的精度. 最近的研究测试表明: 目前市场上的主流手写识别软件的识别率并没有达到很高的精度, 不少知名品牌的手写输入法软件的识别率达不到90 %, 最好的系统的识别率也仅仅为95% 左右, 许多软件系统支持的字符集很不齐全, 在文本行/单字或重叠/单字混合书写识别模式下, 不少系统的识别率急剧下降, 相关软件产品的识别性能体验亟待改善.
  因此, 可以说手写汉字识别仍然是一个还没有完全解决的具有挑战性的研究课题.近年来, 由于智能手机、平板电脑等触屏智能设备以及以Microsoft Surface Pro4、iPad Pro、三星Note4 等为代表的手写笔交互的移动互联网智能设备的迅猛发展, 并逐渐在人们日常生活中占据重要地位. 随着触屏智能手机代替传统键盘手机, 笔交互设备的第二次复兴, 文字输入从原来纯键盘的拼音或五笔输入方式将逐渐变成虚拟键盘、手写和语音等多种输入结合的方式. 艾媒咨询2015 年第二季度中国市场调研数据显示: 输入方式的使用比例中, 手写输入方式占13.1 %, 仅次于九宫格拼音(占47.2 %) 和全键盘拼音输入(占24.8 %), 并远大于语音输入(占5.8 %) 和五笔输入(3.6 %), 手写输入用户连续三年呈现平稳增长态势, 手写输入作为一个重要的触屏交互应用也逐渐流行并广受重视, 每天将产生大量的各种各样手写样本.
  因此, 中文手写识别技术仍然值得更多的关注和更深入的研究.手写体汉字识别经历了四十多年的长足发展,在单字和文本行识别性能上有了很大的提高, 特别是以CNN 为代表的一系列深度学习模型的出现, 手写单字符中文识别问题已经基本上得到了很好解决,无论是联机还是脱机手写中文字符识别, 目前基于CNN 及其改进模型的方法均取得了接近甚至是超过人眼识别性能的高识别率. 然而, 在手写汉字识别领域, 仍然很多值得研究的问题有待解决, 例如:
  1) 手写文本行识别问题: 目前基于深度学习模型的联机及脱机手写文本行识别的成功报道很少,自从ICDAR 2013 中文手写文本行竞赛以来, 近两年在此方向上仍然没有突破性进展, 对于联机中文手写文本行识别, 目前最好的识别率指标(CR 或者AR) 均才达到95% 左右, 而脱机手写文本行识别最好的AR 及CR 指标仅为90% 左右,特别是以整行为单位来评价识别率, 行级别的识别率将会很低, 仍然有很大的提升空间. 可以说联机及脱机手写文本行识别仍然是未解决的难题. 一些值得关注的研究方向包括:
  a) 融合基于切分+基于CNN 的单字识别+路径优化算法, 这当中有不少关键技术需要解决, 例如如何提升CNN 的置信度的可靠性、能否用CNN 的方法进行字符分割等; b) 基于无切分的RNN/LSTM/BLSTM 的滑窗式识别方法, 此方面对于小类别的拉丁文字已经成为公认的最佳方法, 但对于大类别的汉字识别问题是否最优仍然值得商榷及探讨; c) 基于CNN+LSTM 的端到端的纯深度学习解决方案.
  2) 无约束的手写文字识别问题: 其中一个值得关注的研究问题是旋转无关的手写识别问题, 根据2010 年发布的国家标准GB/T18790-2010 \联机手写汉字识别系统技术要求与测试规程", 手写输入软件及设备必须要能识别的手写样本, 然而目前市场上的绝大部分主流输入法产品均无法满足此要求. 尽管一些研究人员注意到此问题, 并开展了不少前期探索工作, 但总体而言, 此问题仍然远未得到有效解决. 相信深度学习新技术的出现, 将为解决此问题提供崭新的思路及技术手段.另外, 目前的研究工作绝大部分局限于解决简单的问题, 例如单字符识别或简单的文本行识别, 对于联机手写重叠文本行识别、混合手写单字/文本行/重叠以及来自整屏任意无约束书写的手写汉字识别的研究工作仍然鲜有报道, 这是一个值得研究的课题.
  3) 超大类别手写汉字识别问题: 目前手写汉字识别研究报道所能识别的文字类型基本上以国标一级字库3 755 类汉字为主, 针对实际应用场景下要能识别10 000 个以上类别的实用化手写识别研究的报道还不多, 且缺乏公开的超大类别(例如支持GB8010-2000 标准的27 533 类) 训练及测试数据集. 在如此大类别的情况下, 如何研究一个处理速度快、模型参数足够小的可实用化的基于深度学习的解决方案将变得极具挑战性, 从ICDAR 2013 手写中文竞赛的评测结果来看, 基于深度学习的解决方案无论是在存储量还是识别速度上均还没有达到实用化的要求. 因此, 超大规模数据集的构建、针对各种深度学习模型的快速算法、深度学习模型的参数压缩技术等问题仍然需要研究人员的继续探索及解决. 此外, 超大类别还有一个很大的应用是古籍文献及手稿的内容识别及检索, 中国古籍的字符类别超过3 万类, 而且有更多的变体字和相似字, 如何解决训练样本不足的问题以及如何设计超大类别分类器都是值得关注的问题.
  4) 新的深度学习模型在手写汉字识别中的应用研究: 目前在手写汉字识别领域能取得比传统方法明显好的深度学习模型主要是基于CNN 及其各种改进方法, 其他的深度学习模型如DBN、RNN、LSTM/BLSTM/MDLSTM 以及深度强化学习(DRN) 模型在大类别手写汉字识别中的研究工作开展得还不多, 各种深度学习模型之间的相互联系及融合应用的研究并不深入, 我们十分期待其他的深度学习模型以及未来能有更新更好的针对文字识别的深度模型能提出来, 并在手写汉字识别领域能取得突破性进展, 从而促进此领域的研究及发展.
  5) 自然场景中的文字检测与识别: 近年来, 随着大量的互联网图片爆炸式增长, 自然场景中的文字检测及识别成为文字识别乃至计算机视觉领域一个极其重要和广受关注的热点研究课题, 深度学习理论及技术的出现和发展为解决这一极具挑战的难题提供了很好的解决方案, 近年来已经出现了大量研究成果. 但与传统的MSER框架的方法相比, 深度学习的方法处理速度慢、模型参数存储量大等也亟待解决. 在检测识别精度方面,从ICDAR 2015 场景文字检测及识别竞赛的结果来看: 非受限环境下的自然场景文字(Incidentalscene text) 检测及识别性能还远未得到有效解决,文字检测任务(Task 4.1) 最好的召回率(Recall) 才46.94 %, 单词识别任务(Task 4.3) 最好的正确识别率仅为32.93 %. 在无语料信息的真实环境下的端到端识别任务(Task 4.4), 最好识别率仅34.96 %, 可见此问题极具挑战性, 仍然有极大的提升空间. 此外, 目前绝大多数研究工作是针对英文语言, 针对中文的自然场景文字检测及识别的研究报道还不多见,而自然场景图像中的手写汉字检测及识别方面的研究工作开展的还很少, 要解决这些问题任重而道远.总体而言, 深度学习为解决手写汉字识别提供了新的理念及技术, 近几年来也在此领域诸多方面取得了大量的研究成果, 但仍然有不少研究问题值得进一步研究. 本文通过对相关领域的研究进展的回顾及分析讨论, 希望能够给该领域的研究人员带来新的信息及研究思路, 共同促进手写体汉字识别及相关文档分析与识别领域的进一步发展与繁荣.
 

最近相关

最新更新

热门推荐

[美术摄影]浅谈设计美
艺术设计是一种审美性的设计,是艺术与技术相结合服务于现实生活的手段,实用性与审美性是其重要的两个特征。设计美学...[全文]
[音乐舞蹈]谈武术与舞蹈共同发展之路
自古以来就有舞蹈与武术同源近根的说法,但是至今为止,由于关于武术与舞蹈起源的问题一直缺乏可以证实的材料,众多学者也...[全文]
[近现代史]十八届六中全会公报在我市广大党员干部中引起强烈响应
10 月24 日至27 日,党的十八届六中全会在北京举行,全会审议通过《关于新形势下党内政治生活的若干准则》(以下简称《准...[全文]
[文学理论]浅析民间美术造型元素的现代审美
我国民间美术的发展历程已经延续了数千年之久,民间美术属于民间传统文化的重要构成部分之一,并备受社会各界的广泛支...[全文]
[文学理论]浅析普通高校公共艺术教育的课程体系研究
一、引言 公共艺术课程是为培养社会主义现代化建设所需要的高素质人才而设立的限定性选修课程,对于提高审美素养、培...[全文]
[文学理论]浅析应用型人才培养模式下的文学理论类课程教改探索
近年来,以二、三本院校为主的应用型本科教育普遍重视实践教学,强化应用型人才培养,将实践教学作为培养学生实践能力...[全文]
[文学理论]浅析散文翻译中的美学问题
散文的定义可从广义和狭义两方面来说,广义上讲,散文是一种与诗歌相对的文学体裁 ;从狭义上来说,是一种与诗歌、小说...[全文]
[文学理论]浅析色彩心理应用对品牌建设的重要性
0 前言 对于 CI 设计,有些人还不熟悉,事实上CI对企业品牌的塑造起到积极的推动作用。CI作为企业形象战略,有其不可低估...[全文]
[文学理论]浅析色彩艺术的心理效应研究
色彩在艺术家的手中,不仅是单纯的描绘与填充工具,而是表达艺术家内心世界的重要表现形式。这种心理的表达描述着人们...[全文]
[文学理论]边缘文化身份下的杜拉斯自传体小说研究
摘要 作为法国最具有争议的女作家玛格丽特杜拉斯,无法归类是杜拉斯最为明亮的一个标签,这一标签闪现出了杜拉斯的边...[全文]
[文学理论]浅析少数民族宗教艺术的社会美育系统
一、 少数民族宗教艺术的美学表现 (一) 少数民族宗教建筑的美学形式少数民族宗教建筑艺术的美学表现指宗教建筑的形体视...[全文]
[文学理论]浅析社会转型期传统民间美术的现代变迁
在我国恢弘、悠久的民族文化中,民间美术以其多姿多彩、种类繁多而占有重要的位置,是一切美术形式的源泉。中国民间美...[全文]

热门标签