第一章 公司简介
北京文通科技有限公司是享誉国内外的OCR(光学字符识别)技术生产商、文档影像技术和应用解决方案提供商。经过多年的创新与发展,文通科技现已成长为国内知名的高新技术企业,在全国十余个城市建立了分支机构,公司产品涉及多个领域。
在与清华大学的携手合作过程中,文通科技成功地将"国家863计划"项目成果——"文字图像识别技术TH-OCR"产业化,真正实现了TH-OCR技术与市场应用的完美结合。
文通科技以TH-OCR和手写识别技术为核心,研发出多项产品并提供多种行业解决方案,依靠完善的服务体系,拓宽了产品技术应用领域。目前,文通科技已经拥有跨平台(包括Windows/Linux/Android/IOS及嵌入式平台)的智能图像处理、亚洲文字OCR、手写识别、二维条码识别等自有知识产权技术。公司业务深入至金融保险、智能交通、税务、公共安全、政府等行业领域。
文通科技秉承以人为本的理念,不断培养和引入尖端技术及管理人才,并充分发挥人才优势,取得了丰硕的科技成果,在国内外信息化领域获得广泛认可,产品荣获包括国家科学技术进步二等奖在内的几十项国内外大奖,共取得四十余项软件著作权和多项专利,规范的现代化管理也使得文通科技顺利通过"ISO9000 质量体系认证"。
“源于清华,服务全球”,在创新的征途上,文通科技迈着锐意进取的步伐,凭借着领先的核心技术、精准的市场定位、优秀的产品及解决方案、完善的服务体系,文通科技将在信息化浪潮中发挥越来越重要的领军作用!
第二章 系统功能组成模块
《文通银行票据识别系统》基本组成模块
《文通银行票据识别系统》主要由以下基本模块组成:
1)模板编辑器
《文通银行票据识别系统》为最终用户提供了方便快捷的模板制作工具,这就是模板编辑器。通过模板编辑器,用户可根据自己业务系统的实际需要,灵活定制如下票据识别内容:哪些票据需要分类、哪些票据需要识别、在票据识别过程中采用何种定位机制、需要对票据的哪些域(如账号、金额、日期等)进行识别、票据特征学习等。
有了模板编辑器,经过简单培训,用户(如系统管理员)无须系统集成商和OCR提供商的参与,就能够独立完成模板制作。
2)银行票据图像预处理模块
银行票据图像预处理模块是银行票据分类识别的前驱工作,通过倾斜校正、去黑边、滤噪声、滤色(彩色方案)、二值化(彩色方案)、滤波等一系列数字图像处理技术,得到利于分类识别的内存图像。
该模块直接影响后续的分类识别效果,因此是整个识别系统的关键环节之一。
3)版面理解模块
《文通银行票据识别系统》具有高效准确的版面理解功能,通过版面理解模块,系统能快速地分析出票据的抬头位置、票据的线条信息、字符的手写或打印位置、字符类型(字符是打印的还是手写的、字符是中文字符还是数字等等)。
4)银行票据分类模块
银行票据分类是指确定票据属于哪种票据类型。在版面理解的基础上对票据进行准确分类,是对票据关键字段(如账号、金额、日期等)进行识别的基础,只有对票据进行准确分类之后,才有可能对票据中的关键字段进行识别。
《文通银行票据识别系统》同时采有多种分类机制(如框线匹配、抬头匹配、基于网格特征的票据分类、色彩特征分析等)来确保对票据进行精确分类。
5)字符识别模块(TH-OCR识别核心)
根据分类模块输出的票据类别,在模板的指导下,对票据识别域进行准确定位,并识别相关字段,输出识别结果。
字符识别模块是整个票据识别系统中的最关键模块,系统识别性能的好坏直接取决于字符识别模块。
《文通银行票据识别系统》采用TH-OCR作为系统的识别模块。TH-OCR包含印刷汉字识别、印刷英文识别、印刷符号识别、印刷数字识别、手写汉字识别、手写英文识别、手写符号识别、手写数字识别、磁码识别、条形码识别及小字符集识别等多个识别引擎。
第三章 文通银行票据识别系统性能
3.1 适应性强:文通银行票据识别系统简体中文识别核心支持常用的宋体、仿宋、楷体、黑体、隶书、幼圆等汉字字体。印刷体英文和数字同样支持多种字体包括常见的:Arial、Times New Roman、Avant Garde、Bookman Old Style、 Helvetica、Verdana等多种字体。通过对银行的几轮测试对横纵向压缩后的数字识别有很好的适应性,能取得较高的识别率。
3.2 票据分类精准:文通银行票据识别系统有很强的版面区分能力,充分利于框线、框线颜色、标题内容、标题颜色、文本内容、文本颜色等多种特征来进行版面的区分,版面识别的准确率在99%以上。
3.3 识别类型丰富:系统支持印刷汉字识别、印刷英文识别、印刷数字识别、手写汉字识别、手写英文识别、手写数字识别、磁码识别、条形码识别、客户签字检测、附件章检测等多个识别引擎。
3.4 识别速度快:经过实际生产线运行计算,单张票据识别时间为300ms~900ms,平均识别时间约为500ms。
3.5 识别率高:
印刷体汉字识别率达99.5%;
印刷体英文和数字识别率>99.6%;
规范手写数字识别率达99%;
一维条码、二维条码(PDF417、DataMatrix)识别率>99%。