loading 请求处理中...
毕业论文 基于XML技术的版面复原研究

价格¥99.00元 /

销量浏览人数324

地区暂无

交付方式站内下载

现在购买

友情提醒:为保障您的利益,请网上成交,贵重物品,请将付款托管到平台进行交易。

免责声明:本网所展示的论文与服务信息由买卖双方自行提供,其真实性、准确性和合法性由信息发布人负责。本网不提供任何保证,并不承担法律责任。

描述 查看论文信息和论文文件预览

毕业论文-基于XML技术的版面复原研究,共54页,26602字
版面复原技术是文档数字化过程中一个重要的步骤。本文利用XML(eXtensible Markup Language)支持结构化标签组织文档的优点,实现了文档的多层次,高保真的版式复原。主要的工作有:
1,针对目前文档版面复原尚未得以解决的问题,尤其是字体识别问题进行了研究。在字体识别方面,实现了一种基于纹理的字体识别方法,并与一种基于单字小波特征的字体识别算法进行对比实验,选定后者为基础实现了字体识别模块用于字体信息的提取,可以识别7种中文字体和2种日文字体。
2,将文档的全部内容,包括物理版式信息,逻辑结构信息等以XML格式进行表达。提出了将文档版面元素包含的复杂信息按一系列XML标签及其属性方式进行组织的方案,实现了支持中日英等多语种的全信息结构化XML文档格式定义。并开发了表格逻辑结构组装等提取版面信息的相关技术。
3,研制了还原显示版面的XSL脚本。脚本利用HTML 4技术控制浏览器的显示,在IE浏览器中能够获得很好的显示效果。
利用以上技术,我们实现了一个版面复原系统。该系统以THOCR软件的输出结果为基本依据,补充识别其遗漏的部分版式信息,以结构化的组织方式存放所有版面信息,并能够准确还原显示。该系统在数字图书馆建设,文档自动数字化,跨平台应用等方面都具有广阔的应用前景。
Layout reconstruction is an important procedure in document digitalization. In this thesis, a hiberarchy hi-fi layout reconstruction system is realized with the help of structured-tab organization supporting of XML (eXtensible Markup Language). The main results are listed as follows:
(1) An investigation has been carried out in order to solve the problem in the layout reconstruction area, especially the font recognition problem. A algorithm to identify the font through texture feature of multiple characters is realized, and is compared with a algorithm based on wavelet feature of single character. The later one is applied in the layout reconstruction system with the capability of identifying 7 Chinese fonts and 2 Japanese fonts.
(2) All the information within the layout, including both physical layout info and logical layout info is described in an XML format. A format of recording all the info by a series of XML tabs and their attributes is proposed, which can describe a multi language holography structured document.
(3) A XSL script used to show the page in browser is developed. The script can gain a perfect visual effect through HTML 4 in IE.
We realized a system through all the technology mentioned above. The system can reconstruct the layout correctly by using not only the output of THOCR but also some additional info. The system may be widely used in digital library, automatic digitalization of documents, etc.
目录
摘要.............................................................. I
Abstract ......................................................... II
第一章 引言 ....................................................... 1
1.1 版面复原的意义 ..............................................1
1.2 版面复原技术现状 ............................................2
1.2.1 字体识别技术现状 ......................................2
1.2.2 版面信息复原技术现状 ..................................3
1.3 本文主要工作概述 ............................................5
1.4 论文的安排 ..................................................6
第二章 字体识别 ................................................... 7
2.1 基于多个字符纹理特征算法分析 ................................7
2.2 基于单个字符小波特征算法分析 ................................8
2.3 方案对比 ....................................................9
2.3.1 样本集介绍 .............................................9
2.3.2 对比实验 ..............................................13
2.3.3 噪声实验 ..............................................17
2.4 结论 .......................................................18
第三章 XML 版面复原文档格式的设计与实现 ........................... 20
3.1 区域属性介绍 ...............................................20
3.1.1 文字区域 ..............................................20
3.1.2 行属性 ................................................21
3.1.3 单字属性 ..............................................21
3.1.4 表格区域 ..............................................21
3.1.5 图片区域属性 ..........................................22
3.2 XML 格式设计 ...............................................22
3.3 整体流程 ...................................................23
3.4 XML 文档的实现 .............................................24
3.4.1 表格组装 ..............................................26
3.4.2 彩色文本区域的处理 ....................................29
第四章 版式重现 .................................................. 34
4.1 文字区域 ...................................................35
4.1.1 行定位方案 ............................................36
4.1.2 字定位方案 ............................................37
4.2 图片区域 ...................................................38
4.3 表格区域 ...................................................38
4.3.1 方案一 ................................................38
4.3.2 方案二 ................................................39
第五章 结束语 .................................................... 41
5.1 本文的研究成果 .............................................41
5.2 展望 .......................................................42
参考文献 ......................................................... 43
致谢与声明 ....................................................... 44
外文资料的调研阅读报告 ........................................... 45


论文大小:4.33MB
论文格式:word
论文专业:电子信息工程
论文编号:209544
论文文件预览:
共1文件夹,1个文件,文件总大小:4.33MB,打包后大小:1.49MB

  • 毕业论文-基于XML技术的版面复原研究
  • doc毕业论文-基于XML技术的版面复原研究.doc  [4.33MB]

返回查看论文简介
  • 改文网是一个通过互联网,解决撰写方面的文章代写交易、论文代写平台,改文网本着让知识和财富快速流通、让时间和金钱等比交换的原则!致力于打造一个让网络写作人才展露头角的舞台,一个让能力变成财富的平台,一个用时间换取金钱的空间!
  • 改文网的所有论文代写任务都支持稿件交易中介服务,其运作的实质是以改文网作为交易中介,在雇主确认收到满意稿件前,由改文网替约稿双方暂时托管稿费,有效解决论文代写过程中普遍存在的诚信问题,保障写手和雇主双方利益。
  • 改文网代写论文代写文章包括经济、计算机、管理、各种设计、法律、教育、理学、人文、工科、医学、农业、论文写作指导、应用文写作、文章代写等多种撰写格式,我们拥有成千上万计的各专业网络写手,并长期活跃在改文网,为您分忧解难或提供详尽的代写方案
  • 您还可以通过论文代写平台参与代写职称论文代写毕业论文等写作任务来赚取稿费;并可建立自己的个人代写店铺,这是展示您的一个宣传平台!在论文代写论坛里,您可以与大量的论文写作爱好者,写作高手共同探讨写作方面的话题,增长见识,提升您的写作文笔。