数学公式识别吧 关注:24贴子:66
  • 38回复贴,共1

[软件发布]MathOCR准预览版0.0.1发布

只看楼主收藏回复

[广告]MathOCR——一个数学公式识别系统
相信很多人都做过输入数学公式这种繁杂且容易出错的工作,因为纸质、PDF文档、PS文档、图片中的数学公式都不便于重用。你也许梦想过用软件把图片形式的数学公式自动转换为LaTeX代码,不过你大概没有自己动手实现过这个想法。事实上,像你这样的人不少,虽然你可以轻易地找到成百篇讨论数学公式识别技术的论文,但想找到一个能用的数学公式识别系统却异常困难。MathOCR就是目前少有的(如果不是唯一的)一个作为自由软件的印刷体数学公式识别系统。确实,其识别率仍不理想,但它至少让我们看到一点希望。
基本信息
项目网址:http://sourceforge.net/projects/mathocr/
项目开始时间:2014年3月
开发者:国内某校的一个数学本科生
开发语言:Java
运行平台:JVM(需支持Java 7)
用户介面语言:中文/英文(由当前用户语言环境决定)
许可证:GPLv3
目标人群
师生和科研人员:希望对科技文献中数学公式进行电子化以便重用,这时MathOCR可能是你想要的程序
应用程序开发者:希望把数学公式识别功能嵌入到你的应用程序中,这时MathOCR的API可能是你想要的
数学公式识别系统开发者:希望发展一个数学公式识别系统而不想从头开始写,这时你可能想分支或接管MathOCR
操作流程
1.解压下载的MathOCR压缩包
2.运行MathOCR.jar(在图形介面中通常只用双击其图标,或在命令行通常可用命令java -jar MathOCR.jar)
3.在"公式识别"标签卡下点"选择图片",然后在文件对话框中选择所有待识别公式图片
4.识别结果被显示出来
对于常规使用可以先使用默认参数,如果识别效果不理想或对各种参数设置感兴趣才去调它们
识别效果
目前MathOCR主要适用于图片化的电子文档,例如把PDF文档放大至400%再通过截屏(或其它方法)转换成的图片,对于扫描甚至拍照所得图片效果会更差(没有作倾斜校正和变形校正)。
免责声明:MathOCR被发布是期望它会有用,但没有任何任何担保,甚至没有暗示的适销性或适应特定用途的保证。开发者将不会对由于使用本软件造成的任何直接或间接损失负责。
技术描述
MathOCR纯属各种小技巧的堆砌,没有什么理论基础(没有建立任何形式文法或统计模型),也不依赖于什么工程化管理方法,只凭作为业余Java程序员的基本直觉。
主要步骤如下
一、预处理
1.灰度化(对RGB分量加权平均再考虑透明度)
2.滤波(可选)
3.二值化(默认为略作修改的Sauvola局部阈値化方法)
二、符号识别
1.八连通域分割(基于游程编码和图的遍历)
2.字形筛选(利用高宽比、网格特征、投影等特征)
3.字形模板匹配(利用豪斯多夫距离)
4.合并属同一符号的字形
三、结构分析
自底向上合并
如对实现细节感兴趣,请自行阅读源代码。


全世界的黑客,联合起来;学究们只是用不同的方式解释软件,而问题在于改造软件。


IP属地:广东本楼含有高级字体1楼2014-09-29 15:13回复
    顶一个 这两个星期一直在找这种软件 已经泪奔了 看到这个看到了些希望


    IP属地:湖北来自WindowsPhone客户端2楼2014-09-30 14:10
    回复
      楼主,您所提取特征的算法或参考的文献能给我发一份吗?谢谢!我的qq邮箱是2918208018@qq.com


      3楼2014-11-03 23:21
      收起回复
        你好,我想问问,积分号的作用范围如何确定


        5楼2017-02-26 22:13
        收起回复
          现在在软件有升级过吗?最近在找之类对数学公式有识别的。


          IP属地:浙江6楼2020-07-25 21:13
          回复