Jquery中文网 www.jquerycn.cn
Jquery中文网 >  Python编程  >  Python入门  >  正文 解析表格数据,Python与Tika对比

解析表格数据,Python与Tika对比

发布时间:2021-01-29   编辑:www.jquerycn.cn
jquery中文网为您提供解析表格数据,Python与Tika对比等资源,欢迎您收藏本站,我们将为您提供最新的解析表格数据,Python与Tika对比资源

为了证明Python确实在解析表格数据上优于其他的选择,今天我们为大家进行实例对比,具体如下:


PDF文件表格样例



Python解析结果



其他样式解析,如Tika


1、TEXT格式


  Tika tika = new Tika();
        tika.setMaxStringLength(100 * 1024 * 1024);
        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
            return tika.parseToString(stream);
        }


Text格式解析结果


2、XHTML格式


       ContentHandler handler = new ToXMLContentHandler();
        AutoDetectParser parser = new AutoDetectParser();
        Metadata metadata = new Metadata();
        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
            parser.parse(stream, handler, metadata);
            return handler.toString();
        }


XHTML格式解析结果


解析PDF常用组件(PdfBox、iText、Tika等)都无法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等导致处理表格数据变的非常复杂。


根据对比我们可以发现,用Python解析PDF的表格数据更为简单方便,下期我们就为大家带来Python解析PDF具体的方法。更多Python学习推荐:JQ教程网Python大全

您可能感兴趣的文章:
解析表格数据,Python与Tika对比
python数据分析需要什么基础
python数据分析是干什么的
数据分析师为什么要学python
python怎么做大数据分析
python与java用途区别有哪些
python语言能做什么工作
数据分析用r还是python
讲解Python3内置模块之json编码解码方法
python数据分析用什么软件

[关闭]