解析表格数据,Python与Tika对比
为了证明Python确实在解析表格数据上优于其他的选择,今天我们为大家进行实例对比,具体如下:
PDF文件表格样例
Python解析结果
其他样式解析,如Tika
1、TEXT格式
Tika tika = new Tika();
tika.setMaxStringLength(100 * 1024 * 1024);
try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
return tika.parseToString(stream);
}
Text格式解析结果
2、XHTML格式
ContentHandler handler = new ToXMLContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
parser.parse(stream, handler, metadata);
return handler.toString();
}
XHTML格式解析结果
解析PDF常用组件(PdfBox、iText、Tika等)都无法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等导致处理表格数据变的非常复杂。
根据对比我们可以发现,用Python解析PDF的表格数据更为简单方便,下期我们就为大家带来Python解析PDF具体的方法。更多Python学习推荐:JQ教程网Python大全。
您可能感兴趣的文章:
解析表格数据,Python与Tika对比
python数据分析需要什么基础
python数据分析是干什么的
数据分析师为什么要学python
python怎么做大数据分析
python与java用途区别有哪些
python语言能做什么工作
数据分析用r还是python
讲解Python3内置模块之json编码解码方法
python数据分析用什么软件