pdf.py 578 B

123456789101112131415161718
  1. # -*- coding: utf-8 -*-
  2. from demeter.core import *
  3. # 测试转换pdf python convert.py -f file.doc
  4. param = {}
  5. param['file'] = 'f'
  6. Demeter.getopt(param)
  7. #file = Demeter.option['file']
  8. file = '/data/dm/container/web/diviner/data/test.pdf'
  9. # pdf提取功能
  10. # 直接提取
  11. result = Demeter.service('loader', 'extract').get(file).json()
  12. # 用通用方法 同步提取并记录已提取,下次直接用提取后的内容
  13. #result = Demeter.service('loader').get(obj='parser', module='extract', sync=True, site_id=1, uid=1, source_id=1, source=file, method='json')
  14. print(result)