DeepSeek-OCR项目部署流程并采用Web-ui的方式部署DeepSeek-OCR

1、项目环境安装

项目拉取:

git clone https://github.***/deepseek-ai/DeepSeek-OCR.git

模型文件拉取:

# 安装相关依赖
pip install modelscope

# 拉取模型文件
modelscope download --model deepseek-ai/DeepSeek-OCR README.md --local_dir ./dir

环境要求:
本项目要求cuda版本是11.8,否则在编译安装 flash-attn时会出现异常报错

conda create -n deepseek-ocr python=3.11 -y
conda activate deepseek-ocr

注意:在创建所虚拟环境时官方给出的是python=3.12.9,我用后来尝试创建python=3.11的虚拟环境也可以正常使用

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

pip install flash-attn==2.7.3 --no-build-isolation

注意:在安装flash-attn==2.7.3时,可能会出现长时间编译都没有结束的问题(我是耗时30分钟仍没完成),解决的方案是去githubflash-attention官方下载对应版本的.whl官方包:

https://github.***/Dao-AILab/flash-attention



flash_attn-2.7.3+cu11torch2.6cxx11abiFALSE-cp311-cp311-linux_x86_64.whl
需要访问外网,我已经下载并上传:

https://download.csdn.***/download/guoqingru0311/92195761

vllm的安装:

本文采用的vllm推理框架加载模型,版本是v0.8.5版本,选择对应的cuda11.8版本,需要事先下载官网提供的whl安装包:

https://github.***/vllm-project/vllm/releases/tag/v0.8.5

要是没法访问外网,我已下载好,链接如下:

https://download.csdn.***/download/guoqingru0311/92182760

安装vllm:

pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
# DeepSeek-OCR
pip install -r requirements.txt

安装过程中会出现如下报错,不用管,不会影响正常运行

2 、运行项目

进入到DeepSeek-OCR-master/DeepSeek-OCR-vll目录

图片ocr

在进行图片OCR之前,需要首先修改下config.py配置文件


然后修改run_dpsk_ocr_image.py文件


运行指令:

python run_dpsk_ocr_image.py

PDF文件OCR

在进行pdf文件OCR之前,需要首先修改下config.py配置文件


然后修改run_dpsk_ocr_pdf.py文件

运行指令:

python run_dpsk_ocr_pdf.py

3、测试结果

我上传了一份pdf文件,OCR识别结果截取部分如下:
原始:

文本检测结果:

得到的Markdown结果:

4、Web-ui的方式部署DeepSeek-OCR

采用fastapi部署DeepSeek-OCR项目,设置好端口号后启动项目。页面如下所示:

识别完成后会显示如下条目,下载所需文件即可:

5、web-ui项目下载

我的整个项目已经上传,需要的话,可以下载:

https://download.csdn.***/download/guoqingru0311/92288087
转载请说明出处内容投诉
CSS教程网 » DeepSeek-OCR项目部署流程并采用Web-ui的方式部署DeepSeek-OCR

发表评论

欢迎 访客 发表评论

一个令你着迷的主题!

查看演示 官网购买