大模型模型部署和暴露接口

创建环境

激活案件

安装相关依赖

conda create -n fastApi python=3.10
conda activate fastApi
conda install -c conda-forge fastapi uvicorn transformers pytorch
pip install safetensors sentencepiece protobuf

新建文件夹

mkdir App
cd App
touch main.py

复制代码main.py

from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import torchapp = FastAPI()# 模型路径
model_path = "/root/autodl-tmp/Models/deepseek-r1-1.5b-merged"# 加载 tokenizer （分词器）
tokenizer = AutoTokenizer.from_pretrained(model_path)# 加载模型并移动到可用设备（GPU/CPU）
device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(model_path).to(device)@app.get("/generate")
async def generate_text(prompt: str):# 使用 tokenizer 编码输入的 promptinputs = tokenizer(prompt, return_tensors="pt").to(device)# 使用模型生成文本outputs = model.generate(inputs["input_ids"], max_length=150)# 解码生成的输出generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)return {"generated_text": generated_text}

运行app.py文件

uvicorn main:app --reload --host 0.0.0.0

可能报错，升级 huggingface-hub，运行以下命令升级到兼容版本

pip install --upgrade huggingface-hub
uvicorn main:app --reload --host 0.0.0.0

浏览器打开

http://localhost:8000/docs

后端接口

然后就是做一个网站调用大模型接口，类似如下

前端项目：https://github.com/huangyf2013320506/magic_conch_frontend.git

npm instal1
npm run dev

后端项目：https://github.com/huangyf2013320506/magic_conch_backend.git

记得把jdk改一下，之前一直用的是1.8

把网址改成"http://127.0.0.1:5173"，因为前端网址是这

编译一下

然后运行启动就行，注意要在在MagicconchBackendApplication.java 类中启动

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.pswp.cn/news/908750.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

大模型模型部署和暴露接口

相关文章

Redis初入门

【原神 × 二叉树】角色天赋树、任务分支和圣遗物强化路径的算法秘密！

C++信息学竞赛中常用函数的一般用法

Linux【3】-----系统框架概述

Tensorrt python api 10.11.0笔记

电镀机的阳极是什么材质？

前段三剑客之JavaScript-02

Qiskit：量子计算模拟器

【Elasticsearch】Elasticsearch 核心技术（二）：映射

serv00 ssh登录保活脚本-邮件通知版

前端 Electron 桌面应用学习笔记

LeetCode - 94. 二叉树的中序遍历

PyTorch——搭建小实战和Sequential的使用（7）

C#、VB.net——如何设置窗体应用程序的外边框不可拉伸

深入了解NIO的优化实现原理

【前端】vue3性能优化方案

在MATLAB中使用自定义的ROS2消息

spring重试机制

QEMU源码全解析 —— 块设备虚拟化（24）

java中static学习笔记