当前位置：首页>学习笔记>Spring AI学习笔记二十三:聊天模型之Ollama(一)

Spring AI学习笔记二十三:聊天模型之Ollama(一)

2026-02-07 13:03:15

借助Ollama，您可以在本地运行各种大型语言模型（LLM）并从中生成文本。Spring AI通过OllamaChatModel API支持Ollama的聊天补全功能。

Ollama还提供了一个与OpenAI API兼容的端点。OpenAI API兼容性部分解释了如何使用Spring AI OpenAI连接到Ollama服务器。

前提条件

你首先需要访问一个Ollama实例。这里有几个选项，包括以下几种：

下载并在本地计算机上安装Ollama。
通过Testcontainers配置和运行Ollama。
通过Kubernetes Service Bindings绑定到Ollama实例。

您可以从Ollama模型库中拉取您想要在应用中使用的模型：

ollama pull <model-name>

您还可以从数千个免费的GGUF Hugging Face模型中任意选择一个：

ollama pull hf.co/<username>/<model-repository>

或者，您可以启用自动下载任何所需模型的选项：自动拉取模型。

自动配置

Spring AI为Ollama聊天集成提供了Spring Boot自动配置功能。要启用该功能，请将以下依赖项添加到项目的Maven pom.xml或Gradle build.gradle构建文件中：

Maven

<dependency>   <groupId>org.springframework.ai</groupId>   <artifactId>spring-ai-starter-model-ollama</artifactId></dependency>

Gradle

dependencies {    implementation 'org.springframework.ai:spring-ai-starter-model-ollama'}

基础属性

前缀“spring.ai.ollama”是用于配置与Ollama连接的属性前缀。

属性	描述	默认值
spring.ai.ollama.base-url	运行Ollama API服务器的基本URL。	`http://localhost:11434`

以下是用于初始化Ollama集成和自动拉取模型的属性。

属性	描述	默认值
spring.ai.ollama.init.pull-model-strategy	是否在启动时提取模型以及如何提取。	`never`
spring.ai.ollama.init.timeout	一个模特要等多久才能被拉出来。	`5m` `http://localhost:11434`
spring.ai.ollama.init.max-retries	模型拉入操作的最大重试次数。	`0` `http://localhost:11434`
spring.ai.ollama.init.chat.include	在初始化任务中包括这种类型的模型。	`true` `http://localhost:11434`
spring.ai.ollama.init.chat.additional-models	除了通过默认属性配置的模型之外，还需要初始化其他模型。	`[]` `http://localhost:11434`

聊天属性

聊天自动配置的启用和禁用可通过带有前缀spring.ai.model.chat的顶级属性进行配置。

要启用，请将 spring.ai.model.chat 设置为 ollama（默认情况下已启用）

要禁用，请将 spring.ai.model.chat 设置为 none（或任何与 ollama 不匹配的值）

这一改动是为了支持对多个模型进行配置。

前缀“spring.ai.ollama.chat.options”是用于配置Ollama聊天模型的属性前缀。它包含了Ollama请求（高级）参数，如模型、保持活动状态和格式，以及Ollama模型选项属性。

以下是Ollama聊天模型的高级请求参数：

属性	描述	默认值
spring.ai.ollama.chat.enabled（已删除且不再有效）	启用Ollama聊天模式。	true
spring.ai.model.chat	启用Ollama聊天模式。	ollama
spring.ai.ollama.chat.options.model	要使用的受支持模型的名称。	mistral
spring.ai.ollama.chat.options.format	返回响应的格式。目前，唯一接受的值是`json`	-
spring.ai.ollama.chat.options.keep_alive	控制在请求之后模型将在内存中保持加载的时间	5m

其余选项属性基于Ollama有效参数和值以及Ollama类型。默认值基于Ollama类型默认值。

属性	描述	默认值
spring.ai.ollama.chat.options.numa	是否使用NUMA。	false
spring.ai.ollama.chat.options.num-ctx	设置用于生成下一个标记的上下文窗口的大小。	2048
spring.ai.ollama.chat.options.num-batch	提示处理最大批处理大小。	512
spring.ai.ollama.chat.options.num-gpu	要发送到GPU的层数。在macOS上，默认值为1表示启用金属支持，0表示禁用。这里的1表示NumGPU应该动态设置	-1
spring.ai.ollama.chat.options.main-gpu	当使用多个GPU时，此选项控制哪个GPU用于小张量，对于这些小张量，在所有GPU上拆分计算的开销是不值得的。GPU将使用更多的VRAM来存储临时结果的暂存缓冲区。	0
spring.ai.ollama.chat.options.low-vram	-	false
spring.ai.ollama.chat.options.f16-kv	-	true
spring.ai.ollama.chat.options.logits-all	返回所有令牌的logits，而不仅仅是最后一个。要使完成返回logprobs，这必须为true。	-
spring.ai.ollama.chat.options.vocab-only	只加载词汇表，而不是权重。	-
spring.ai.ollama.chat.options.use-mmap	默认情况下，模型被映射到内存中，这允许系统根据需要仅加载模型的必要部分。但是，如果模型大于您的RAM总量，或者如果您的系统可用内存不足，则使用mmap可能会增加页面调出的风险，从而对性能产生负面影响。禁用mmap会导致加载速度变慢，但如果不使用mlock，可能会减少页面调出。请注意，如果模型大于RAM的总量，关闭mmap将完全阻止模型加载。	null
spring.ai.ollama.chat.options.use-mlock	将模型锁定在内存中，防止在内存映射时将其换出。这可以提高性能，但由于需要更多的RAM来运行，并且在模型加载到RAM时可能会减慢加载时间，因此牺牲了内存映射的一些优点。	false
spring.ai.ollama.chat.options.num-thread	设置计算期间使用的线程数。默认情况下，Ollama将检测到这一点，以获得最佳性能。建议将此值设置为系统拥有的物理CPU核心数（而不是逻辑核心数）。0 =让运行时决定	0
spring.ai.ollama.chat.options.num-keep	-	4
spring.ai.ollama.chat.options.seed	设置用于生成的随机数种子。将其设置为特定的数字将使模型为相同的提示生成相同的文本。	-1
spring.ai.ollama.chat.options.num-predict	生成文本时要预测的最大标记数。(-1=无限生成，-2 =填充上下文）	-1
spring.ai.ollama.chat.options.top-k	减少产生无意义的可能性。较高的值（例如，100)将给出更多样化的答案，而较低的值（例如，10)将更加保守。	40
spring.ai.ollama.chat.options.top-p	与Top-K合作。较高的值（例如，0.95）将导致更多样化的文本，而较低的值（例如，0.5)将产生更集中和保守的文本。	0.9
spring.ai.ollama.chat.options.min-p	top_p的替代品，旨在确保质量和多样性的平衡。参数p表示相对于最可能的令牌的概率，要考虑的令牌的最小概率。例如，在p=0.05并且最可能的令牌具有概率0.9的情况下，具有小于0.045的值的对数被过滤掉。	0.0
spring.ai.ollama.chat.options.tfs-z	无尾采样用于减少输出中可能性较小的令牌的影响。较高的值（例如，2.0)将进一步降低影响，而值为1.0则禁用此设置。	1.0
spring.ai.ollama.chat.options.typical-p	-	1.0
spring.ai.ollama.chat.options.repeat-last-n	设置模型向后查看以防止重复的距离。（默认值：64，0 = disabled，-1 = num_ctx）	64
spring.ai.ollama.chat.options.temperature	模型的温度。提高温度将使模型的答案更有创造性。	0.8
spring.ai.ollama.chat.options.repeat-penalty	设置惩罚重复的强度。较高的值（例如，1.5)将更强烈地惩罚重复，而较低值（例如，0.9)会更加宽容。	1.1
spring.ai.ollama.chat.options.presence-penalty	-	0.0
spring.ai.ollama.chat.options.frequency-penalty	-	0.0
spring.ai.ollama.chat.options.mirostat	启用Mirostat采样以控制困惑。（默认值：0，0 =禁用，1 = Mirostat，2 = Mirostat 2.0）	0
spring.ai.ollama.chat.options.mirostat-tau	控制输出的一致性和多样性之间的平衡。较低的值将导致文本更加集中和连贯。	5.0
spring.ai.ollama.chat.options.mirostat-eta	影响算法对生成文本反馈的响应速度。较低的学习率将导致较慢的调整，而较高的学习率将使算法更具响应性。	0.1
spring.ai.ollama.chat.options.penalize-newline	-	true
spring.ai.ollama.chat.options.stop	设置要使用的停止序列。当遇到这种模式时，LLM将停止生成文本并返回。可以通过在模型文件中指定多个单独的停止参数来设置多个停止模式。	-
spring.ai.ollama.chat.options.tool-names	工具列表，由其名称标识，用于在单个提示请求中启用函数调用。ToolCallback注册表中必须存在具有这些名称的工具。	-
spring.ai.ollama.chat.options.tool-callbacks	注册ChatModel的工具回调。	-
spring.ai.ollama.chat.options.internal-tool-execution-enabled	如果为false，Spring AI不会在内部处理工具调用，而是将它们代理给客户端。然后，客户端负责处理工具调用，将它们分派给适当的函数，并返回结果。如果为true（默认值），Spring AI将在内部处理函数调用。仅适用于支持函数调用的聊天模型	true

所有以spring.ai.ollama.chat.options为前缀的属性，都可以通过在Prompt调用中添加特定于请求的运行时选项，在运行时进行覆盖。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Spring AI学习笔记二十三:聊天模型之Ollama(一)

最新文章

热门文章

随机文章

Spring AI学习笔记二十三:聊天模型之Ollama(一)

学习笔记 丨 茨威格在《人类群星闪耀时》也说:人只有在举棋不定、无从把握的时候,才感到疲惫;只要去行动,就能获得解放

S4 HANA生产模块学习笔记-MRP计划流程 7

最新文章

热门文章

随机文章

学习笔记丨茨威格在《人类群星闪耀时》也说:人只有在举棋不定、无从把握的时候,才感到疲惫;只要去行动,就能获得解放