| | 默认值 |
spring.ai.ollama.chat.options.numa | 是否使用NUMA。 | false |
spring.ai.ollama.chat.options.num-ctx | 设置用于生成下一个标记的上下文窗口的大小。 | 2048 |
spring.ai.ollama.chat.options.num-batch | 提示处理最大批处理大小。 | 512 |
spring.ai.ollama.chat.options.num-gpu | 要发送到GPU的层数。在macOS上,默认值为1表示启用金属支持,0表示禁用。这里的1表示NumGPU应该动态设置 | -1 |
spring.ai.ollama.chat.options.main-gpu | 当使用多个GPU时,此选项控制哪个GPU用于小张量,对于这些小张量,在所有GPU上拆分计算的开销是不值得的。GPU将使用更多的VRAM来存储临时结果的暂存缓冲区。 | 0 |
spring.ai.ollama.chat.options.low-vram | - | false |
spring.ai.ollama.chat.options.f16-kv | - | true |
spring.ai.ollama.chat.options.logits-all | 返回所有令牌的logits,而不仅仅是最后一个。要使完成返回logprobs,这必须为true。 | - |
spring.ai.ollama.chat.options.vocab-only | 只加载词汇表,而不是权重。 | - |
spring.ai.ollama.chat.options.use-mmap | 默认情况下,模型被映射到内存中,这允许系统根据需要仅加载模型的必要部分。但是,如果模型大于您的RAM总量,或者如果您的系统可用内存不足,则使用mmap可能会增加页面调出的风险,从而对性能产生负面影响。禁用mmap会导致加载速度变慢,但如果不使用mlock,可能会减少页面调出。请注意,如果模型大于RAM的总量,关闭mmap将完全阻止模型加载。 | null |
spring.ai.ollama.chat.options.use-mlock | 将模型锁定在内存中,防止在内存映射时将其换出。这可以提高性能,但由于需要更多的RAM来运行,并且在模型加载到RAM时可能会减慢加载时间,因此牺牲了内存映射的一些优点。 | false |
spring.ai.ollama.chat.options.num-thread | 设置计算期间使用的线程数。默认情况下,Ollama将检测到这一点,以获得最佳性能。建议将此值设置为系统拥有的物理CPU核心数(而不是逻辑核心数)。0 =让运行时决定 | 0 |
spring.ai.ollama.chat.options.num-keep | - | 4 |
spring.ai.ollama.chat.options.seed | 设置用于生成的随机数种子。将其设置为特定的数字将使模型为相同的提示生成相同的文本。 | -1 |
spring.ai.ollama.chat.options.num-predict | 生成文本时要预测的最大标记数。(-1=无限生成,-2 =填充上下文) | -1 |
spring.ai.ollama.chat.options.top-k | 减少产生无意义的可能性。较高的值(例如,100)将给出更多样化的答案,而较低的值(例如,10)将更加保守。 | 40 |
spring.ai.ollama.chat.options.top-p | 与Top-K合作。较高的值(例如,0.95)将导致更多样化的文本,而较低的值(例如,0.5)将产生更集中和保守的文本。 | 0.9 |
spring.ai.ollama.chat.options.min-p | top_p的替代品,旨在确保质量和多样性的平衡。参数p表示相对于最可能的令牌的概率,要考虑的令牌的最小概率。例如,在p=0.05并且最可能的令牌具有概率0.9的情况下,具有小于0.045的值的对数被过滤掉。 | 0.0 |
spring.ai.ollama.chat.options.tfs-z | 无尾采样用于减少输出中可能性较小的令牌的影响。较高的值(例如,2.0)将进一步降低影响,而值为1.0则禁用此设置。 | 1.0 |
spring.ai.ollama.chat.options.typical-p | - | 1.0 |
spring.ai.ollama.chat.options.repeat-last-n | 设置模型向后查看以防止重复的距离。(默认值:64,0 = disabled,-1 = num_ctx) | 64 |
spring.ai.ollama.chat.options.temperature | 模型的温度。提高温度将使模型的答案更有创造性。 | 0.8 |
spring.ai.ollama.chat.options.repeat-penalty | 设置惩罚重复的强度。较高的值(例如,1.5)将更强烈地惩罚重复,而较低值(例如,0.9)会更加宽容。 | 1.1 |
spring.ai.ollama.chat.options.presence-penalty | - | 0.0 |
spring.ai.ollama.chat.options.frequency-penalty | - | 0.0 |
spring.ai.ollama.chat.options.mirostat | 启用Mirostat采样以控制困惑。(默认值:0,0 =禁用,1 = Mirostat,2 = Mirostat 2.0) | 0 |
spring.ai.ollama.chat.options.mirostat-tau | 控制输出的一致性和多样性之间的平衡。较低的值将导致文本更加集中和连贯。 | 5.0 |
spring.ai.ollama.chat.options.mirostat-eta | 影响算法对生成文本反馈的响应速度。较低的学习率将导致较慢的调整,而较高的学习率将使算法更具响应性。 | 0.1 |
spring.ai.ollama.chat.options.penalize-newline | - | true |
spring.ai.ollama.chat.options.stop | 设置要使用的停止序列。当遇到这种模式时,LLM将停止生成文本并返回。可以通过在模型文件中指定多个单独的停止参数来设置多个停止模式。 | - |
spring.ai.ollama.chat.options.tool-names | 工具列表,由其名称标识,用于在单个提示请求中启用函数调用。ToolCallback注册表中必须存在具有这些名称的工具。 | - |
spring.ai.ollama.chat.options.tool-callbacks | 注册ChatModel的工具回调。 | - |
spring.ai.ollama.chat.options.internal-tool-execution-enabled | 如果为false,Spring AI不会在内部处理工具调用,而是将它们代理给客户端。然后,客户端负责处理工具调用,将它们分派给适当的函数,并返回结果。如果为true(默认值),Spring AI将在内部处理函数调用。仅适用于支持函数调用的聊天模型 | true |