English 中文(简体)
LLM 代代问题 - 仅返回胡言乱语?
原标题:LLM generation problem - only returning gibberish?

我试图从路段上加载一个模型到马拉马指数 和这样的HugingfaceLLLM类:

from llama_index.llms.huggingface import HuggingFaceLLM

llm = HuggingFaceLLM(
   context_window=2048,
   max_new_tokens=300,
   generate_kwargs={"temperature": 0.5, "do_sample": True},
   #query_wrapper_prompt=query_wrapper_prompt,
   tokenizer_name="local_path/leo-hessianai-7B-AWQ",
   model_name="local_path/leo-hessianai-7B-AWQ",
   device_map="auto"
)

文件夹从拥抱面框下载, 模型正在装入, 然而,当我询问时, 它只返回胡言乱语( 如hohohohohohohohohohohohohohohoho等) 。

源节点是可信和正确的, 我检查过, 只是产生部分似乎是错误的。

我在这里缺少什么吗?当我把模型从枢纽上装上链接的时候,它很好,但是在IDE(而Ollama等也不行)中,它不起作用。

我很感激你的帮助,谢谢!

问题回答

This model is not a regular model, it has a custom quantization scheme that is probably not supported out of the box by the library you re using. See https://huggingface.co/TheBloke/leo-hessianai-7B-AWQ#about-awq

Indeed, in the vllm example, they specify the quantization https://huggingface.co/TheBloke/leo-hessianai-7B-AWQ#serving-this-model-from-vllm

不知道什么是山羊指数, 但我会尝试不同的模型 如果我是你





相关问题
LLM 代代问题 - 仅返回胡言乱语?

我试图用这样的 HuggingfaceLLLM 类从路径上加载一个模型, 输入 hugging FaceLLM 的 hugging FaceLLM llm = hugging FaceLLM (上下文_ window= 2048) 。

如有 ServiceContext cache rafter?

我在Docker集装箱的Jupyter Notebooks中使用了“llama_index”。 为了保持数据持久性,我需要从东道国到多克集装箱架架设切身。 基本上,我的问题是什么名称......。

How to check prompt on llamaindex response_synthesizer

Hi Im stacking how to check my prompt... I wrote code like below response_synthesizer = get_response_synthesizer( summary_template = _chat_summarize_prompt(), # Just return my prompt ...

Python Flask: Chatbot and managing sessions

I am making a chatbot and will be hosting it online and naturally I need to use flask sessions (or something similar) in order to keep chat context different for different users. For some reason, when ...

热门标签