llama

8热度

11回答

[ggerganov/llama.cpp]Windows XP：支持MinGW 8.1.0

我正在尝试让 LLAMA 在 Windows XP 上运行，在使用 MinGW 8.1.0 时遇到了不少问题，决定添加一个补丁来修复它。已解决问题摘要：由于add_link_options和不可用，因此升级到 CMake 3.13 target_link_libraries。 CMake 3.13 原样不适用于该项目，因为它需要为档案、标题等明确定义目标。这会添加明确的目标。 Windows

5热度

5回答

[ggerganov/llama.cpp]添加对oai python服务器中函数调用的基本支持

我想尝试使用 oai python 服务器来运行magentic。要正常工作，需要实现用于函数调用的 oai api。函数调用允许 LLM 使用函数调用而不是仅使用文本消息进行响应。会自动生成语法，通过提供的函数 json 方案来约束 LLM 响应。当客户端回复函数结果时，它们将包含在聊天提示中。磁性用法示例： > server -m open-llama-7b-v2-q8_0.gguf

10热度

17回答

[ggerganov/llama.cpp]简单的转换脚本在 Linux 上耗尽了 tmpfs 空间

默认情况下，Linux 会阻止 tmpfs 使用超过 50% 的可用系统内存。这通常是一件好事，但简单的转换脚本会在保存输出文件之前将所有张量数据写入 tmpfs，如果转换后的模型大于系统 RAM 的 50%（ref），则会导致此异常： Traceback (most recent call last): File "/home/cebtenzzre/src/forks/llama.cpp/c

0热度

5回答

[ggerganov/llama.cpp]iOS swift 包似乎使用了 NEWLAPACK 的内部符号：cblas_sgemm，导致使用此符号的应用程序无法发布到 App Store

构建链接到 swift 包 llama.cpp 的应用程序在发布到应用商店时在应用程序验证阶段会出现错误。特别是，它给出的错误说app references non-public symbol cblas_sgemm$NEWLAPACK$ILP64

0热度

16回答

[ggerganov/llama.cpp][用户] 实现 Streaming LLM - 让推理更高效

先决条件上下文长度限制是所有 LLM 都存在的问题。以下存储库和相关论文表明，保留 4 个初始标记将使大多数常见 LLM 上的上下文长度无限大，而不会牺牲性能或效率。代码：https://github.com/mit-han-lab/streaming-llm 存储库内的论文参考资料展示了 LLM 的注意力集中效应以及如何利用它。当前行为上下文长度的限制主要由预训练定义。其他方法（如 ro

7热度

16回答

[ggerganov/llama.cpp]转换：更新 Falcon 脚本以适应新的 HF 配置

这使 Falcon 转换脚本与HuggingFace 模型的最新更改保持一致。

1热度

5回答

[ggerganov/llama.cpp][bug] 运行多 GPU 推理时，ROCm 出现段错误。

预期行为预期 Tensor 分割将利用多 GPU。当前行为使用多 GPU 时，模型加载后发生段错误。使用 GPU（安装了两个 vega-56）和 HIP_VISIBLE_DEVICES 强制进行单 GPU 推理时，可纠正推理。环境与背景请提供有关您的计算机设置的详细信息。这很重要，因为除非在某些特定条件下，否则问题无法重现。您正在使用的物理（或虚拟）硬件，例如 Linux：锐龙

1热度

5回答

[ggerganov/llama.cpp]即使不处于交互模式，也启用 sigint 处理程序

处理信号处理的两个问题：例如，当用作 docker 容器中的入口点时main，不会捕获 ^C 并且无法终止（没有 kill -9）。此外，当前的信号处理代码有些不一致，定义了一个信号处理程序，但除非请求 -i，否则不会将其设置为处理程序。这导致控制台清理未被调用（并且不会输出时间）。此代码：添加 --sigint 以便 CTRL-C 将在非交互模式下立即执行清理+计时+退出。备择

10热度

13回答

[ggerganov/llama.cpp]通过放宽 constness 来修复 ROCM 构建

至少在我的系统上，这个改变对于使用 ROCM 进行构建似乎是必要的。 ggml-cuda.cu:7370:9: error: no matching function for call to 'hipblasGemmBatchedEx' cublasGemmBatchedEx(g_cublas_handles[id], CUBLAS_OP_T, CUBLAS_OP_N,

6热度

8回答

[ggerganov/llama.cpp]metal：修复 #2268 之后的构建错误和 rope kernel sig

不确定其他人是如何编译的。在 M2 Ultra 上，MSL 代码中存在相当多的错误： ggml_metal_init: allocating ggml_metal_init: found device: Apple M2 Ultra ggml_metal_init: picking default device: Apple M2 Ultra ggml_metal_init: default.me

10热度

14回答

[ggerganov/llama.cpp]同步：ggml（后端 v2）

这是将新的 ggml 后端接口引入的第一步llama.cpp。目前应该没有任何功能变化 - 仅在需要的地方过渡到新 API。此 PR 可能会保持开放，直到我们确认一切正常，因此非常感谢您提供测试帮助。我们预计存在问题的代码的主要部分是训练示例：微调从零开始训练小骆驼我会在自述文件中放置一条通知，以引导人们到这里。一般来说，如果您关心中的某些特定功能llama.cpp，请签出此分支并

0热度

26回答

[ggerganov/llama.cpp]检查 CUDA 内存池支持

有些设备不支持内存池，但仍会将内存池数组元素从 nullptr 覆盖为某些垃圾值。我从设备属性中添加了额外检查。包括多 GPU 池访问支持和内存池访问检查。

4热度

2回答

[SJTU-IPADS/PowerInfer]通义千问大模型什么时候能支持呢？我们在用72B、14B的，迫切希望能支持加速推理。

通义千问大模型什么时候能支持呢？我们在用72B、14B的，迫切希望能支持加速推理。

1热度

3回答

[SJTU-IPADS/PowerInfer]llama2中文 hf格式.bin 如何转换成PowerInfer格式?

6热度

3回答

[SJTU-IPADS/PowerInfer]windows visual studio编译失败

使用CMake构建vs 工程，编译的时候，会报下面的错误： fatal error C1083: 无法打开包括文件: “stdatomic.h”: No such file or directory

6热度

3回答

[SJTU-IPADS/PowerInfer]请问你们是否有兴趣支持deepseek？

Deepseek-llm和Deepseek-coder效果也是很好的模型，而且是llama结构https://github.com/deepseek-ai/deepseek-coder/

7热度

2回答

[SJTU-IPADS/PowerInfer]请问下针对消费级卡的服务器的适配。

背景：这边搭载了一台消费级卡（8张 NVIDIA GF RTX4090）的服务器，希望能够接入 PowerInfer 问题：想请问是否如何接入PowerInfer，以及看是否适配。

2热度

7回答

[SJTU-IPADS/PowerInfer]请问和llama.cpp 相比有什么优化的地方吗？因为我看大部分代码都是和他重合的

虽然有点冒犯，但是如题

10热度

2回答

[SJTU-IPADS/PowerInfer]ReluFalcon 40B 在llama.cpp上无效输出

在RTX 4090(24G)上尝试复现视频中llama.cpp与贵工作在 Falcon 40B上的对比效果。 Powerinfer使用的模型是PowerInfer/ReluFalcon-40B-PowerInfer-GGUF ，推理效果优秀。使用SparseLLM/ReluFalcon-40B所提供的fp16模型在llama.cpp下进行转化 python3 convert-hf-to-ggu

7热度

1回答

[SJTU-IPADS/PowerInfer]关于在A100显卡上测得的效果异常的疑问

作者您好！我在3090、4090、A100-80G上进行了复现，复现的细节如下选用的模型：PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF 通过对输出的结果分析，得到各个指标如下面的柱状图：当限制输出长度为128时，当限制输出长度为256时，从两个图看出，3090和4090表现符合预期，因为4090计算能力上高于3090，但是对于A100来说显示比较异常