ggml

4热度

5回答

[ggerganov/llama.cpp]即使不处于交互模式，也启用 sigint 处理程序

处理信号处理的两个问题：例如，当用作 docker 容器中的入口点时main，不会捕获 ^C 并且无法终止（没有 kill -9）。此外，当前的信号处理代码有些不一致，定义了一个信号处理程序，但除非请求 -i，否则不会将其设置为处理程序。这导致控制台清理未被调用（并且不会输出时间）。此代码：添加 --sigint 以便 CTRL-C 将在非交互模式下立即执行清理+计时+退出。备择

0热度

13回答

[ggerganov/llama.cpp]通过放宽 constness 来修复 ROCM 构建

至少在我的系统上，这个改变对于使用 ROCM 进行构建似乎是必要的。 ggml-cuda.cu:7370:9: error: no matching function for call to 'hipblasGemmBatchedEx' cublasGemmBatchedEx(g_cublas_handles[id], CUBLAS_OP_T, CUBLAS_OP_N,

3热度

8回答

[ggerganov/llama.cpp]metal：修复 #2268 之后的构建错误和 rope kernel sig

不确定其他人是如何编译的。在 M2 Ultra 上，MSL 代码中存在相当多的错误： ggml_metal_init: allocating ggml_metal_init: found device: Apple M2 Ultra ggml_metal_init: picking default device: Apple M2 Ultra ggml_metal_init: default.me

1热度

14回答

[ggerganov/llama.cpp]同步：ggml（后端 v2）

这是将新的 ggml 后端接口引入的第一步llama.cpp。目前应该没有任何功能变化 - 仅在需要的地方过渡到新 API。此 PR 可能会保持开放，直到我们确认一切正常，因此非常感谢您提供测试帮助。我们预计存在问题的代码的主要部分是训练示例：微调从零开始训练小骆驼我会在自述文件中放置一条通知，以引导人们到这里。一般来说，如果您关心中的某些特定功能llama.cpp，请签出此分支并

0热度

26回答

[ggerganov/llama.cpp]检查 CUDA 内存池支持

有些设备不支持内存池，但仍会将内存池数组元素从 nullptr 覆盖为某些垃圾值。我从设备属性中添加了额外检查。包括多 GPU 池访问支持和内存池访问检查。

6热度

2回答

[SJTU-IPADS/PowerInfer]ggml-cuda.cu:8949: invalid argument无效参数问题

问题运行时出现 CUDA error 1 at /root/PowerInfer/ggml-cuda.cu:8949: invalid argument 所有依赖已经满足，请提供一下解决思路，谢谢配置 Cpu:Intel(R) Xeon(R) Platinum 8474C Gpu：NVIDIA GeForce RTX 4090 D Cuda: nvcc: NVIDIA (R) Cuda co

3热度

7回答

[ggerganov/llama.cpp]构建 C 对象 CMakeFiles/ggml.dir/ggml.co 失败

我输入： git clone https://github.com/ggerganov/llama.cpp cd llama.cpp mkdir build cd build cmake .. -DLLAMA_CUBLAS=ON cmake --build 。--config 发布失败于：[ 2%] 构建 C 对象 CMakeFiles/ggml.dir/ggml.co 错误显示：调用“alw

2热度

11回答

[ggerganov/llama.cpp]控制台：修复 LC_ALL 未定义时 getwchar 失败

修复#3638 似乎某些 Linux 发行版可能LC_ALL未定义并被LANG使用，这会导致getwchar()unicode 转换失败，但更重要的是，这会“毒害” stdin( /dev/tty) 导致任何后续无限期getwchar返回WEOF。此 PR 通过添加一个回退设置区域设置来解决此问题，LANG如果该区域设置也未定义，则将区域设置设置为C.UTF-8确保 IO 处于 unicode

0热度

5回答

[ggerganov/llama.cpp]服务器可执行文件在空闲时不应消耗 cpu/gpu 功率。

当我运行服务器可执行文件时，它不断地将我的 GPU 保持在 50W 功耗，同时没有提示正在处理。当我在交互式终端模式下运行 llama 可执行文件时，不会出现此问题。在几代之间，当 llama 等待新输入时，GPU 可以休息并放松（闲置功耗约为 11W 左右）。为什么服务器可执行文件使 GPU（或 cpu，无论您使用什么）占用这么多？我确信这是没有必要的

2热度

8回答

[ggerganov/llama.cpp]修复非特殊添加令牌的去令牌化

检查过 .\build\bin\Release\main.exe -m models\mpt-7B-storywriter\ggml-model-f16.gguf -p "Once upon a time there" --temp 0 -n 32 前： Once upon a timethere 后： Once upon a time there clang还修复了on的构建问题Window