Show HN: Learn LLMs LeetCode Style10 months agohttps://github.com/Exorust/TorchLeetTorchLeet分为两个题库:PyTorch实践题集和以LLM为核心的题集PyTorch题目涵盖从基础(如线性回归)到高级(如自定义Autograd函数)的内容LLM题集包含从零实现注意力机制、嵌入表示及其他大语言模型组件题目按难度分级(简单/中等/困难)并提供待完成的代码块供练习提供参考答案用于对比学习鼓励动手实践以深入理解PyTorch及深度学习核心概念包含安装说明和贡献指南
This Should Not Be Possible10 months agohttps://ghuntley.com/no/作者对AI持怀疑态度但保持开放心态,发现了'本应不可能'的事物。在一次深夜酒吧谈话中,他们探讨了将LLM与eBPF、strace结合用于数字取证工具的可能性。通过玩具示例(strace ls)开始,他们测试了LLM能否将eBPF追踪记录转化为可运行的Rust程序。当作者删除strace文件中的提示信息后,LLM仍成功复现了程序功能,这令作者震惊。作者认为该能力可解决诸如Linux内核专有固件二进制等棘手问题。文末附有警示箴言:'请明智而审慎地运用这项技术'。
OpenAI claiming gold medal standard at IMO 202510 months agohttps://github.com/aw31/openai-imo-2025-proofs该代码库包含由实验性推理大语言模型生成的数学证明这些证明是在该模型参加2025年国际数学奥林匹克竞赛评估时产生的该代码库有11个分支,但缺少描述、网站或主题标签该代码库尚未发布任何版本或软件包
Local LLMs versus Offline Wikipedia10 months agohttps://evanhahn.com/local-llms-versus-offline-wikipedia/《麻省理工科技评论》文章探讨在末日场景中使用离线大语言模型(LLM)的可行性对比本地部署的大语言模型与离线维基百科数据包的体积差异列举涵盖Qwen、Deepseek-R1、Llama及Gemma等模型及维基百科离线包特别说明:百科全书与LLM功能差异、硬件需求差异及非严谨样本选择有趣发现:维基百科精选5万篇文章的数据量约等于Llama 3.2 3B模型体积建议同时下载大语言模型和维基百科作为离线知识库组合方案
How the Free Software Foundation battles the LLM bots10 months agohttps://thenewstack.io/how-the-free-software-foundation-battles-the-llm-bots/自由软件基金会(FSF)自2024年8月起持续遭受攻击,主要问题来自激进的LLM网络爬虫。FSF小型技术团队由两名全职员工和志愿者组成,在不使用云服务的情况下维护着70多个网站和服务。攻击手段包括DDoS尝试、僵尸网络以及无视robots.txt协议的爬虫,部分攻击疑似旨在构建LLM训练数据集。防御策略涵盖IP封锁、基于行为的拦截工具及向ISP提交滥用报告,但部分缓解措施保密以防助长攻击者。Fedora、KDE、GNOME和Linux Weekly News等其他自由开源软件站点也面临类似问题,某些攻击已导致频繁服务中断。FSF强调运行完全自由的软件栈(包括BIOS),并避免任何非自由依赖项。尽管面临挑战,FSF已成功抵御多数攻击,保持gnu.org等关键站点正常运行且响应时间稳定。基金会呼吁志愿者及联席会员支持其使命及系统管理工作。
Is DeepSeek a New Voice Among LLMs in Public Opinion Simulation?10 months agohttps://arxiv.org/abs/2506.21587研究评估了DeepSeek与其他大语言模型(如Qwen2.5、GPT-4o和Llama-3.3)在模拟公众意见方面的能力对比DeepSeek-V3在模拟美国民众关于堕胎议题的立场时表现最佳,尤其是对民主党或自由派人设的模拟针对中国样本,DeepSeek-V3在对外援助和个人主义议题的立场模拟上表现突出,但在资本主义观点上存在不足所有大语言模型都存在对人口群体观点过度泛化的倾向,显示出高度一致的响应模式研究结果凸显了需要缓解大语言模型在公众意见建模中存在的文化及人口统计偏见
Show HN: Intercepting proxy for semantic search over visited pages10 months agohttps://github.com/mlang/llm-embed-proxy一个代理服务,会嵌入每个访问的网页内容以便进行相似性搜索。HTTP GET 200响应会从pure.md重新获取干净的Markdown文本。清理后的文本使用llm进行嵌入处理。极简的Flask界面提供搜索和缓存页面查看功能。这是llm的插件,并非独立程序。用pipx安装llm:`pipx install llm`。安装插件:`llm install git+https://github.com/mlang/llm-embed-proxy`。可选:安装llm-sentence-transformers以使用本地嵌入模型。注册模型:`llm sentence-transformers register Qwen/Qwen3-Embedding-0.6B`。运行代理:`llm embed-proxy --model sentence-transformers/Qwen/Qwen3-Embedding-0.6B`。将浏览器/系统代理指向localhost:8080,访问http://localhost:8080/即可搜索。底层使用mitmproxy,会在~/.mitmproxy/生成CA证书。将mitmproxy的CA证书添加到系统中可避免警告提示。
Show HN: Any-LLM – lightweight and open-source router to access any LLM Provider10 months agohttps://github.com/mozilla-ai/any-llm简单统一的接口,所有服务提供商只需一个函数即可轻松切换模型。开发者友好,提供完整的类型提示、清晰的错误信息,并充分利用官方提供商SDK。框架无关的设计,适用于各种项目和用例场景。积极维护,已应用于any-agent产品,确保持续支持。无需代理或网关服务器,简化配置流程。针对碎片化的LLM提供商生态,通过统一接口解决各平台差异问题。批判现有解决方案(如LiteLLM、AISuite及框架特定集成)的局限性。要求Python 3.11或更高版本,并需LLM的API密钥访问权限。安装时可选特定提供商支持或'all'选项获得完整支持。提供使用Mistral API的基础示例代码供参考。
Any-LLM: A unified API to access any LLM provider10 months agohttps://blog.mozilla.ai/introducing-any-llm-a-unified-api-to-access-any-llm-prov...介绍any-llm——一个提供统一API访问多种大语言模型供应商的Python库强调根据成本、延迟和安全性等因素选择LLM供应商的重要性展示使用any-llm调用Mistral模型完成任务的简单代码示例any-llm的核心设计原则包括:使用官方供应商SDK、承诺积极维护、无需代理服务器通过标准化输出为OpenAI ChatCompletion对象,确保不同供应商间的一致性讨论现有解决方案(如LiteLLM、AISuite及代理/网关服务)的不足之处
Run Qwen3-Coder-480B-A35B Locally with Unsloth Dynamic Quants10 months agohttps://docs.unsloth.ai/basics/qwen3-coderQwen3-Coder-480B-A35B在编程任务中提供最先进的性能,媲美或超越Claude Sonnet-4和GPT-4.1等模型该模型支持256K令牌上下文窗口(可扩展至1M),在Aider Polygot基准测试中获得61.8%得分采用Unsloth Dynamic 2.0量化技术,在运行和微调Qwen大语言模型时实现精度损失最小化推荐推理参数设置为:temperature=0.7、top_p=0.8、top_k=20、repetition_penalty=1.05建议使用Llama.cpp进行优化推理,可选择全精度(未量化)或量化版本模型支持工具调用功能,演示案例包含获取实时温度的函数调用性能基准测试显示其在代理编程、浏览器操作和工具使用场景中表现优异
LLMs are bad at returning code in JSON10 months agohttps://aider.chat/2024/08/14/code-in-json.html大语言模型以结构化JSON格式返回代码时,代码质量会显著下降基准测试表明模型在JSON包裹的代码中易出现语法错误,尤其是引号和转义问题纯文本(Markdown)格式在代码质量和问题解决能力上均优于JSON格式OpenAI的'严格'JSON模式对代码质量提升毫无帮助Claude-3-5-Sonnet和DeepSeek Coder等模型受JSON格式影响最为严重JSON格式可能分散模型注意力,削弱其解决编程问题的推理能力GPT-4o在使用JSON时性能下降最小,但纯文本格式仍具优势
Pseudo, a Common Lisp macro for pseudocode expressions10 months agohttp://funcall.blogspot.com/2025/07/pseudo.html`pseudo`宏允许在Common Lisp中嵌入伪代码表达式,由LLM将其扩展为s-表达式。该宏会收集上下文信息,如词法可见变量、函数绑定/绑定符号,以及代码生成风格的指令。Lisp宏系统的优势在于s-表达式表示法,避免了与解析器/编译器接口的麻烦。注意事项包括LLM速度慢、不可预测性、可能生成错误代码,以及不适用于生产环境。依赖项包括用于提取词法可见变量的SBCL,以及`alexandria`、`cl-json`等库。使用Google的Gemini开发,但可适配其他LLM;需要Google API密钥。类似概念已在Julia中探索,突显了Lisp家族语言在此类集成中的优势。LLM在有限范围内表现更好;避免扩展以'def'开头的定义。考虑过扩展到类定义,但认为若用户提供槽位名称则显得冗余。
LangExtract: A Gemini powered information extraction library10 months agohttps://developers.googleblog.com/en/introducing-langextract-a-gemini-powered-in...LangExtract是一个全新的开源Python库,通过大语言模型(LLM)从非结构化文本中提取结构化信息该库提供轻量级接口支持多种LLM模型(包括Gemini系列),确保灵活性和可追溯性可应用于医疗、金融、工程、法律等多个领域的信息抽取任务支持通过提示词和示例定义抽取任务,并以JSONL格式输出结构化数据内置可视化工具可查看标注结果,适用于演示或评估抽取质量最初应用于医疗信息抽取场景(如识别药物名称和剂量)交互式演示RadExtract展示了其在结构化放射学报告中的能力已在GitHub开源,提供详细开发文档和示例代码供开发者使用
Show HN: Mcp-use – Connect any LLM to any MCP10 months agohttps://github.com/mcp-use/mcp-useMCP-Use 是一个开源库,用于将任何大语言模型(LLM)连接到MCP服务器,构建具有工具访问权限的自定义智能体。通过LangChain支持多种LLM,包括OpenAI、Anthropic、Groq和LLama等模型。主要特性包括:易用性(6行代码即可创建首个智能体)、HTTP支持、动态服务器选择和多服务器支持。提供工具限制功能保障安全性,支持自定义智能体创建,以及异步流式传输实现实时反馈。可通过pip或源码安装,要求Python 3.11+版本及相应的LangChain提供商包。提供多种应用场景示例,如网页浏览、Airbnb房源搜索和使用Blender进行3D建模。支持通过E2B沙箱环境运行MCP服务器,无需本地依赖。提供调试模式进行故障排查,可设置不同详细级别的日志输出。鼓励开发者贡献代码,贡献指南详见CONTRIBUTING.md文件。采用MIT许可证,研究使用时需引用项目信息。
Our first outage from LLM-written code10 months agohttps://sketch.dev/blog/our-first-outage-from-llm-written-code7月15日sketch.dev平台多次短暂中断,系由LLM生成的代码引发。初始部署看似稳定,但后续因复杂SQL查询导致CPU使用率飙升,引发服务降级。问题根源在于重构后的代码路径中,某处'break'被误改为'continue',形成无限循环。错误发生在LLM迁移代码过程中,尽管经过人工审核仍出现转录错误。预防措施包括为Sketch代理环境添加剪贴板支持,以提高代码转录准确性。该事件凸显需要改进工具链(如git跨代码块变更检测)来捕捉此类错误。
LangExtract: Python library for extracting structured data from language models10 months agohttps://github.com/google/langextractLangExtract 是一个 Python 库,利用大语言模型(LLM)从非结构化文本中提取结构化信息。主要功能包括精确的原始文本定位、可靠的结构化输出、优化的长文档处理、交互式可视化、灵活的LLM支持以及适用于任何领域的适应性。支持云端模型(如Google Gemini)和通过Ollama运行的本地模型,使用云端模型需提供API密钥。快速入门只需定义提示词、提供示例,并用几行代码即可运行提取。通过pip可轻松安装,支持开发模式和Docker部署。API密钥可通过环境变量、.env文件或直接代码设置(生产环境不推荐)。示例包括处理《罗密欧与朱丽叶》全文和从临床笔记中提取医疗信息。欢迎贡献代码,贡献指南详见CONTRIBUTING.md文件。支持使用pytest或tox进行本地测试,并提供依赖项处理说明。免责声明指出LangExtract非Google官方支持产品,遵循Apache 2.0许可证。
Testing LLM Responses: A Fast, Cost-Effective Alternative to LLM-as-Judge9 months agohttps://joywrites.dev/posts/fast-cost-effective-llm-testing/'LLM即评委'方法虽然全面,但对于个人项目来说成本高且速度慢。提出的解决方案:采用长度调整的余弦相似度,实现快速且经济实惠的监控。具体实现包括TF-IDF向量化和带长度调整的余弦相似度计算。优势在于速度快、成本低、易于自动化,且准确度足够满足需求。实际测试表明,该方法能捕捉重大退化,同时允许自然波动。最适合作为第一道防线,配合阈值监控使用。局限性包括语义理解不够完美,且性能表现因领域而异。特别适用于回归测试、持续监控和预算有限的评估场景。核心价值:为需要快速经济监控的个人项目提供了实用折中方案。
Do LLMs identify fonts?10 months agohttps://maxhalford.github.io/blog/llm-font-identification/dafont.com 是一个综合性字体收集网站,设有字体识别求助论坛。研究人员创建了一个基准测试,用于检验大语言模型(gpt-4o-mini 和 gemini-2.5-flash-preview-05-20)能否识别社区尚未辨别的图片字体。该基准测试通过仅使用未识别字体,并将大语言模型的预测结果与后续社区答案对比,有效避免了数据污染。在复杂案例中,研究人员向大语言模型提供字体图片、讨论帖标题和描述以聚焦正确字体。采用top-$k$准确率作为评估指标,允许每个字体最多给出五个猜测答案。结果显示模型表现欠佳,引发关于任务难度或评估公平性的质疑。实施方案包含:Python脚本(网络爬取和提示生成)、GitHub Actions(自动化流程)和Observable Framework(数据看板)。实时基准测试结果托管于GitHub Pages平台。
Getting an LLM to Play Text Adventures9 months agohttps://entropicthoughts.com/getting-an-llm-to-play-text-adventures研究调查了大型语言模型在文本冒险游戏中的表现,结果喜忧参半。ChatGPT 3.5和GPT-4o-mini在文本冒险游戏中展现出有限的能力。大型语言模型在文本冒险游戏的状态转换上表现不佳,错误率高达40%。尽管采用提示工程进行引导,模型仍会出现上下文污染等错误。模型常陷入循环逻辑或过度关注无关细节。典型问题包括无法正确将金表放置在地板上或错误使用指令。有时会忽略提示线索,重新陷入之前的执念行为。不同模型表现各异,Claude 3.5 Haiku展现出一定潜力但仍存缺陷。成本是主要障碍,完成简单文本冒险游戏就需耗费1美元。未来工作包括建立不同语言模型在文本冒险领域的性能基准。
Anthropic beats OpenAI as the top LLM provider for business – and it's not close9 months agohttps://www.zdnet.com/article/anthropic-beats-openai-as-the-top-llm-provider-for...截至2025年年中,Anthropic以32%的企业使用率成为领先的企业级大语言模型提供商。Anthropic的主要投资方Menlo Ventures报告显示其增长迅猛,年收入增长率高达1000%。Anthropic的Claude模型占据AI编程市场42%的份额,是OpenAI(21%)的两倍。Anthropic采用可验证奖励的强化学习(RLVR)训练大模型,显著提升代码生成准确率。企业选择大模型时更看重性能而非价格,倾向于采用最新最快的模型。开源大模型在AI工作负载中占比已降至13%,性能落后于闭源模型。中国开源大模型受到西方企业质疑,导致其采用率有限。AI市场快速演变,Anthropic、OpenAI、谷歌和Meta等主要供应商尚未确立长期领导地位。