Hasty Briefsbeta

双语

Show HN: Intercepting proxy for semantic search over visited pages

10 months ago
  • #proxy
  • #embedding
  • #llm
  • 一个代理服务,会嵌入每个访问的网页内容以便进行相似性搜索。
  • HTTP GET 200响应会从pure.md重新获取干净的Markdown文本。
  • 清理后的文本使用llm进行嵌入处理。
  • 极简的Flask界面提供搜索和缓存页面查看功能。
  • 这是llm的插件,并非独立程序。
  • 用pipx安装llm:`pipx install llm`。
  • 安装插件:`llm install git+https://github.com/mlang/llm-embed-proxy`。
  • 可选:安装llm-sentence-transformers以使用本地嵌入模型。
  • 注册模型:`llm sentence-transformers register Qwen/Qwen3-Embedding-0.6B`。
  • 运行代理:`llm embed-proxy --model sentence-transformers/Qwen/Qwen3-Embedding-0.6B`。
  • 将浏览器/系统代理指向localhost:8080,访问http://localhost:8080/即可搜索。
  • 底层使用mitmproxy,会在~/.mitmproxy/生成CA证书。
  • 将mitmproxy的CA证书添加到系统中可避免警告提示。