Show HN: Intercepting proxy for semantic search over visited pages
10 months ago
- #proxy
- #embedding
- #llm
- 一个代理服务,会嵌入每个访问的网页内容以便进行相似性搜索。
- HTTP GET 200响应会从pure.md重新获取干净的Markdown文本。
- 清理后的文本使用llm进行嵌入处理。
- 极简的Flask界面提供搜索和缓存页面查看功能。
- 这是llm的插件,并非独立程序。
- 用pipx安装llm:`pipx install llm`。
- 安装插件:`llm install git+https://github.com/mlang/llm-embed-proxy`。
- 可选:安装llm-sentence-transformers以使用本地嵌入模型。
- 注册模型:`llm sentence-transformers register Qwen/Qwen3-Embedding-0.6B`。
- 运行代理:`llm embed-proxy --model sentence-transformers/Qwen/Qwen3-Embedding-0.6B`。
- 将浏览器/系统代理指向localhost:8080,访问http://localhost:8080/即可搜索。
- 底层使用mitmproxy,会在~/.mitmproxy/生成CA证书。
- 将mitmproxy的CA证书添加到系统中可避免警告提示。