Hasty Briefsbeta

双语

Show HN: Intercepting proxy for semantic search over visited pages

10 months ago

#proxy
#embedding
#llm

一个代理服务，会嵌入每个访问的网页内容以便进行相似性搜索。
HTTP GET 200响应会从pure.md重新获取干净的Markdown文本。
清理后的文本使用llm进行嵌入处理。
极简的Flask界面提供搜索和缓存页面查看功能。
这是llm的插件，并非独立程序。
用pipx安装llm：`pipx install llm`。
安装插件：`llm install git+https://github.com/mlang/llm-embed-proxy`。
可选：安装llm-sentence-transformers以使用本地嵌入模型。
注册模型：`llm sentence-transformers register Qwen/Qwen3-Embedding-0.6B`。
运行代理：`llm embed-proxy --model sentence-transformers/Qwen/Qwen3-Embedding-0.6B`。
将浏览器/系统代理指向localhost:8080，访问http://localhost:8080/即可搜索。
底层使用mitmproxy，会在~/.mitmproxy/生成CA证书。
将mitmproxy的CA证书添加到系统中可避免警告提示。