Text Embeddings are All Alike

a year ago

Introduces an unsupervised method for translating text embeddings between different vector spaces without paired data or predefined matches.
Proposes a universal latent representation for embeddings, aligning with the Platonic Representation Hypothesis.
Achieves high cosine similarity across diverse model architectures and training datasets.
Highlights security implications for vector databases, as adversaries can infer sensitive information from embeddings.

Hasty Briefsbeta