Quickstart
Introduzione a Flora
Flora e una piattaforma RAG enterprise che mantiene ingestione, embeddings, retrieval e generazione all'interno del tuo perimetro infrastrutturale. Questa documentazione guida sviluppatori e team platform nel deployment, nella configurazione e nella gestione operativa dello stack.
Operativo in pochi minuti
Il deployment di base e distribuito come stack componibile con confini di servizio chiari. Inizia con Docker Compose per la validazione locale, poi passa a Kubernetes con Helm quando hai bisogno di controlli di produzione.
Panoramica architetturale
Un ambiente Flora tipico si basa su servizi indipendenti che possono scalare separatamente in base al carico.
- Doctor gestisce ingestione ed estrazione normalizzata dalle sorgenti documentali aziendali.
- TEI genera embeddings in locale e alimenta le collezioni vettoriali in Qdrant.
- Qdrant applica vincoli in fase di retrieval con metadati e filtri basati sul ruolo.
- vLLM fornisce generazione a bassa latenza con PagedAttention per un uso efficiente della GPU.
Installazione
Usa uno dei comandi seguenti per avviare Flora in un ambiente controllato. Sostituisci image tag e values file in base alla tua policy di rilascio.
docker-compose up -d --build flora-stack
helm upgrade --install flora ./infra/charts/flora \
--namespace flora-system --create-namespacePipeline di Ingestione
I connettori Doctor possono essere configurati per i sistemi di knowledge interni, cosi parsing e normalizzazione restano completamente nel tuo perimetro di rete.
Formati supportati
Di default, Flora supporta PDF, DOCX, TXT e allegati metadata strutturati per un'ingestione tracciabile.
Embeddings
Distribuisci TEI vicino al layer API per ridurre la latenza di embedding e mantenere interno tutto il traffico di vettorizzazione.
Selezione modello
Scegli modelli multilingua o specializzati per dominio in base a target di recall, budget memoria e requisiti di throughput.
Vector Storage
Definisci strategia di shard e replica in Qdrant in funzione della dimensione delle collezioni, degli SLA e degli obiettivi di tolleranza ai guasti.
Filtri RBAC
Associa metadati di ruolo in fase di ingestione e applica payload filter durante il retrieval, cosi i chunk non autorizzati non arrivano alla generazione.
Inferenza
Ottimizza lunghezza massima del modello, batch size e concorrenza richieste per stabilizzare la latenza sotto picco.
PagedAttention
PagedAttention ottimizza il paging della memoria per la gestione della KV cache, consentendo serving ad alto throughput con utilizzo GPU prevedibile.
Riferimento API
La superficie API di Flora include endpoint per ingestione, ricerca, generazione risposte e amministrazione. Usa questa sezione per integrare servizi e automatizzare i workflow platform.