新增模块

1 year ago · f6f9668e41
parent 822b766890
commit f6f9668e41
4 changed files with 122 additions and 1 deletions
--- a/know_sub_rag/pom.xml
+++ b/know_sub_rag/pom.xml
@ -19,13 +19,23 @@

    <dependencies>

+        <dependency>
+            <groupId>org.springframework.ai</groupId>
+            <artifactId>spring-ai-tika-document-reader</artifactId>
+        </dependency>
+
+        <dependency>
+            <groupId>org.apache.httpcomponents</groupId>
+            <artifactId>httpclient</artifactId>
+            <version>4.5.13</version>
+        </dependency>
+
        <!--        引入ollama的依赖.版本号来自于 dependencyManagement中 spring-ai-bom中的版本号.-->
        <dependency>
            <groupId>io.springboot.ai</groupId>
            <artifactId>spring-ai-ollama-spring-boot-starter</artifactId>
        </dependency>

-
        <dependency>
            <groupId>org.springframework.ai</groupId>
            <artifactId>spring-ai-elasticsearch-store</artifactId>
@ -74,6 +84,28 @@
    </dependencies>

    <repositories>
+        <repository>
+            <id>central</id>
+            <name>aliyun central repo</name>
+            <url>https://maven.aliyun.com/nexus/content/repositories/central/</url>
+            <layout>default</layout>
+            <releases>
+                <enabled>true</enabled>
+                <updatePolicy>daily</updatePolicy>
+            </releases>
+            <snapshots>
+                <enabled>false</enabled>
+                <updatePolicy>never</updatePolicy>
+            </snapshots>
+        </repository>
+        <repository>
+            <id>spring-snapshots</id>
+            <name>Spring Snapshots</name>
+            <url>https://repo.spring.io/snapshot</url>
+            <snapshots>
+                <enabled>false</enabled>
+            </snapshots>
+        </repository>
        <repository>
            <id>spring-milestones</id>
            <name>Spring Milestones</name>
--- a/know_sub_rag/src/main/java/com/supervision/knowsub/controller/EtlController.java
+++ b/know_sub_rag/src/main/java/com/supervision/knowsub/controller/EtlController.java
@ -0,0 +1,24 @@
+package com.supervision.knowsub.controller;
+
+import com.supervision.knowsub.etl.reader.TikaReader;
+import org.springframework.beans.factory.annotation.Autowired;
+import org.springframework.web.bind.annotation.PostMapping;
+import org.springframework.web.bind.annotation.RequestMapping;
+import org.springframework.web.bind.annotation.RequestParam;
+import org.springframework.web.bind.annotation.RestController;
+import org.springframework.web.multipart.MultipartFile;
+
+import java.io.IOException;
+
+@RestController
+@RequestMapping("etl")
+public class EtlController {
+
+    @Autowired
+    private TikaReader tikaReader;
+
+    @PostMapping("testLoadText")
+    public void testLoadText(@RequestParam(name = "file") MultipartFile file) throws IOException {
+        tikaReader.loadAndSplitThenSaveVectorStore(file.getInputStream());
+    }
+}
--- a/know_sub_rag/src/main/java/com/supervision/knowsub/etl/reader/TikaReader.java
+++ b/know_sub_rag/src/main/java/com/supervision/knowsub/etl/reader/TikaReader.java
@ -0,0 +1,42 @@
+package com.supervision.knowsub.etl.reader;
+
+import lombok.RequiredArgsConstructor;
+import lombok.extern.slf4j.Slf4j;
+import org.springframework.ai.document.Document;
+import org.springframework.ai.reader.tika.TikaDocumentReader;
+import org.springframework.ai.transformer.splitter.TokenTextSplitter;
+import org.springframework.ai.vectorstore.ElasticsearchVectorStore;
+import org.springframework.core.io.InputStreamResource;
+import org.springframework.stereotype.Component;
+
+import java.io.InputStream;
+import java.util.List;
+
+@Slf4j
+@Component
+@RequiredArgsConstructor
+public class TikaReader {
+
+    private final ElasticsearchVectorStore elasticsearchVectorStore;
+
+    /**
+     * 参考文档 <a href="https://zhuanlan.zhihu.com/p/703705663"/>
+     *
+     * @param inputStream 输入流
+     */
+    public void loadAndSplitThenSaveVectorStore(InputStream inputStream) {
+        // 首先使用tika进行文件切分操作
+        log.info("首先进行内容切分");
+        TikaDocumentReader tikaDocumentReader = new TikaDocumentReader(new InputStreamResource(inputStream));
+        List<Document> documents = tikaDocumentReader.read();
+        log.info("切分完成,开始进行chunk分割");
+        // 然后切分为chunk
+        TokenTextSplitter tokenTextSplitter = new TokenTextSplitter();
+        List<Document> apply = tokenTextSplitter.apply(documents);
+        log.info("切分完成,开始进行保存到向量库中");
+        // 保存到向量数据库中
+        elasticsearchVectorStore.accept(apply);
+        log.info("保存完成");
+
+    }
+}
--- a/pom.xml
+++ b/pom.xml
@ -44,6 +44,7 @@
    <dependencyManagement>
        <dependencies>

+
            <dependency>
                <groupId>io.springboot.ai</groupId>
                <artifactId>spring-ai-bom</artifactId>
@ -121,6 +122,28 @@
    </dependencyManagement>

    <repositories>
+        <repository>
+            <id>central</id>
+            <name>aliyun central repo</name>
+            <url>https://maven.aliyun.com/nexus/content/repositories/central/</url>
+            <layout>default</layout>
+            <releases>
+                <enabled>true</enabled>
+                <updatePolicy>daily</updatePolicy>
+            </releases>
+            <snapshots>
+                <enabled>false</enabled>
+                <updatePolicy>never</updatePolicy>
+            </snapshots>
+        </repository>
+        <repository>
+            <id>spring-snapshots</id>
+            <name>Spring Snapshots</name>
+            <url>https://repo.spring.io/snapshot</url>
+            <snapshots>
+                <enabled>false</enabled>
+            </snapshots>
+        </repository>
        <repository>
            <id>spring-milestones</id>
            <name>Spring Milestones</name>