generateGraph 功能初始化

5 months ago · 7f5c52546a
parent 830acca35d
commit 7f5c52546a
13 changed files with 101 additions and 37 deletions
--- a/src/main/java/com/supervision/pdfqaserver/cache/PromptCache.java
+++ b/src/main/java/com/supervision/pdfqaserver/cache/PromptCache.java
@ -29,7 +29,7 @@ public class PromptCache {


    private static final String DOERE_TEXT_PROMPT = """
-            你是一个高级信息抽取引擎，请从给定文本中提取以下结构化信息并以JSON格式输出：
+            你是一个高级信息抽取引擎，请从给定文本中提取以下结构化信息并以JSON数据输出，不要进行解释：
                                
                1. **节点提取**：
                   - 识别所有实体作为节点
@ -45,8 +45,8 @@ public class PromptCache {
                   - 生成由 (头节点类型, 关系类型, 尾节点类型) 组成的元组
                                
                **输出要求**：
+                - 输出纯JSON格式，不要使用```json ```等任何Markdown标记包装
                - 使用如下JSON Schema：
-                                
                {
                  "nodes": [
                    {
@ -138,7 +138,7 @@ public class PromptCache {
            """;

    private static final String DOERE_TABLE_PROMPT = """
-            你是一个表格数据处理专家，请严格按以下要求从给出的表格中提取数据：
+            你是一个表格数据处理专家，请严格按以下要求从给出的表格中提取数据，直接给出结果，不进行解释：
                        
            **处理规则：**
            1. 完全保留原始表头字段名称，不做任何中英文转换或修改
@ -147,7 +147,6 @@ public class PromptCache {
            4. 表格第一列作为主键字段
                        
            **输出格式：**
-            ```json
            {
              "table_data": [
                {
@ -158,7 +157,7 @@ public class PromptCache {
                // 后续行...
              ]
            }
-            ```
+            
                        
            **示例表格：**
            | 账龄 | 期末余额 | 年初余额 |
@ -189,9 +188,31 @@ public class PromptCache {


    private static final String CHINESE_TO_ENGLISH_PROMPT = """
-            你是一个表格数据处理专家，请严格按以下要求从给出的表格中提取数据：
-                        
-            
+            你是一个Neo4j图数据库命名规范转换专家，请将以下中文短语转换为符合Neo4j命名规范的英文名称。要求：
+                        
+            1. **命名规范**：
+               - 使用`UpperCamelCase`命名实体（如`ProductCategory`）
+               - 使用`SCREAMING_SNAKE_CASE`命名关系（如`IS_RELATED_TO`）
+               - 保留数字原样（如`2023`→`2023`）
+               - 禁止特殊字符（如空格、括号、引号等）
+               - 优先选择技术领域通用术语
+                        
+            2. **转换规则**：
+               - 直译或意译均可，但需确保语义清晰
+               - 若中文含多义词，选择最贴近技术场景的译法
+               - 对品牌/专有名词保留原始英文（如"腾讯"→`Tencent`）
+                        
+            3. **输入输出示例**：
+               - 输入: "用户订单" → 输出: `UserOrder`（实体）
+               - 输入: "属于2023年" → 输出: `BELONGS_TO_2023`（关系）
+               - 输入: "5G网络设备" → 输出: `5GNetworkDevice`（实体）
+               - 输入: "评分大于90" → 输出: `SCORE_ABOVE_90`（关系）
+                        
+            4. **待转换文本**：
+               {}
+                        
+            5. **输出要求**：
+               只需返回转换后的英文名称，无需解释。
            """;


@ -203,12 +224,10 @@ public class PromptCache {
            4. 返回完整的Cypher语句，不要解释。
                        
            ### 输入三元组示例
-            ```json
            [
              {"source": "人物","sourceType": "Person", "relation": "创始人", "relationType": "FOUNDED","target": "公司","targetType": "Company"},
            {"source": "公司","sourceType": "Company ", "relation": "位于", "relationType": "LOCATED_IN","target": "城市","targetType": "City "}
            ]
-            ```
                        
            ### 输出示例
                        
--- a/src/main/java/com/supervision/pdfqaserver/domain/PdfAnalysisOutput.java
+++ b/src/main/java/com/supervision/pdfqaserver/domain/PdfAnalysisOutput.java
@ -47,7 +47,7 @@ public class PdfAnalysisOutput implements Serializable {
    /**
     * 内容在pdf页面中的顺序，越小表示顺序越靠前
     */
-    private Integer order;
+    private Integer displayOrder;

    /**
     * 
--- a/src/main/java/com/supervision/pdfqaserver/dto/DocumentDTO.java
+++ b/src/main/java/com/supervision/pdfqaserver/dto/DocumentDTO.java
@ -29,7 +29,7 @@ public class DocumentDTO {
    /**
     * 内容在pdf页面中的顺序，越小表示顺序越靠前
     */
-    private Integer layoutOrder;
+    private Integer displayOrder;

    private String title;

@ -49,13 +49,13 @@ public class DocumentDTO {
    }

    public DocumentDTO(PdfAnalysisOutput pdfAnalysisOutput) {
-        this.id = pdfAnalysisOutput.getPdfId().toString();
+        this.id = pdfAnalysisOutput.getId().toString();
        this.sectionId = pdfAnalysisOutput.getId();
        this.layoutType = pdfAnalysisOutput.getLayoutType();
        this.pageNo = pdfAnalysisOutput.getPageNo();
        this.title = pdfAnalysisOutput.getTableTitle();
        this.content = pdfAnalysisOutput.getContent();
-        this.layoutOrder = pdfAnalysisOutput.getOrder();
+        this.displayOrder = pdfAnalysisOutput.getDisplayOrder();

    }

--- a/src/main/java/com/supervision/pdfqaserver/dto/EREDTO.java
+++ b/src/main/java/com/supervision/pdfqaserver/dto/EREDTO.java
@ -37,17 +37,17 @@ public class EREDTO {
                String name = nodeJson.getString("name");
                String type = nodeJson.getString("type");
                JSONObject attributes = nodeJson.getJSONObject("attributes");
+                List<ERAttributeDTO> erAttributeDTOS = new ArrayList<>();
                if (CollUtil.isNotEmpty(attributes)){
-                    List<ERAttributeDTO> erAttributeDTOS = new ArrayList<>();
                    for (String key : attributes.keySet()) {
                        Object value = attributes.get(key);
                        String valueString = attributes.getString(key);
                        ERAttributeDTO erAttributeDTO = new ERAttributeDTO(key, valueString, value instanceof Number?"1":"0");
                        erAttributeDTOS.add(erAttributeDTO);
                    }
-                    EntityExtractionDTO entityExtraction = new EntityExtractionDTO(truncationId,name,type, erAttributeDTOS);
-                    entities.add(entityExtraction);
                }
+                EntityExtractionDTO entityExtraction = new EntityExtractionDTO(truncationId,name,type, erAttributeDTOS);
+                entities.add(entityExtraction);
            }
        }
        if (CollUtil.isNotEmpty(relations)){
@ -106,7 +106,7 @@ public class EREDTO {
                continue;
            }
            EntityExtractionDTO entityExtractionDTO = new EntityExtractionDTO();
-            entityExtractionDTO.setEntity("row");
+            entityExtractionDTO.setEntity("行");
            entityExtractionDTO.setName("row");
            entityExtractionDTO.setTruncationId(truncationId);
            List<ERAttributeDTO> erAttributeDTOS = new ArrayList<>();
--- a/src/main/java/com/supervision/pdfqaserver/service/PdfAnalysisOutputService.java
+++ b/src/main/java/com/supervision/pdfqaserver/service/PdfAnalysisOutputService.java
@ -12,5 +12,5 @@ import java.util.List;
 */
 public interface PdfAnalysisOutputService extends IService<PdfAnalysisOutput> {

-    List<PdfAnalysisOutput> queryByPdfId(String pdfId);
+    List<PdfAnalysisOutput> queryByPdfId(Integer pdfId);
 }
--- a/src/main/java/com/supervision/pdfqaserver/service/impl/ChinesEsToEnglishGeneratorImpl.java
+++ b/src/main/java/com/supervision/pdfqaserver/service/impl/ChinesEsToEnglishGeneratorImpl.java
@ -1,5 +1,6 @@
 package com.supervision.pdfqaserver.service.impl;

+import cn.hutool.core.util.StrUtil;
 import com.supervision.pdfqaserver.cache.PromptCache;
 import com.supervision.pdfqaserver.service.ChinesEsToEnglishGenerator;
 import lombok.RequiredArgsConstructor;
@ -18,7 +19,8 @@ public class ChinesEsToEnglishGeneratorImpl implements ChinesEsToEnglishGenerato
    public String generate(String chinese) {
        log.info("generate:开始翻译: {}",chinese);
        String prompt = PromptCache.promptMap.get(CHINESE_TO_ENGLISH);
-        ollamaChatModel.call("请将以下中文翻译成英文: " + chinese);
-        return null;
+        String response = ollamaChatModel.call(StrUtil.format(prompt, chinese));
+        log.info("generate:chinese:{}翻译结果: {}",chinese,response);
+        return response;
    }
 }
--- a/src/main/java/com/supervision/pdfqaserver/service/impl/DocumentTruncationServiceImpl.java
+++ b/src/main/java/com/supervision/pdfqaserver/service/impl/DocumentTruncationServiceImpl.java
@ -24,7 +24,11 @@ public class DocumentTruncationServiceImpl extends ServiceImpl<DocumentTruncatio
        if (CollUtil.isEmpty(truncateDTOS)){
            return;
        }
-        truncateDTOS.stream().map(TruncateDTO::toDocumentTruncation).forEach(this::save);
+        for (TruncateDTO truncateDTO : truncateDTOS) {
+            DocumentTruncation documentTruncation = truncateDTO.toDocumentTruncation();
+            this.save(documentTruncation);
+            truncateDTO.setId(documentTruncation.getId());
+        }
    }
 }

--- a/src/main/java/com/supervision/pdfqaserver/service/impl/KnowledgeGraphServiceImpl.java
+++ b/src/main/java/com/supervision/pdfqaserver/service/impl/KnowledgeGraphServiceImpl.java
@ -1,6 +1,7 @@
 package com.supervision.pdfqaserver.service.impl;

 import cn.hutool.core.collection.CollUtil;
+import cn.hutool.core.date.TimeInterval;
 import cn.hutool.core.util.StrUtil;
 import com.supervision.pdfqaserver.constant.DomainMetaGenerationEnum;
 import com.supervision.pdfqaserver.domain.ChineseEnglishWords;
@ -39,18 +40,24 @@ public class KnowledgeGraphServiceImpl implements KnowledgeGraphService {

    @Override
    public void generateGraph(String documentId) {
-        List<PdfAnalysisOutput> pdfAnalysisOutputs = pdfAnalysisOutputService.queryByPdfId(documentId);
+        List<PdfAnalysisOutput> pdfAnalysisOutputs = pdfAnalysisOutputService.queryByPdfId(Integer.valueOf(documentId));
        if (CollUtil.isEmpty(pdfAnalysisOutputs)) {
            log.info("没有找到pdfId为{}的pdf分析结果", documentId);
            return;
        }
        List<DocumentDTO> documentDTOList = pdfAnalysisOutputs.stream().map(DocumentDTO::new).toList();
        // 对文档进行切分
+        TimeInterval timer = new TimeInterval();
+        timer.start("sliceDocuments");
+        log.info("开始切分文档,初始文档个数:{}",documentDTOList.size());
        List<TruncateDTO> truncateDTOS = tripleConversionPipeline.sliceDocuments(documentDTOList);
+        log.info("切分文档完成,切分后文档个数:{},耗时:{}秒",truncateDTOS.size(), timer.intervalSecond("sliceDocuments"));
        // 保存分片信息
        documentTruncationService.batchSave(truncateDTOS);

        // 对切分后的文档进行命名实体识别
+        timer.start("doEre");
+        log.info("开始命名实体识别...");
        List<EREDTO> eredtoList = new ArrayList<>();
        for (TruncateDTO truncateDTO : truncateDTOS) {
            EREDTO eredto = tripleConversionPipeline.doEre(truncateDTO);
@ -59,12 +66,17 @@ public class KnowledgeGraphServiceImpl implements KnowledgeGraphService {
            }
            // 保存实体关系抽取结果
            this.saveERE(eredto, truncateDTO.getId());
+            eredtoList.add(eredto);
        }
+        log.info("命名实体识别完成,耗时:{}秒", timer.intervalSecond("doEre"));

        // 合并实体关系抽取结果
+        log.info("开始合并实体关系抽取结果...");
        List<EREDTO> mergedList = tripleConversionPipeline.mergeEreResults(eredtoList);
+        log.info("合并实体关系抽取结果完成,合并后个数:{}", mergedList.size());

        // 保存领域元数据
+        log.info("开始保存领域元数据...");
        for (EREDTO eredto : mergedList) {
            List<RelationExtractionDTO> relations = eredto.getRelations();
            if (CollUtil.isEmpty(relations)){
@ -77,9 +89,12 @@ public class KnowledgeGraphServiceImpl implements KnowledgeGraphService {
                domainMetadataService.saveIfNotExists(domainMetadata);
            }
        }
+        log.info("保存领域元数据完成");

        // 保存字典
+        log.info("开始保存字典...");
        List<ChineseEnglishWords> allWords = chineseEnglishWordsService.queryAll();
+        int wordsSize = allWords.size();
        for (EREDTO eredto : mergedList) {
            List<EntityExtractionDTO> entities = eredto.getEntities();
            if (CollUtil.isNotEmpty(entities)){
@ -94,7 +109,7 @@ public class KnowledgeGraphServiceImpl implements KnowledgeGraphService {
                }
            }
        }
-
+        log.info("保存字典完成,新增字典个数:{}", allWords.size() - wordsSize);
        // 生成cypher语句
        for (EREDTO eredto : mergedList) {
            eredto.setEn(allWords);
--- a/src/main/java/com/supervision/pdfqaserver/service/impl/PdfAnalysisOutputServiceImpl.java
+++ b/src/main/java/com/supervision/pdfqaserver/service/impl/PdfAnalysisOutputServiceImpl.java
@ -19,8 +19,8 @@ public class PdfAnalysisOutputServiceImpl extends ServiceImpl<PdfAnalysisOutputM
    implements PdfAnalysisOutputService{

    @Override
-    public List<PdfAnalysisOutput> queryByPdfId(String pdfId) {
-        Assert.notEmpty(pdfId, "pdfId不能为空");
+    public List<PdfAnalysisOutput> queryByPdfId(Integer pdfId) {
+        Assert.notNull(pdfId, "pdfId不能为空");

        return super.lambdaQuery().eq(PdfAnalysisOutput::getPdfId, pdfId).list();
    }
--- a/src/main/java/com/supervision/pdfqaserver/service/impl/TripleConversionPipelineImpl.java
+++ b/src/main/java/com/supervision/pdfqaserver/service/impl/TripleConversionPipelineImpl.java
@ -30,7 +30,7 @@ public class TripleConversionPipelineImpl implements TripleConversionPipeline {
                // 先对pageNo进行排序再对layoutOrder进行排序
                (o1, o2) -> {
                    if (o1.getPageNo().equals(o2.getPageNo())) {
-                        return Integer.compare(o1.getLayoutOrder(), o2.getLayoutOrder());
+                        return Integer.compare(o1.getDisplayOrder(), o2.getDisplayOrder());
                    }
                    return Integer.compare(o1.getPageNo(), o2.getPageNo());
                }
@ -72,12 +72,12 @@ public class TripleConversionPipelineImpl implements TripleConversionPipeline {
    @Override
    public EREDTO doEre(TruncateDTO truncateDTO) {

-        if (StrUtil.equals(truncateDTO.getLayoutType(),"0")){
+        if (StrUtil.equals(truncateDTO.getLayoutType(),String.valueOf(LayoutTypeEnum.TEXT.getCode()))){

            return doTextEre(truncateDTO);
        }

-        if (StrUtil.equals(truncateDTO.getLayoutType(),"1")){
+        if (StrUtil.equals(truncateDTO.getLayoutType(),String.valueOf(LayoutTypeEnum.TABLE.getCode()))){
            return doTableEre(truncateDTO);
        }
        log.info("doEre:错误的布局类型: {}", truncateDTO.getLayoutType());
@ -85,21 +85,37 @@ public class TripleConversionPipelineImpl implements TripleConversionPipeline {
    }

    private EREDTO doTextEre(TruncateDTO truncateDTO) {
+        log.info("doTextEre:开始进行文本实体关系抽取,内容:{}", truncateDTO.getContent());
        String prompt = PromptCache.promptMap.get(PromptCache.DOERE_TEXT);
-        String formatted = String.format(prompt, truncateDTO.getContent());
+        String formatted = StrUtil.format(prompt, truncateDTO.getContent());
        String response = ollamaChatModel.call(formatted);
        // todo:暂时不去处理异常返回
-
+        log.info("doTextEre响应结果:{}", response);
        return EREDTO.fromTextJson(response, truncateDTO.getId());
    }

    private EREDTO doTableEre(TruncateDTO truncateDTO) {
+        log.info("doTableEre:开始进行表格实体关系抽取,内容:{}", truncateDTO.getContent());
        String prompt = PromptCache.promptMap.get(PromptCache.DOERE_TABLE);
-        String formatted = String.format(prompt, truncateDTO.getContent());
+        String formatted = StrUtil.format(prompt, truncateDTO.getContent());
        String response = ollamaChatModel.call(formatted);
+        log.info("doTableEre响应结果:{}", response);
        // todo:暂时不去处理异常返回
-
-        return EREDTO.fromTableJson(response, truncateDTO.getId());
+        EREDTO eredto = EREDTO.fromTableJson(response, truncateDTO.getId());
+        EntityExtractionDTO titleEntity = new EntityExtractionDTO();
+        titleEntity.setEntity("表");
+        titleEntity.setName(truncateDTO.getTitle());
+        //
+        // 添加关系
+        ArrayList<RelationExtractionDTO> relations = new ArrayList<>();
+        for (EntityExtractionDTO entity : eredto.getEntities()) {
+            RelationExtractionDTO relationExtractionDTO = new RelationExtractionDTO(truncateDTO.getId(),
+                    titleEntity.getEntity(), titleEntity.getName(), "包含", entity.getEntity(), entity.getName(), entity.getAttributes());
+            relations.add(relationExtractionDTO);
+        }
+        eredto.getEntities().add(titleEntity);
+        eredto.setRelations(relations);
+        return eredto;
    }

    /**
--- a/src/main/resources/application.yml
+++ b/src/main/resources/application.yml
@ -17,7 +17,7 @@ spring:
      chat:
        model: qwen2.5:32b
        options:
-          max_tokens: 512
+          max_tokens: 51200
          top_p: 0.9
          top_k: 40
          temperature: 0.7
--- a/src/main/resources/mapper/PdfAnalysisOutputMapper.xml
+++ b/src/main/resources/mapper/PdfAnalysisOutputMapper.xml
@ -11,13 +11,13 @@
            <result property="pageNo" column="page_no" jdbcType="INTEGER"/>
            <result property="pdfId" column="pdf_id" jdbcType="INTEGER"/>
            <result property="tableTitle" column="table_title" jdbcType="VARCHAR"/>
-            <result property="order" column="order" jdbcType="INTEGER"/>
+            <result property="displayOrder" column="display_order" jdbcType="INTEGER"/>
            <result property="createTime" column="create_time" jdbcType="TIMESTAMP"/>
    </resultMap>

    <sql id="Base_Column_List">
        id,layout_type,content,
        page_no,pdf_id,table_title,
-        order,create_time
+        display_order,create_time
    </sql>
 </mapper>
--- a/src/test/java/com/supervision/pdfqaserver/PdfQaServerApplicationTests.java
+++ b/src/test/java/com/supervision/pdfqaserver/PdfQaServerApplicationTests.java
@ -1,13 +1,21 @@
 package com.supervision.pdfqaserver;

+import com.supervision.pdfqaserver.service.KnowledgeGraphService;
+import lombok.extern.slf4j.Slf4j;
 import org.junit.jupiter.api.Test;
+import org.springframework.beans.factory.annotation.Autowired;
 import org.springframework.boot.test.context.SpringBootTest;

+@Slf4j
@SpringBootTest
 class PdfQaServerApplicationTests {

+    @Autowired
+    private KnowledgeGraphService knowledgeGraphService;
    @Test
-    void contextLoads() {
+    void generateGraphTest() {
+        knowledgeGraphService.generateGraph("1");
+        log.info("finish...");
    }

 }