rasa : 创建镜像text2vec_env

2 years ago · 597c865d84
parent 097019a360
commit 597c865d84
8 changed files with 21292 additions and 2 deletions
--- a/virtual-patient-rasa/Dockerfile
+++ b/virtual-patient-rasa/Dockerfile
@ -1,6 +1,9 @@
 # 设置基础镜像
 FROM rasa_dev:1.0.0
 COPY ./docs/docker-entrypoint.sh /usr/local/bin/docker-entrypoint.sh
 # 设置工作目录
 WORKDIR /home/app
@ -11,6 +14,5 @@ COPY docs/rasa /rasa
 # 暴漏服务端口
 EXPOSE 8890
 # 设置启动命令
-ENTRYPOINT ["java","-jar","-Duser.timezone=Asia/Shanghai","/home/app/virtual-patient-rasa-1.0-SNAPSHOT.jar"]
+ENTRYPOINT ["/usr/local/bin/docker-entrypoint.sh"]
--- a/virtual-patient-rasa/README.md
+++ b/virtual-patient-rasa/README.md
@ -0,0 +1,6 @@
 #### rasa镜像版本说明
 | 镜像名称     | 镜像版本  |镜像id| 说明                      |
 |----------|-------| --- |-------------------------|
 | rasa_dev | 1.0.0 | 365fe9f00bac | rasa镜像基础版本，只包含必要的rasa服务 |
 | rasa_dev | 1.1.0 |  | 在1.0.0的基础上添加text2vec服务  |
 | rasa_dev | 2.0.0 | 22313f228098 | 添加rasa-java服务   |
--- a/virtual-patient-rasa/docker_1_1_0/Dockerfile
+++ b/virtual-patient-rasa/docker_1_1_0/Dockerfile
@ -0,0 +1,14 @@
 # 设置基础镜像
 FROM rasa_dev:1.0.0
 COPY ./bert_chinese /usr/local/text2vec/bert_chinese
 COPY ./app.py /usr/local/text2vec/
 RUN /root/anaconda3/condabin/conda  create --name text2vec_env python=3.9 -y && \
    /root/anaconda3/condabin/conda run --no-capture-output --name text2vec_env   pip install torch && \
    /root/anaconda3/condabin/conda run --no-capture-output --name text2vec_env pip install flask && \
    /root/anaconda3/condabin/conda run --no-capture-output --name text2vec_env pip install text2vec -i https://pypi.tuna.tsinghua.edu.cn/simple
 expose 5000
 #CMD [ "/root/anaconda3/condabin/conda","run","--no-capture-output","--name","text2vec_env", "python", "/usr/local/text2vec/app.py"]
--- a/virtual-patient-rasa/docker_1_1_0/app.py
+++ b/virtual-patient-rasa/docker_1_1_0/app.py
@ -0,0 +1,101 @@
 from flask import Flask, request, jsonify
 from text2vec import SentenceModel
 import numpy as np
 import traceback
 import json
 import os
 app = Flask(__name__)
 # 获取当前脚本所在的目录
 current_dir = os.path.dirname(os.path.abspath(__file__))
 # BERT模型路径
 model_path = os.path.join(current_dir, 'bert_chinese')
 model = None
 questions_data = []  # 用于存储问题数据
 sentence_embeddings = []
 default_threshold = 0.7
 # 数据集文件路径
 dataset_file_path = os.path.join(current_dir, 'question.json')
 # 初始化函数，用于加载模型和数据集
 def initialize_app():
    global model, questions_data, sentence_embeddings
    model = SentenceModel(model_path)
    load_dataset()
 # 加载数据集
 def load_dataset():
    global questions_data, sentence_embeddings, sentences
    try:
        with open(dataset_file_path, 'r', encoding='utf-8') as file:
            questions_data = json.load(file)
            sentences = [item["question"] for item in questions_data]
            # 重新编码句子
            sentence_embeddings = [model.encode(sent) / np.linalg.norm(model.encode(sent)) for sent in sentences]
    except Exception as e:
        traceback.print_exc()
        print(f"Error loading dataset: {str(e)}")
 # 错误处理程序
@app.errorhandler(Exception)
 def handle_error(e):
    traceback.print_exc()
    return jsonify({'error': str(e)}), 500
 # 初始化应用
 initialize_app()
 # 替换数据集的接口
@app.route('/update_dataset', methods=['POST'])
 def update_dataset():
    global questions_data, sentence_embeddings
    new_dataset = request.json or []
    # 更新数据集
    try:
        with open(dataset_file_path, 'w', encoding='utf-8') as file:
            json.dump(new_dataset, file, ensure_ascii=False, indent=2)
        load_dataset()
        return jsonify({'status': 'success', 'message': '数据集更新成功'})
    except Exception as e:
        traceback.print_exc()
        return jsonify({'error': f'更新数据集错误: {str(e)}'}), 500
 # 获取匹配的接口
@app.route('/matches', methods=['POST'])
 def get_matches():
    query_sentence = request.json.get('query_sentence', '')
    query_embedding = model.encode([query_sentence])[0]
    # 对向量进行单位化
    query_embedding = query_embedding / np.linalg.norm(query_embedding)
    # 获取阈值参数，如果请求中没有提供阈值，则使用默认阈值
    threshold = request.json.get('threshold', default_threshold)
    # 计算相似度
    similarities = [embedding.dot(query_embedding) for embedding in sentence_embeddings]
    # 获取所有相似度高于阈值的匹配项
    matches = [{'id': questions_data[i]["id"], 'sentence': sentences[i], 'similarity': float(similarity)}
               for i, similarity in enumerate(similarities) if similarity >= threshold]
    return jsonify({'status': 'success', 'matches': matches} if matches else {'status': 'success', 'message': '未找到匹配项'})
 # 获取所有相似度的接口
@app.route('/get_all_similarities', methods=['POST'])
 def get_all_similarities():
    query_sentence = request.json.get('query_sentence', '')
    query_embedding = model.encode([query_sentence])[0]
    # 对向量进行单位化
    query_embedding = query_embedding / np.linalg.norm(query_embedding)
    # 计算所有数据的相似度和对应的文本
    results = [{'id': questions_data[i]["id"], 'sentence': sentences[i], 'similarity': float(embedding.dot(query_embedding))}
               for i, embedding in enumerate(sentence_embeddings)]
    # 返回所有相似度和对应文本
    return jsonify({'status': 'success', 'results': results})
 if __name__ == '__main__':
    app.run(debug=True, host='0.0.0.0')
--- a/virtual-patient-rasa/docker_1_1_0/bert_chinese/config.json
+++ b/virtual-patient-rasa/docker_1_1_0/bert_chinese/config.json
@ -0,0 +1,32 @@
 {
  "_name_or_path": "hfl/chinese-macbert-base",
  "architectures": [
    "BertModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "position_embedding_type": "absolute",
  "torch_dtype": "float32",
  "transformers_version": "4.12.3",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 21128
 }
--- a/virtual-patient-rasa/docker_1_1_0/bert_chinese/pytorch_model.bin
+++ b/virtual-patient-rasa/docker_1_1_0/bert_chinese/pytorch_model.bin
--- a/virtual-patient-rasa/docker_1_1_0/bert_chinese/vocab.txt
+++ b/virtual-patient-rasa/docker_1_1_0/bert_chinese/vocab.txt
--- a/virtual-patient-rasa/docs/docker-entrypoint.sh
+++ b/virtual-patient-rasa/docs/docker-entrypoint.sh
@ -0,0 +1,7 @@
 #!/bin/bash
 # 启动text2vec-server
 /root/anaconda3/condabin/conda run --no-capture-output --name text2vec_env python  /usr/local/text2vec/app.py
 pyton
 # 启动jar包
 java -jar -Duser.timezone=Asia/Shanghai /data/vp/virtual-patient-rasa-1.0-SNAPSHOT.jar "$@"