d3i-szct/dock/dcm/dcm_scrape_process_info.py

import asyncio
import json
import pandas as pd
import models

from tornado.httpclient import HTTPResponse, HTTPRequest

from dock.dcm import dcm_api
from paste.util import udict
from paste.core.logging import echo_log
from models.dcm_task_process_info import DcmTaskProcessInfo


async def get_process_info_request(relation_id: int, process_type: str = 'full', show_assign_flag: int = 0):
    """
    获取 DCM 企业待办处理经过信息。

    向 DCM 的任务处理经过信息接口发送 GET 请求，获取指定任务的流程信息（如审批流、节点等）。
    自动注入有效的 Cookie（如 JSESSIONID）至请求头，并解析返回的 JSON 数据。

    Args:
        relation_id (int): 关联记录的 ID，例如任务 ID。
        process_type (str): 流程信息类型，默认为 'full'（完整流程）。
        show_assign_flag (int): 是否显示分配人信息，0 表示不显示，非 0 表示显示。
    """
    api_url = f"/home/workflow/getrecprocessinfo"
    request_body = {
        "recID": relation_id,
        "processType": process_type,
        "showAssignFlag": show_assign_flag,
    }
    # 构造 API 请求
    return await dcm_api.new_api_request(api_url, request_body, 'GET')


async def after_process_info_request(response: HTTPResponse, retry_queue: asyncio.Queue[HTTPRequest]):
    response_body = response.body.decode()
    response_data = json.loads(response_body)
    list_data = udict.get_by_path(response_data, 'resultInfo.data.processInfo')
    process_info_df = pd.DataFrame(list_data)
    # 更换映射方向，用于将源数据列名改为与数据库表对应
    forward_mapping = {dict_f: table_f for table_f, dict_f in DcmTaskProcessInfo.FieldMapping.items()}
    mapped_df = process_info_df.rename(columns=forward_mapping)
    # 这里把空数据都换成 None，以便存入数据库时是 null
    mapped_df.replace(models.EmptyInDF + models.EmptyDatetimeInDF, None, inplace=True)
    dcm_task_id = getattr(response.request, 'dcm_task_id')
    rec_id = getattr(response.request, 'rec_id')
    mapped_df[DcmTaskProcessInfo.dcm_task_id.key] = dcm_task_id
    mapped_df[DcmTaskProcessInfo.rec_id.key] = rec_id
    # 筛选数据状态
    _created, _updated = await DcmTaskProcessInfo.save_batch(mapped_df)
    echo_log(f"成功创建企业待办 {rec_id} 的经过：{_created}条，更新：{_updated}条.")
    if retry_queue:
        echo_log(f"企业待办经过重试队列中有：{retry_queue.qsize()} 个请求在等待.")