Files
d3i-szct/dock/dcm/dcm_scrape_form_data.py
T
2026-06-02 17:46:38 +08:00

61 lines
2.7 KiB
Python

import asyncio
import json
import pandas as pd
import models
from tornado.httpclient import HTTPResponse, HTTPRequest
from dock.dcm import dcm_api
from paste.util import udict
from paste.core.logging import echo_log
from models.dcm_task_form_datum import DcmTaskFormDatum
async def get_form_data_request(rec_id: int, act_id: int, form_id: int = 356):
"""
获取 DCM 企业待办表单预览数据。
向 DCM 的企业待办表单预览数据接口发送 GET 请求,获取与指定关系 ID 和类型 ID 关联的媒体信息。
自动注入有效的 Cookie(如 JSESSIONID)至请求头,并解析返回的 JSON 数据。
Args:
rec_id (int): 关联类型 ID,默认为 1(任务类型)。
act_id (int): 关联类型 ID,默认为 1(任务类型)。
form_id (int): 表单 ID。
"""
api_url = f"/home/form/formpreview/getformdata"
# 注意:以下字典加入 body 前必须先编码,否则服务端可能无法解析
_params = {
"recID": rec_id,
"actID": act_id,
}
request_body = {
"formID": form_id,
"param": json.dumps(_params, separators=(',', ':')),
}
# 构造 API 请求
return await dcm_api.new_api_request(api_url, request_body, 'GET')
async def after_form_data_request(response: HTTPResponse, retry_queue: asyncio.Queue[HTTPRequest]):
response_body = response.body.decode()
response_data = json.loads(response_body or '{}')
list_data_546 = udict.get_by_path(response_data, 'resultInfo.data.formTableData.546') or {}
list_data_588 = udict.get_by_path(response_data, 'resultInfo.data.formTableData.588') or {}
list_data_588.pop('rec_id', None)
list_data = {**list_data_546, **list_data_588}
form_data_df = pd.DataFrame([list_data])
# 更换映射方向,用于将源数据列名改为与数据库表对应
forward_mapping = {dict_f: table_f for table_f, dict_f in DcmTaskFormDatum.FieldMapping.items()}
mapped_df = form_data_df.rename(columns=forward_mapping)
# 这里把空数据都换成 None,以便存入数据库时是 null
mapped_df.replace(models.EmptyInDF + models.EmptyDatetimeInDF, None, inplace=True)
dcm_task_id = getattr(response.request, 'dcm_task_id')
rec_id = getattr(response.request, 'rec_id')
mapped_df[DcmTaskFormDatum.dcm_task_id.key] = dcm_task_id
mapped_df[DcmTaskFormDatum.rec_id.key] = rec_id
# 筛选数据状态
_created, _updated = await DcmTaskFormDatum.save_batch(mapped_df)
echo_log(f"成功创建企业待办 {rec_id} 的表单:{_created}条,更新:{_updated}条.")
if retry_queue:
echo_log(f"企业待办表单重试队列中有:{retry_queue.qsize()} 个请求在等待.")