🛠️ 团队 Git 协作流程规范为确保多人协作开发的高效与规范,团队统一采用如下 Git 工作流流程, 记录如下:
🛠️ 0. 克隆远程仓库1git clone git@github.com:xxx.git
🚀 1. 创建个人开发分支1git checkout -b <your_branch_name>
🛠️ 2. 本地开发与提交123git diff # 查看变更(可选)git add <file> # 添加到暂存区git commit -m "说明内容" # 提交
☁️ 3....
最近比赛需要构建docker镜像,上传至阿里云镜像服务站,以便于官方复现测评,这是一个繁琐的过程,以后也会用到,所以记录一下。
主要分为以下几步:
1) 开通阿里云镜像服务
2) 在本地电脑或者服务器上面安装docker
3) 构建docker镜像
4) 将本地 docker 镜像推送至阿里云镜像服务站
5)本地一键镜像创建和上传脚本
下面为详细的步骤描述:
1) 开通阿里云镜像服务阿里云镜像服务站的开通过程比较繁琐,根据DataWhale的教程操作如下:
a. 点击链接并登录阿里云账号
b. 创建个人版实例
c. 创建命名空间
d. 创建镜像仓库
创建镜像仓库时,代码源选择本地...
今天在使用 pip 安装 torch-scatter 包时报错,然后使用 conda 成功安装了,但是运行代码的时候报错,并且是一个底层的错误。
查询之后发现,是因为在使用 torch_scatter、torch_sparse、torch_cluster 等基于 C++ 的扩展模块时,如果 PyTorch 版本和系统环境不完全匹配,就容易发生这类底层编译失败。
解决方法最稳定也最省事的方式是不要从源码编译 torch_scatter,而是使用预编译好的 .whl 包进行安装。步骤如下:
确认 PyTorch 和 Python 版本
12python -c "import torch;...
在做知识图谱相关的项目时,经常需要将数据导入到neo4j中,这里分享一下导入节点和边的python代码,以便于以后查阅。
需要注意的是,下面的代码是在neo4j 5.x 版本上测试通过的,如果是其他版本,可能需要做一些调整。
neo4j 导入节点和边的类实现
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687...
整理了一些以前的街拍照片,陆陆续续拍了几万张,后面会持续更新 …
「冬日图书馆前的树。」
「校园里面树上的鸟巢。」
.multiple-breaks {
display: block;
margin-top: 20px;
}
.image-caption {
...
后面会持续更新 …
导入依赖的包
1from concurrent.futures import ProcessPoolExecutor, as_completed
定义处理内容的函数,该函数要是全局函数,不能放在函数或者类里面函数的参数只有一个,可以用元组包装起来,然后再解包
12345678def process_record(args): text = args[0]["text"] CONTENT = args[1] extract_info = inference(text, model="deepseek-chat", CONTENT=CONTENT) retu...
先从网络上下载 SimHei.ttf 文件放在某个位置,然后用下面的代码,设置字体的位置。
12345678910111213141516171819import jsonimport pandas as pd# 从 data/original/SylvanL/Exam/tcm_exam_1.csv 读取数据import matplotlib.pyplot as pltfrom matplotlib import font_managerfrom matplotlib import rcParamsimport reimport matplotlib # 设置当前目录import os...
在自然语言处理(NLP)中,短语的相似性分析是一个常见且重要的任务。传统的文本相似性计算方法往往依赖于手工设计的特征,但随着深度学习和预训练语言模型的出现,BERT(Bidirectional Encoder Representations from Transformers)及其衍生模型为我们提供了更强大的表达能力。在本文中,我们将介绍如何使用BERT模型对短语进行向量化,并结合层次聚类算法对相似短语进行去重。
任务背景在很多应用场景下,我们往往需要从大量的短语数据中去除重复或者相似的内容,以便于进一步分析。例如,在传统中医(TCM)数据分析中,可能有大量的类似任务相关查询或医疗术语需...
在自然语言处理(NLP)和数据清洗过程中,处理相似文本的聚类问题是一个常见的挑战。例如,在搜索日志、医学术语、客户查询等文本数据中,我们经常会遇到拼写相似或近似表达的词汇。为了更好地对这些数据进行分类和管理,我们可以使用 编辑距离(Levenshtein Distance) 结合 层次聚类(Hierarchical Clustering) 进行文本聚类。
本文介绍了一种基于 Python 的 编辑距离层次聚类 方法,并提供了一个完整的实现代码。该方法的核心思想是:
计算编辑距离矩阵:通过 Levenshtein 距离衡量文本之间的相似性。
层次聚类:使用层次聚类,将相似的文本归类到相...
最近对常见的Ai竞赛平台做了整理,记录如下:
Kaggle: https://www.kaggle.com/
AIcrowd: https://www.aicrowd.com/
Codalab : https://codalab.lisn.upsaclay.fr/
DrivenData: https://www.drivendata.org/
Grand Challenge: https://grand-challenge.org/
Topcoder: https://www.topcoder.com/challenges
Zindi: https://zindi.africa/...
mac系统 pandas存储为csv 在excel中打开乱码
在使用pandas存储数据为csv文件后,在excel中打开会出现乱码问题,解决方法如下:指定编码格式为utf-8-sig,即可解决问题。
1df.to_csv('output.csv', index=False, encoding='utf-8-sig')
api 调用大模型时,指定返回json格式数据
解决方法如下: 指定 response_format 为 {"type":"json_object"},但是这个方法在deepseek中不适用。
123456789101112131415client = openai...