茄子的个人空间

茄子的个人空间

因为热爱,所以记录!

loading
neo4j导入节点和边的python代码
在做知识图谱相关的项目时,经常需要将数据导入到neo4j中,这里分享一下导入节点和边的python代码,以便于以后查阅。 需要注意的是,下面的代码是在neo4j 5.x 版本上测试通过的,如果是其他版本,可能需要做一些调整。 neo4j 导入节点和边的类实现 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687...
街拍合集
整理了一些以前的街拍照片,陆陆续续拍了几万张,后面会持续更新 … 「冬日图书馆前的树。」 「校园里面树上的鸟巢。」 .multiple-breaks { display: block; margin-top: 20px; } .image-caption { ...
python多进程示例
导入依赖的包 1from concurrent.futures import ProcessPoolExecutor, as_completed 定义处理内容的函数,该函数要是全局函数,不能放在函数或者类里面函数的参数只有一个,可以用元组包装起来,然后再解包 12345678def process_record(args): text = args[0]["text"] CONTENT = args[1] extract_info = inference(text, model="deepseek-chat", CONTENT=CONTENT) retu...
matplotlib 设置显示中文
先从网络上下载 SimHei.ttf 文件放在某个位置,然后用下面的代码,设置字体的位置。 12345678910111213141516171819import jsonimport pandas as pd# 从 data/original/SylvanL/Exam/tcm_exam_1.csv 读取数据import matplotlib.pyplot as pltfrom matplotlib import font_managerfrom matplotlib import rcParamsimport reimport matplotlib # 设置当前目录import os...
使用BERT得到短语向量表示并进行层次聚类实现相似性去重
在自然语言处理(NLP)中,短语的相似性分析是一个常见且重要的任务。传统的文本相似性计算方法往往依赖于手工设计的特征,但随着深度学习和预训练语言模型的出现,BERT(Bidirectional Encoder Representations from Transformers)及其衍生模型为我们提供了更强大的表达能力。在本文中,我们将介绍如何使用BERT模型对短语进行向量化,并结合层次聚类算法对相似短语进行去重。 任务背景在很多应用场景下,我们往往需要从大量的短语数据中去除重复或者相似的内容,以便于进一步分析。例如,在传统中医(TCM)数据分析中,可能有大量的类似任务相关查询或医疗术语需...
基于编辑距离的文本层次聚类
在自然语言处理(NLP)和数据清洗过程中,处理相似文本的聚类问题是一个常见的挑战。例如,在搜索日志、医学术语、客户查询等文本数据中,我们经常会遇到拼写相似或近似表达的词汇。为了更好地对这些数据进行分类和管理,我们可以使用 编辑距离(Levenshtein Distance) 结合 层次聚类(Hierarchical Clustering) 进行文本聚类。 本文介绍了一种基于 Python 的 编辑距离层次聚类 方法,并提供了一个完整的实现代码。该方法的核心思想是: 计算编辑距离矩阵:通过 Levenshtein 距离衡量文本之间的相似性。 层次聚类:使用层次聚类,将相似的文本归类到相...
Ai竞赛平台
最近对常见的Ai竞赛平台做了整理,记录如下: Kaggle: https://www.kaggle.com/ AIcrowd: https://www.aicrowd.com/ Codalab : https://codalab.lisn.upsaclay.fr/ DrivenData: https://www.drivendata.org/ Grand Challenge: https://grand-challenge.org/ Topcoder: https://www.topcoder.com/challenges Zindi: https://zindi.africa/...
python日常开发杂记
mac系统 pandas存储为csv 在excel中打开乱码 在使用pandas存储数据为csv文件后,在excel中打开会出现乱码问题,解决方法如下:指定编码格式为utf-8-sig,即可解决问题。 1df.to_csv('output.csv', index=False, encoding='utf-8-sig') api 调用大模型时,指定返回json格式数据 解决方法如下: 指定 response_format 为 {"type":"json_object"},但是这个方法在deepseek中不适用。 123456789101112131415client = openai...
通过docker部署doccano标注工具
上半年使用了 doccano 标注工具对命名实体识别任务做了标注,感觉很好用。最近准备将其部署到服务器上,通过 docker 容器的方式进行,以便于以后可以快速部署。 许久不用也是遇到了不少问题,主要是部署好系统后,上传数据一直转圈,没有反应,后面发现是因为没有启动 doccano task,而task需要和 doccano webserver 一起启动, openai 给我的建议是启动两个 docker 服务,我还是选用了常规的 screen 方式。 下面是自己编写的可以使用的 docker-compose 文件,记录在此,方便以后调用。 12345678910111213141516...
在呈贡的日子——复习资料不见了
又翻到了一篇当时的记录,起因是复习资料太多,不方便随身携带,我将书藏在了图书馆的顶楼消防通道(阅览室在二楼,书藏在12楼附近),结果,被保安收走了。还依稀记得,午夜的保安们打着手电筒,在过道、门窗旮旯角、花瓶后面到处翻找考研er书的情节,好一波猫鼠游戏。 下面是当时的记录: 一早上来图书馆,发现书不见了。从7点多折腾到现在(8:55)才从管理员处拿到了我的复习资料。数了数应该是没有丢失,悬着的一颗心总算放了下来。已经过了早点的时间,早点是吃不成了。 可是接下来的晚上我应该如何安置我的书呢?住的地方离图书馆近5公里,将全部的书背进背出是断然不行的。 Plan 1:把书精减一下,每天只带当...
在呈贡的日子——捞鱼河
今日写论文写乏了,就去翻了翻以前记的笔记,翻到了在呈贡学习生活时期的记录。想当初,我为了逃避家人亲戚带来的压力、独自一人去呈贡寻求一片清净之地复习备考,时光匆匆,一晃几年过去了,令人感叹。 虽看以前记录的文字略显幼稚,但为了保证记录的真实性,我一字不落的照搬了过来,下面是当时的记录: 不知不觉就到了月末,在呈贡已经快一个月了。最近天天泡图书馆,感觉效率有点下降,而我对除校园之外的周边环境还一无所知,趁着没下雨的周六就出去看了看。 上午配置好无线AP找了个共享车就骑了出去,没多久(约30分钟)就到了滇池边上的捞鱼河公园。虽然是周末由于随时会下雨的样子,公园里面人不多,很是清静。 公园依滇池...
avatar
茄子
我是茄子,一个热爱生活的小伙子!