奥特曼

@tianchiguaixia

专注于领域：知识图谱，问答系统，多模态信息抽取等

上海

Followers

Following

Public Repos

Private Repos

Language Breakdown

Lines of code distribution across 16 owned repositories

6.0M Total LOC

PHP

3,342,626 lines

55.3%

N/A

CSS

1,943,414 lines

32.2%

N/A

JavaScript

601,171 lines

9.9%

N/A

Python

71,477 lines

1.2%

N/A

Jupyter Notebook

60,408 lines

1.0%

N/A

Other

23,508 lines

0.4%

N/A

T-Shaped Developer

T-shaped

Deep in PHP with broad versatility

PHP

CSS

JavaScript

Python

Jupyter Notebook

Collaboration Network

Global Impact visualization

LIVE

0 active collaborators

Repos

PRs

Growth

+18%

Top Collaborators

No collaborator data yet.

Coding Streak

Contribution activity over the past year

0 days

Contributions

Commits

Pull Requests

Jun Jul Aug Sep Oct Nov Dec Jan Feb Mar Apr May Jun

Based on GitHub activity

Less

Followers 46

249189594

@249189594

Cao Jiayin

@hunshui

caolixian

@caolixian

zlf0307

@zlf0307

guofei1989

@guofei1989

View All

Following

12 total

wisdom-pan

@wisdom-pan

IntSig

@intsig-textin

Hao Fei

@scofield7419

zswvivi

@zswvivi

Winning Health AI Research

@winninghealth

View All Network

Synced via GitHub

Top Repositories

layoutlmv3-chinese

该项目是为了使用layoutlmv3针对中文图片训练和推理。其中主要解决三个问题： 1.数据标准化成可以的训练数据集格式 2.layoutlmv3-base-chinese 分词修改 2.超过512长度的文本切分和滑窗操作

63 14

Python

build-chatgpt-website

1.搭建自己的在线的chatgpt网站 2.通过自己的网站对用户按量收费在线体验：http://www.online-gpt5.com/

48 17

PHP

medical_ocr_streamlit

该项目主要是为了识别图片里面的表格数据，并将表格数据抽取处理，导出成csv的文件。整个项目会使用streamlit进行部署和展示。使用的技术：paddleocr，PPStructure，streamlit

34 4

Python

medical_records_extract

该项目主要是抽取病历文件中的一些关键信息。并将抽取的内容进行streamlit前端的展示。目前支持的文件类型：图片，pdf文件，word文件

25 7

Python

text_classification

该项目通过新闻数据集演示文本分类全流程：数据清洗，模型训练，模型部署和前端展示。使用的模型和工具：pytorch，bert，streamlit

18 0

Python

qwen1.5-ner

使用Qwen1.5-0.5B-Chat模型进行通用信息抽取任务的微调，旨在：验证生成式方法相较于抽取式NER的效果；为新手提供简易的模型微调流程，尽量减少代码量；大模型训练的数据格式处理。

14 0

Python

ocr_recognition

微调阿里开源的文字检测模型，利用合合识别返回的OCR结果作为初始训练数据，对模型进行优化训练，使其更加适应1万张图片的具体场景，提高文字识别的精度。

10 0

ocr-detection

微调阿里开源的文字检测模型，利用合合识别返回的OCR结果作为初始训练数据，对模型进行优化训练，使其更加适应1万张图片的具体场景，提高文字区域检测的精度，优化边界框质量，减少漏检和误检。

8 0

Python

tianchiguaixia-textin_pdf_to_markdown_mcp

合合通用文档解析mcp

针对图片敏感信息进行涂鸦打码

Open Source Impact

Contributions to external projects

0 merged PRs

No external contributions found.