如果你不想花钱就调用AI的API接口,可以用谷歌,但是需要翻。。。最近发现Mistral也可以,来自欧洲的AI,免翻还不用充值。。。支持OCR调用。
先登录官网:https://mistral.ai,点击右上方的“try the API",弹出登录页面,直接用微软账号登录,话说该拥有个微软账号了,某度广告泛滥,bing是个不错的选择。
使用微软账号登录。
登陆后,就进入API申请页面了,点击左侧的API key,
创建一个key,并复制下来,因为关闭页面后就不可再看该KEY了,如果以后忘了,可以删除后,再创建,提示可以创建10个。
好了,有了Key了,就可以愉快的玩耍了。。。。
怎么用呢?看官方教程,点击docs,再点击左侧的OCR。。。
当然了,用python第一步是要装库的,pip install mistralai,硬装就行了
例如,我们转换一个扫描版的PDF文件为MD格式,找到文档的OCR with uploaded PDF,将下面的代码复制到IDE中,修改下KEY和文件名就行了。
参考代码如下:
[Python] 纯文本查看 复制代码 import os
from mistralai import Mistral
api_key = "你的API Key"
client = Mistral(api_key=api_key)
uploaded_pdf = client.files.upload(
file={
"file_name": "2.pdf",
"content": open("2.pdf", "rb"),
},
purpose="ocr"
)
client.files.retrieve(file_id=uploaded_pdf.id)
signed_url = client.files.get_signed_url(file_id=uploaded_pdf.id)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type": "document_url",
"document_url": signed_url.url,
}
)
print(ocr_response)
结果如下:
如何转成MD格式呢?我们观察一下这个结果ocr_response里面的pages是一个列表,可以自己把ocr_response.pages打印出来看一下,其实列表里面的项就是mistral识别到的PDF文件的每一页,一页一个列表的项。
先测试一下第一项ocr_response.pages[0],虽然有点复杂,但是里面有一个markdown,我们可以打印出来看一下
打印markdown,里面就是MD格式的内容,接下来就方便了,直接另存为MD格式就行了。
print(ocr_response.pages[0].markdown)
另存为MD格式参考代码:
[Python] 纯文本查看 复制代码 # 将字符串保存为 Markdown 文件
with open("example.md", "w", encoding="utf-8") as file:
file.write(content)
print("Markdown 文件已保存为 'example.md'")
如果多页的话,我们用for循环一下ocr_response.pages,再拼接一下另存为MD就行了。
PDF搞定了,图片就简单了,按照教程做就行了,不在重复了。另外,他还能理解文档,这个没测试,小伙伴们自己玩一下吧。
好了,就分享到这里了。有疑问随时沟通。
|